-
내 데이터에는 무슨 모델이 적합할까?SciKit카테고리 없음 2022. 1. 7. 10:57
https://www.youtube.com/watch?v=WCEXYvv-T5Q&t=657s
회귀(Regression) : 예측해야할 데이터가 연속적인 값 일때 회귀 라고 함
많은 데이터 모델을 한 번에 스택 가능하고 학습 시키고 예측시킬 수 있다는 장점이 있다.
데이터 가공(ETL)을 거쳐 모델을 훈련하고 예측하는 과정을 transformers 가 해줌
센서별, 타임별로 있으므로 이런 값들을 예측하기 위해서는 두가지 접근이 필요함
pipeline API 에는 transformer(s) 와 Estimator 가 있다. 깔끔하게 이 것을 캡슐화한 것이다.
Estimator 를 추상기라고 부르자.
추상기(pipeline)는 인스턴스화 되었다
힙 메모리에 있다는 뜻이다.
파이프라인 안에 파이프라인을 만들 수 있을 정도로 유연하다
reg 라는 객체를 빨간색선으로 생성!
reg = Logistic_regression() 이 이런 뜻이다.
from sklearn.metrics import mean_squared_error
x1 = np.sqrt(x)
error = mean_squared_error(x1, y)
print(error)제곱한 값이 입력으로 들어가고, y 는 제곱할 필요가 없다.
따라서 x 만 np.sqrt 해서 제곱해준다.
특성 행렬 = x
타겟 벡터 = y 이다.
X_train = data.data[:142] #행을 자르는 np.slice 앞에서 부터 142개 까지 얻어옴
X_test = data.data[142:] # 142부터 끝까지
print(X_train.shape, X_test.shape)결과는 이렇게 나온다.
train_test_split()은 반환값으로 4개의 원소로 이루어진 list를 반환.--> 값이 바뀔 수 있는 데이터 형태.
[] 을 써서 원소를 알아낸다.