내 데이터에는 무슨 모델이 적합할까?SciKit

내 데이터에는 무슨 모델이 적합할까?SciKit

카테고리 없음 2022. 1. 7. 10:57

https://www.youtube.com/watch?v=WCEXYvv-T5Q&t=657s

회귀(Regression) : 예측해야할 데이터가 연속적인 값 일때 회귀 라고 함

많은 데이터 모델을 한 번에 스택 가능하고 학습 시키고 예측시킬 수 있다는 장점이 있다.

데이터 가공(ETL)을 거쳐 모델을 훈련하고 예측하는 과정을 transformers 가 해줌

센서별, 타임별로 있으므로 이런 값들을 예측하기 위해서는 두가지 접근이 필요함

pipeline API 에는 transformer(s) 와 Estimator 가 있다.

깔끔하게 이 것을 캡슐화한 것이다.

Estimator 를 추상기라고 부르자.

추상기(pipeline)는 인스턴스화 되었다

힙 메모리에 있다는 뜻이다.

파이프라인 안에 파이프라인을 만들 수 있을 정도로 유연하다

reg 라는 객체를 빨간색선으로 생성!

reg = Logistic_regression() 이 이런 뜻이다.

from sklearn.metrics import mean_squared_error
x1 = np.sqrt(x)

error = mean_squared_error(x1, y)

print(error)

제곱한 값이 입력으로 들어가고, y 는 제곱할 필요가 없다.

따라서 x 만 np.sqrt 해서 제곱해준다.

특성 행렬 = x

타겟 벡터 = y 이다.

X_train = data.data[:142] #행을 자르는 np.slice 앞에서 부터 142개 까지 얻어옴
X_test = data.data[142:] # 142부터 끝까지
print(X_train.shape, X_test.shape)

결과는 이렇게 나온다.

train_test_split()은 반환값으로 4개의 원소로 이루어진 list를 반환.--> 값이 바뀔 수 있는 데이터 형태.

[] 을 써서 원소를 알아낸다.

저작자표시 비영리 변경금지 (새창열림)

ABOUT ME

파이토치 파이토치

티스토리툴바