ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 내 데이터에는 무슨 모델이 적합할까?SciKit
    카테고리 없음 2022. 1. 7. 10:57

     

    https://www.youtube.com/watch?v=WCEXYvv-T5Q&t=657s

    귀(Regression) : 예측해야할 데이터가 연속적인 값 일때 회귀 라고 함

    많은 데이터 모델을 한 번에 스택 가능하고 학습 시키고 예측시킬 수 있다는 장점이 있다.

    데이터 가공(ETL)을 거쳐 모델을 훈련하고 예측하는 과정을 transformers 가 해줌

    센서별, 타임별로 있으므로  이런 값들을 예측하기 위해서는 두가지 접근이 필요함

    pipeline API 에는 transformer(s) 와 Estimator 가 있다.

    깔끔하게 이 것을 캡슐화한 것이다.

    Estimator 를 추상기라고 부르자.

    추상기(pipeline)는 인스턴스화 되었다

    힙 메모리에 있다는 뜻이다. 

    파이프라인 안에 파이프라인을 만들 수 있을 정도로 유연하다

    reg 라는 객체를 빨간색선으로 생성!

    reg = Logistic_regression() 이 이런 뜻이다. 

     

    from sklearn.metrics import mean_squared_error
    x1 = np.sqrt(x)

    error = mean_squared_error(x1, y)


    print(error)

    제곱한 값이 입력으로 들어가고, y 는 제곱할 필요가 없다.

    따라서 x 만 np.sqrt 해서 제곱해준다.

    특성 행렬 = x

    타겟 벡터 = y 이다.

    X_train = data.data[:142] #행을 자르는 np.slice 앞에서 부터 142개 까지 얻어옴
    X_test = data.data[142:] # 142부터 끝까지
    print(X_train.shape, X_test.shape)

    결과는 이렇게 나온다.

    train_test_split()은 반환값으로 4개의 원소로 이루어진 list를 반환.--> 값이 바뀔 수 있는 데이터 형태.

    [] 을 써서 원소를 알아낸다.

     

     

Designed by Tistory.