inflearn logo
강의

Course

Instructor

Kaggle Advanced Machine Learning Practical Crash Course

LightGBM Installation and Precautions When Using Google Cloud

손실함수에 대한 질문

344

shingeon944656

19 asked

0

안녕하세요 선생님,

공부를 하다가 손실함수 부분에 대해서 질문이 있어서 이렇게 문의드립니다

 

다름이 아니고 시계열 자료를 분석하고 있는데, 정상성을 확보하기 위해서 차분을 하고 LIGHT GBM과 RANDOM FOREST로 회귀분석을 했는데

실제값은 0.1 ~ 0.8으로 많이 움직이지만, 예측값은 그냥 평균값이 0.4로 고정을 해서 오차에 대한 값이 그렇게 크게 나오지 않습니다.

 

이럴 경우는 어떻게 해야할까요?LIGHT GBM.png

머신러닝 kaggle

Answer 1

1

dooleyz3525

안녕하십니까,

지금 실제값은 0.1 ~ 0.8 인데 예측값은 지속적으로 0.4를 벗어나지 않는다는 건가요?

음, 이건 손실함수의 문제가 아니라 뭔가 모델이 잘못 만들어진것 같습니다.

예측 할 때는 차분을 적용하셨는데, 실제값도 차분을 적용했는데 0.1 ~ 0.8 인가요?

 

0

shingeon944656

네 맞습니다 . 예측값이 계속 0.4로 나오고 있습니다

 

실제값과 변수들에 대해서 모두 차분을 적용했습니다

 

모델이 잘못되었다면 어떤 부분을 봐야하나요?

0

dooleyz3525

뭔가 scaling등이 실제값과 예측값에 서로 잘못 적용된 부분은 없나요?

아니면 평활법으로 다시 한번 적용해 보시지요.

0

shingeon944656

선생님 밑에 사진이 light gbm과 scaled이 적용된 (차분 적용) 데이터 입니다 - (데이터는 빈공간에는 전 데이터를 가져오는 식으로 만들었습니다. - 예) 5/1 과 5/3 사이에 데이터가 없으면 공휴일이나 거래장이 없다고 생각해서 5/1일 데이터를 5/2로 끌고 왔습니다, 거래량이 0인 것들은 제외)

 

혹시 위의 코딩에 문제가 있을까요?

(vwap, SAMSUNG price diff, sam kospi diff vol = 피처엔지니어링 적용, normalized sentiment는 varder 비지도 감성사전 적용 (삼성주가 관련 영어 데이터))

 

감사합니다

 

감사합니다imageimage

1

dooleyz3525

아, 추가 업데이트가 있는걸 깜박했습니다. 가끔 댓글 업데이트 공지를 놓치기가 쉬워서...

근데 y 값은 왜 scale을 적용하신 건지요? Scaler는 학습데이터에만 적용하셔야 합니다.

그리고 lightgbm의 경우 트리 기반이므로 굳이 scaler를 적용하실 필요가 없습니다.

 

0

shingeon944656

안녕하세요 선생님, 선생님의 조언해주신대로 진행을 해봤는데 ...

제가 한 방향이

시계열 데이터 -> ACF로 정상성 확인 -> 비장성 데이터 (독립, 종속 변수) 차분 진행 -> MODEL에 대입 (스케일링 하지 않음 -> gpt에 물어보니 차분을 한 데이터에는 fit_transform을 하지 말라고해서 하지 않음) -> 머신러닝 회귀 및 딥러닝 (lstm, rnn)에 모두 테스트 -> 모두 오차를 잡지를 못하고 있는 상태 (오차가 엄청 크게 나옴)

ps. train test split을 하기전에 df에 스케일링을 적용해도 오차를 잡지 못하는 상황입니다

ps. 차분을 하면 데이터의 오차를 잡지 못하지만 반대로 선생님이 말씀하신대로 이동평균 (10)을 적용하면 오차값이 매우 낮게 나오게 됩니다. 왜 이렇게 다른건가요???

 

무엇이 문제인지 잘 감이 잡히지 않습니다....

0

dooleyz3525

평활법을 적용하면 모델이 잘 만들어진다는 건가요? 그럼 평활법을 적용하시면 될 것 같습니다만... 굳이 차분을 하셔야할 필요가 있으신지요?

0

shingeon944656

정상성을 만들기 위해서 평활법과 차분이 왜 모델이 다른 결과를 도출하는지 궁금해서 질문을 해보았습니다...

 

감사합니다

 

sql사용

0

46

2

좋은 강의 감사드립니다.

0

73

2

8분 40초경 LGBClassifier에서 설정해주신 파라미터들 관련 질문

0

246

2

사용 가능한 RAM을 모두 사용한 후 세션이 다운되었습니다

0

601

1

안녕하세요 선생님

0

228

1

권철민교수님 진심으로 감사드립니다.

0

319

1

안녕하세요 선생님

0

351

1

# credit_card_balance 데이터셋 피쳐엔지니어링

0

268

1

초거대 데이터셋을 Submission하려면?

0

190

1

Library 관련 질문

0

351

3

최적화 함수 에러

0

589

4

LightGBM Iteration관련

0

423

2

안녕하세요 교수님 vm 관련해서 질문이 있습니다.

0

204

1

코드를 실행했는데 오류가 발생합니다

0

1981

2

bayes_opt 회귀 모델에 적용하려면..

0

267

1

타겟값의 로그변환에 대해서

0

781

1

아나콘다 환경설정

0

460

1

깃허브 주소 문의드립니다.

0

360

1

card_bal 데이터셋 시각화 관련 질문입니다

0

231

1

LGBM null값 처리에 관해 질문있습니다

0

540

1

컬럼 관련 질문

0

281

1

히스토그램 x 값

0

365

1

n_iter 횟수 넘음 질문

0

492

2

학습데이터 테스트데이터 분리

0

324

1