질문드립니다.
176
작성한 질문수 22
한쪽으로 데이터가 너무 스큐되어 있어서
cond_amt=df[column]<500000 이렇게 필터링 해주었는데 만약 500000이상일때 중요한 데이터가 있어서 학습 못시키는 경우도 있는가요??
답변 1
0
안녕하십니까,
음, 질문을 제가 잘 이해했는지 모르겠습니다만,
cond_amt=df[column]<500000 으로 한 이유는 outlier성 데이터는 제외하고 분포도를 시각화 해보고자 한 것입니다. 학습은 이후 강의에서도 보시겠지만, 필터링 하지 않고 전체 데이터를 다 사용합니다.
감사합니다.
sql사용
0
58
2
좋은 강의 감사드립니다.
0
82
2
8분 40초경 LGBClassifier에서 설정해주신 파라미터들 관련 질문
0
261
2
사용 가능한 RAM을 모두 사용한 후 세션이 다운되었습니다
0
621
1
안녕하세요 선생님
0
238
1
권철민교수님 진심으로 감사드립니다.
0
322
1
안녕하세요 선생님
0
358
1
# credit_card_balance 데이터셋 피쳐엔지니어링
0
273
1
초거대 데이터셋을 Submission하려면?
0
194
1
Library 관련 질문
0
357
3
최적화 함수 에러
0
598
4
LightGBM Iteration관련
0
433
2
안녕하세요 교수님 vm 관련해서 질문이 있습니다.
0
208
1
코드를 실행했는데 오류가 발생합니다
0
2000
2
bayes_opt 회귀 모델에 적용하려면..
0
270
1
타겟값의 로그변환에 대해서
0
786
1
아나콘다 환경설정
0
465
1
깃허브 주소 문의드립니다.
0
364
1
손실함수에 대한 질문
0
351
1
card_bal 데이터셋 시각화 관련 질문입니다
0
237
1
LGBM null값 처리에 관해 질문있습니다
0
546
1
컬럼 관련 질문
0
283
1
히스토그램 x 값
0
369
1
n_iter 횟수 넘음 질문
0
500
2





