0과 1의 분포가 비슷한 경우 질문 드립니다.
193
작성한 질문수 2
안녕하세요.
이번 강의에서 distplot으로 target값에 따른 분포도에서 비슷한 분포를 보이는 feature들이 많은 것 같습니다.
이러한 특성들은 0과 1을 분류하는데에 크게 의미가 있나요?
이러한 특성들을 넣고 성능을 계산하는게 좋은지, 의미가 크게 없다면 제외하고 성능을 계산해야 하는지 궁금합니다.
제가 가지고 있는 특성들이 9개 인데, 분류를 하고 있습니다.
제가 가진 특성들의 분포를 그려보면 거의 모든 특성들이 분포가 거의 동일한데, 이러한 상황에서는 어떠한 방법이 있을까요? 새로운 특성들을 만들어봐도 특별하게 분포가 달라짐을 보지는 못했습니다.
감사합니다.
답변 1
0
안녕하십니까,
target값에 따른 분포도의 차이는 머신러닝 모델을 이해하기 위한 참고 사항입니다. 분포도의 차이가 target값에 따라서 반드시 있어야 하는 것은 아닙니다. 다만 개별 feature값들의 분포도나 다른 데이터적 특성이 target 값에 따라 차이가 있을 경우 해당 feature들이 모델에서의 역할이 클 수도 있을 가능성이 높지만, 그렇다고 분포도가 target 값에 따라 큰 차이가 없다고 모델에서의 역할이 미비하다고 단정 지을 수 없습니다.
분포도외에도 여러가지 데이터적 특성이 target 값에 따라 달라질 수 있으며(예를 들어 평균, percentile, 표준 편차등), 어떤 feature가 어떤 중요도를 가지는 지는 모델을 적용 시켜서 파악하는게 제일 정확 할 수 있습니다.
제가 설명 드린 분포도의 차이는 모델을 보다 설명 가능할 수 있는 맥락을 만들기 위함으로 생각해 주셨으면 합니다.
감사합니다.
sql사용
0
58
2
좋은 강의 감사드립니다.
0
82
2
8분 40초경 LGBClassifier에서 설정해주신 파라미터들 관련 질문
0
261
2
사용 가능한 RAM을 모두 사용한 후 세션이 다운되었습니다
0
621
1
안녕하세요 선생님
0
238
1
권철민교수님 진심으로 감사드립니다.
0
321
1
안녕하세요 선생님
0
358
1
# credit_card_balance 데이터셋 피쳐엔지니어링
0
273
1
초거대 데이터셋을 Submission하려면?
0
194
1
Library 관련 질문
0
356
3
최적화 함수 에러
0
598
4
LightGBM Iteration관련
0
432
2
안녕하세요 교수님 vm 관련해서 질문이 있습니다.
0
208
1
코드를 실행했는데 오류가 발생합니다
0
2000
2
bayes_opt 회귀 모델에 적용하려면..
0
270
1
타겟값의 로그변환에 대해서
0
786
1
아나콘다 환경설정
0
464
1
깃허브 주소 문의드립니다.
0
363
1
손실함수에 대한 질문
0
351
1
card_bal 데이터셋 시각화 관련 질문입니다
0
237
1
LGBM null값 처리에 관해 질문있습니다
0
545
1
컬럼 관련 질문
0
283
1
히스토그램 x 값
0
368
1
n_iter 횟수 넘음 질문
0
498
2





