인프런 커뮤니티 질문&답변

thgfd92님의 프로필 이미지
thgfd92

작성한 질문수

캐글 Advanced 머신러닝 실전 박치기

previous_application 주요 피처 EDA 수행 - 연속형 값 분석

0과 1의 분포가 비슷한 경우 질문 드립니다.

작성

·

149

0

안녕하세요.

이번 강의에서 distplot으로 target값에 따른 분포도에서 비슷한 분포를 보이는 feature들이 많은 것 같습니다.

이러한 특성들은 0과 1을 분류하는데에 크게 의미가 있나요?

이러한 특성들을 넣고 성능을 계산하는게 좋은지, 의미가 크게 없다면 제외하고 성능을 계산해야 하는지 궁금합니다.

제가 가지고 있는 특성들이 9개 인데, 분류를 하고 있습니다.

제가 가진 특성들의 분포를 그려보면 거의 모든 특성들이 분포가 거의 동일한데, 이러한 상황에서는 어떠한 방법이 있을까요? 새로운 특성들을 만들어봐도 특별하게 분포가 달라짐을 보지는 못했습니다.

감사합니다.

답변 1

0

권 철민님의 프로필 이미지
권 철민
지식공유자

안녕하십니까, 

target값에 따른 분포도의 차이는 머신러닝 모델을 이해하기 위한 참고 사항입니다. 분포도의 차이가 target값에 따라서 반드시 있어야 하는 것은 아닙니다. 다만 개별 feature값들의 분포도나 다른 데이터적 특성이 target 값에 따라 차이가 있을 경우 해당 feature들이 모델에서의 역할이 클 수도 있을 가능성이 높지만, 그렇다고 분포도가 target 값에 따라 큰 차이가 없다고 모델에서의 역할이 미비하다고 단정 지을 수 없습니다. 

분포도외에도 여러가지 데이터적 특성이 target 값에 따라 달라질 수 있으며(예를 들어 평균, percentile, 표준 편차등), 어떤 feature가 어떤 중요도를 가지는 지는 모델을 적용 시켜서 파악하는게 제일 정확 할 수 있습니다. 

제가 설명 드린 분포도의 차이는 모델을 보다 설명 가능할 수 있는 맥락을 만들기 위함으로 생각해 주셨으면 합니다. 

감사합니다. 

thgfd92님의 프로필 이미지
thgfd92

작성한 질문수

질문하기