inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

캐글 Advanced 머신러닝 실전 박치기

application 데이터 세트 주요 피처 EDA 수행 - 01(연속형 값 분석)

히스토그램의 y축 의미 질문

487

Abraham

작성한 질문수 20

0

안녕하세요.

시각화 우측에 히스토그램에서 y축이 의미하는 것이 무엇인지요?

X축은 AMT_CREDIT 값일텐데 y축은 어떻게 해석해야 하는지 궁금합니다. AMT_CREDIT을 예로 들면 단위가 1e-6  라서 단순히 비중(x축의 bin이 전체의 몇%를 차지하는지)은 아닌 것 같고, density 인가 추측해봅니다.

위와 별개로 kde 에서 density의 의미를 찾아봤으나 정확히 이해가 어려운데 설명해주실 수 있는지요?

kaggle 머신러닝 배워볼래요?

답변 1

0

권 철민

안녕하십니까,

seaborn의 distplot은 histogram을 측정할 x축의 값이 연속형 값으로 매우 많은 개별 값이 있을 경우 이를 가우스 분포와 같은 형태와 같은 거꾸로된 종모양의 확률 분포(Probability density)값으로 변경합니다. 이 거꾸로된 종모양의 전체 크기는 1이 됩니다.  이 전체 크기를 1이 되도록 Y값이 개별 x값 단위로 만들어지는데 x값이 너무 많아서 y값이 1e-6과 같이 작은 값으로 나타나게 되었습니다.

감사합니다.

sql사용

0

44

2

좋은 강의 감사드립니다.

0

73

2

8분 40초경 LGBClassifier에서 설정해주신 파라미터들 관련 질문

0

246

2

사용 가능한 RAM을 모두 사용한 후 세션이 다운되었습니다

0

597

1

안녕하세요 선생님

0

228

1

권철민교수님 진심으로 감사드립니다.

0

319

1

안녕하세요 선생님

0

351

1

# credit_card_balance 데이터셋 피쳐엔지니어링

0

267

1

초거대 데이터셋을 Submission하려면?

0

190

1

Library 관련 질문

0

350

3

최적화 함수 에러

0

587

4

LightGBM Iteration관련

0

422

2

안녕하세요 교수님 vm 관련해서 질문이 있습니다.

0

203

1

코드를 실행했는데 오류가 발생합니다

0

1981

2

bayes_opt 회귀 모델에 적용하려면..

0

267

1

타겟값의 로그변환에 대해서

0

779

1

아나콘다 환경설정

0

459

1

깃허브 주소 문의드립니다.

0

358

1

손실함수에 대한 질문

0

342

1

card_bal 데이터셋 시각화 관련 질문입니다

0

230

1

LGBM null값 처리에 관해 질문있습니다

0

538

1

컬럼 관련 질문

0

280

1

히스토그램 x 값

0

364

1

n_iter 횟수 넘음 질문

0

487

2