inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[개정판] 파이썬 머신러닝 완벽 가이드

KDE(Kernel Density Estimation)의 이해와 사이킷런을 이용한 MeanShift 군집화 실습

KDE에 관한 질문

405

uuhbae2

작성한 질문수 6

0

선생님 안녕하세요. 두가지 질문이 생겨서 글 남깁니다.

  1. 여기서 왜 trapz(density, support)로 나누는지 잘 이해가 되지 않습니다.

density = np.sum(kernels, axis=0)

density /= trapz(density, support)

 

위에 sum을 하는 이유는 이해가 됩니다. 각 관측치에 커널함수를 적용하고 그 값을 더해서 합산한 것을 구하기 때문입니다.

 

두번째 질문

책 2020판 428p에, KDE에 관한 식이 있습니다. 그런데 왜 x-xi 인지 궁금합니다. 제 생각엔 각 관측치인 xi만을 커널함수에 넣어서 더하고

총 개수로 나누는 것으로 이해하는 데, 혹시 정규화를 하는 것이여서 그런가요? 그렇다면 x는 전체 30개의 평균을 말하는 것이고, h로 나눠서 정규화하는 것인가요?

만일 그런 것이라면, 3) nh로 정규화된 녀석을 한번 더 나눠주는 이유는 무엇인가요? n으로 나누는 건 알겠는데 또 h가 붙는건 잘 이해가 안됩니다..ㅠ

 

이상 읽어주셔서 감사합니다.

python 통계 머신러닝 배워볼래요?

답변 1

1

권 철민

안녕하십니까,

  1. trapz(density, support)를 적용하지 않고 데이터 건수인 30으로 나눠도 무방합니다. seaborn의 구현 소스가 trapz(density, support)로 되어 있기에 적용 했을 뿐입니다. trapz(density, support)를 적용한 이유는 수치 적분으로 kernel의 합에 대한 보다 정교한 정규화 적용을 위한 것으로 보입니다.

 

  1. KDE의 정의가 그렇게 되어있습니다.

    KDE는 관측된 데이터마다 해당 데이터를 중심으로 하는 커널 함수를 생성하여 더한 뒤, 데이터 개수로 나누어서 만듭니다. 이때 개별 관측데이터에 커널 함수를 생성한다는 의미는 해당 관측 데이터를 중심으로 하는 커널 함수를 생성한다는 것이지 그냥 관측 데이터를 커널 함수의 인자로 넣는게 아닙니다(개별 관측 데이터를 그냥 인자로 넣으면 함수가 만들어지지 않습니다)

    이를 위해서 K(x - xi)가 적용되는 것입니다.

    요약하자면 KDE는 관측된 데이터를 기반으로 모수 데이터(random 변수 x)의 특성인 확률 밀도를 찾아내는 것으로 관측된 데이터 주변에 어떻게 random 변수 x값들이 모여있는지에 대한 특성을 기반으로 확률 밀도를 찾아내는 것입니다.

     

    감사합니다.

모델 서빙과 관련된 강좌가 출시되는지 질문드립니다.

0

55

2

안녕하세요 열심히 수강중인 학생입니다

0

91

2

정수 인덱싱

0

86

2

넘파이 오류

0

113

2

11강 numpy의 axis 축 질문 드립니다.

0

107

2

Kaggle 에서 Santander customer satisfaction data 를 다운로드 되지가 않습니다.

0

96

2

Feature importances 를 보여주는 barplot 이 그래프로 안보여져요.

0

79

2

타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.

0

83

2

타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.

0

75

2

5강 강의 오류가 있어요.

0

90

1

실무에서 LTV 관련 모델 선택 질문입니다!

0

81

2

14강 강의 듣는중에 궁금한게 있어서 질문합니다~

0

79

3

파이썬 다운그레이 후 사이킷런 재설치

0

131

2

좋은 강의 감사합니다.

0

80

2

scoring 함수 음수값

0

74

2

6번 강의에 사이킷런, 파이썬, 아나콘다 각각 버전 일치 안 시키고 진행해도 강의 따라가 지나요?

0

108

2

분류 평가 정확도 예측

0

90

2

안녕하세요. 강의 들으면서 업무에 적용하고 싶은 수강생입니다.

0

114

1

카카오톡 채널 있나요

0

119

1

혹시 강의에서 사용하시는 ppt 받을 수 있는건가요

0

193

2

pca 스케일링 관련하여 질문드립니다.

0

109

2

주피터 대신 구글 코랩

0

184

2

강의에서 사용하는 pdf or ppt자료는 따로 없는 건가요?

0

156

2

실루엣 스코어..

0

93

2