인프런 영문 브랜드 로고
인프런 영문 브랜드 로고

Inflearn Community Q&A

neochoe10771349's profile image
neochoe10771349

asked

[Revised Edition] The Complete Guide to Python Machine Learning

Classification Exercise 2: Credit Card Fraud Prediction Exercise - 03

히트맵과 pca에 대한 질문입니다

Written on

·

207

0

1. 히트맵을 보면 Time, Amount, Class와 만나는 컬럼 외에는 상관계수가 모두 0으로 표시되는거 같은데, pca를 해서 이렇게 뜨는건가요? 어떻게 모두 0이 될 수가 있는지 모르겠습니다.

2. 그리고 신용카드 데이터가 pca된거라고 하셨던거 같은데, pca는 연속형 데이터에만 하는지 범주형 데이터에도 할 수 있는지 궁금합니다

통계머신러닝 배워볼래요? python

Answer 1

0

dooleyz3525님의 프로필 이미지
dooleyz3525
Instructor

안녕하십니까,

1. 네, 말씀하신대로 pca 변환을 통해 해당 컬럼간의 상관 계수가 거의 0에 가깝게 만들어진것 같습니다. 상관계수는 공분산에 기반하고 있으며 PCA 는 공분산을 고유 벡터들로 분해하는데 PCA 차원별로 개별 고유 벡터들이 서로 직각을 이루고 있어서 상관도가 0에 가깝게 만들어지는것 같습니다.

2. PCA는 데이터값의 공분산에 기반하고 있으므로 일반적으로 연속형 데이터에 주로 적용합니다. 가급적이면 범주형 데이터에는 적용을 피하면 좋지만, 그렇다고 적용이 불가하지는 않습니다. 단 범주형 데이터에 적용시에는 차원 축소 효율이 떨어지게 됩니다.

감사합니다.

neochoe10771349's profile image
neochoe10771349

asked

Ask a question