오토인코더+ Knn, SVC 로 해석하는경우
41
18 câu hỏi đã được viết
강사님 안녕하세요... 강의 잘듣고 잇습니다.
이번에 강의해주신 오토인코더+ 분류모델(Knn, SVC)에 관해서 질문드리겟습니다.
위모델로 이상치예측성능은 좋게 나왓는데, 실무에서는 왜 예측이 됫는지, 원본데이터의 설명변수를 가지고 설명할수 잇게할려면은 어떻게 해야하는지요?
Câu trả lời 3
0
딥러닝, SVC, 앙상블(Random Forest, XGBoost) 같은 것들은, 내부 구조가 복잡해서 "왜 이렇게 예측했는지" 이해하기 어려원서 Blackbox 모델이라고 합니다. 이번 실습의 Autoencoder + SVC 조합이 여기에 해당합니다. 해석 가능한 모델 (White box 모델)은 Decision Tree 같은 모델이고요. 그래도 굳이 원본 데이터의 설명변수가 어떻게 예측 결과에 영향을 끼지는지 아시고 싶으시면 아래에 인프런 AI 가 제안해 준 SHAP 같은 방법이 있지만 방법 자체가 이해하기 어렵고, 쉬운 접근법은 원본 변수와 인코딩 변수 간 상관분석을 하는 방법인데,
encoded = encoder_all.predict(X_train)
corr = np.corrcoef(X_train.T, encoded.T)[:30,30:]
원본 변수별로 어떤 인코딩 변수와 상관 관계가 높은지 확인해 보시면 참고가 될 수 있을겁니다. 좋은 질문 감사합니다.
0
안녕하세요, 인프런 AI 인턴입니다.
anycad11님이 머신러닝과 딥러닝을 활용한 이상거래 탐지 강의를 듣고 오토인코더와 분류모델(KNN, SVC)를 적용하여 얻은 결과에 대해 더 깊이 파고들고자 하시는 점, 정말 훌륭한 접근입니다. 실무에서는 모델의 예측 이유를 설명할 수 있는 해석 가능성(interpretability)이 매우 중요합니다. 이와 관련하여 몇 가지 방법을 제안드립니다.
특성 중요도(Feature Importance):
- SVC와 같은 모델에서는 특성 중요도를 직접적으로 제공하지 않지만, 트리 기반 모델이나 로지스틱 회귀에서는 특성의 중요도를 확인할 수 있습니다. KNN은 비선형 모델이라 해석이 직관적이지 않습니다.
- SHAP (Shapley Additive exPlanations)이나 LIME (Local Interpretable Model-agnostic Explanations)을 통해 어떤 특성들이 예측에 얼마나 영향을 미쳤는지를 분석할 수 있습니다. SHAP는 게임 이론에 기반한 툴로써 개별 예측 값에 대한 특성의 공헌도를 제공합니다.
- SVC와 같은 모델에서는 특성 중요도를 직접적으로 제공하지 않지만, 트리 기반 모델이나 로지스틱 회귀에서는 특성의 중요도를 확인할 수 있습니다. KNN은 비선형 모델이라 해석이 직관적이지 않습니다.
오토인코더의 재구성 오류 분석:
- 오토인코더의 출력과 입력 간의 차이를 분석하여 어떤 특성이 이상치로 작용했는지를 찾을 수 있습니다. 재구성 오류가 크게 나타나는 피처가 무엇인지 분석하면, 이상치의 원인을 파악할 수 있습니다.
- 오토인코더의 출력과 입력 간의 차이를 분석하여 어떤 특성이 이상치로 작용했는지를 찾을 수 있습니다. 재구성 오류가 크게 나타나는 피처가 무엇인지 분석하면, 이상치의 원인을 파악할 수 있습니다.
시각적 분석:
- PCA나 t-SNE 같은 차원 축소 기법을 활용해 데이터의 분포를 2D 또는 3D로 시각화하고, 이상치가 어떤 특성들을 통해 분포에서 벗어났는지를 시각적으로 확인합니다.
- PCA나 t-SNE 같은 차원 축소 기법을 활용해 데이터의 분포를 2D 또는 3D로 시각화하고, 이상치가 어떤 특성들을 통해 분포에서 벗어났는지를 시각적으로 확인합니다.
이러한 방법들을 활용하면 예측 모델의 내부 작동 및 예측된 이상치에 대한 설명 가능성을 높여 실무 적용성을 강화할 수 있습니다. 관련된 질문과 답변이 있는 인프런 강의의 추가 학습 자료나 소스를 참고하면 도움이 될 것입니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
질문 드립니다.
0
32
2
20강에서 파인튜닝 때 사용한 데이터가 없어졌습니다. LoRA Trainer 매개변수도 라이브러리 업그레이드로 수정되었습니다.
0
13
1
강의 내용 관련 질문드립니다~
0
29
2
퍼플렉시티 최소 결제단위 50달러로 바뀐 것 같습니다.
0
31
2
수강 연장 문의
0
27
1
강의자료 일괄 다운로드
0
34
2
list 문제 질문드립니다~
0
25
2
빅분기 실기 12회 재도전
0
37
1
강의 기간 연장 가능여부 검토 요청건
0
27
1
수강기간 연장 문의 드립니다
0
34
2
claude plugin 방법 자세히 부탁드려요
0
35
2
수강기간 연장 문의드립니다
0
43
2
질문이요
0
48
2
[개정판] 딥러닝 컴퓨터 비전 완벽 가이드 먼저? 구현하며 배우는 Transformer 먼저?
0
23
1
수업자료
0
21
2
파트3 13F부분도 짤린거같은데 확인해주세요
0
34
2
VAE 모델 loss 계산하는 부분 오류
0
254
2
features 수가 작을 경우의 Dense 설정 문의
0
218
1
라이브러리 임포트 시 경고 메세지가 뜹니다.
0
560
1
오토인코더를 특성 추출기로 사용하는 방법에 대해 질문
0
250
1
실습: 001. Imbalanced Dataset Sampling 관련 질문
0
1176
2
깃헙의 자료와 강의의 실습 내용이 다릅니다.
0
264
1
섹션2. DNN 이진분류 part2에서 pos, neg에 대해 질문드립니다.
0
564
1
SMOTE를 활용한 데이터 생성
0
552
1

