인프런 커뮤니티 질문&답변
작성자 없음
작성자 정보가 삭제된 글입니다.
머신러닝을 활용한 추출데이터 검증 질문
작성
·
265
0
안녕하세요!
피처별 중요도를 보고 실무에서 이런식으로 활용해보면 어떨까 궁금하여 질문드리게 되었습니다. ( 검색해도 원하는 정보가 안나와서요)
각 질문들에 대해 답변해주시면 정말 감사하겠습니다!
1) 어떤 가설을 세우고 필요하다고 생각되는 데이터를 추출 후, 추출한 데이터들의 피처 중요도를 구해서 내가 의미있는 데이터를 추출했는지 확인하는 용도로 써도 되나요 ? (정확도가 좋고 레이블이 달려있다고 가정)
2) 만약 분류기의 정확도가 낮으면 아직 데이터의 추출이 적절하지 못하고 부족하다고 판단해도 될까요? (레이블이 달려있다고 가정)
3) 만약 각 피처별 중요도를 계산했으나, 결국 각 피처별 중요도 비율이니까 정확도나 정밀도 재현율도 함께 고려하여 또 다시 데이터의 적절성이나 부족함을 판단할 수 있을까요?
답변주시면 정말 감사하겠습니다 ㅜㅜ
퀴즈
결정 트리(Decision Tree) 모델이 데이터를 분할(Split)할 때 사용하는 주요 기준 지표로 가장 적절한 것은 무엇일까요?
평균 제곱 오차 (Mean Squared Error)
정보 이득 (Information Gain) 또는 지니 계수 (Gini Coefficient)
회귀 계수 (Regression Coefficient)
주성분 (Principal Component)
답변 1
0
권 철민
지식공유자
안녕하십니까,
1번 질문 부터 제가 잘 이해를 못했습니다. 의미 있는 데이터를 추출한다는 것이 어떤 것인지요? 모집합이 있는데, 샘플로 추출한다는 의미 인지요?
10만건에서 만건을 추출하고 여기에서 피처 중요도를 구한 뒤에 만건 추출이 10만건을 대표할 만큼 잘 추출된건지를 확인하고자 하시는 건지요?
만약 그렇다면 피처 중요도는 그런 의미로 사용되기는 어렵습니다.
좀 더 질문을 자세하게 예를 들어서 적어주시면 제가 이해하기가 좀 더 수월할 것 같습니다.
감사합니다.





