• 카테고리

    질문 & 답변
  • 세부 분야

    딥러닝 · 머신러닝

  • 해결 여부

    미해결

선생님 질문있습니다!

22.01.01 14:59 작성 조회수 125

0

항상 강의 잘듣고 있습니다 :) 새해복 많이 받으세요!

 

1)분류실습 하다가 궁금한점이 있는데 데이터세트가 불균일한 경우에 임계값을 조정해서 업무에 맞게 정확도, 정밀도, 재현율을 구하잖아요? 그런데 만약 train 데이터셋의 모델이 임계값 0.6을 기준으로 만들어졌다면 test 셋에도 임계값을 조정한후 모델을 평가하나요?? 같은 의미로 standardscaler도 test셋에똑같이 적용해야하나요?

 

2)신용카드 사기 검출시 이상값 제거에 대해서

신용카드 사기검출 실습하는 도중 이상치제거에 대해서 의문점을 가지게 되어 질문드립니다!

제가 이 데이터를 분석하면서 target 값은 "Amount" 칼럼에 따라 결정된다고 생각했는데(혹은 가장 큰영향을 미친다고) 이러한 이유로 amount 칼럼에 이상치로 판별되는값이 사기로 판별되는 값이 아닌가? 라는 의문점을 가질수밖에 없었습니다.  단순히 이상치 제거를 하는 과정을 설명해주시기 위해 코드를 넣으신건지 아니면 제가 가진 의문점 처럼 이러한 사기검출 데이터셋에 이상치값을 함부러 제거하면 안되는게 맞는건지 알려주면 감사하겠습니다 :)

답변 1

답변을 작성해보세요.

1

안녕하십니까, 

1. standard scaler는 학습 데이터 기반으로 만들어진 standard scaler를 테스트 데이터에도 적용을 시켜줘야 합니다. 하지만 임계값 기준치 변경은 학습 데이터에 적용하는것이 아닙니다. 그러니까 데이터에 적용을 하는 것이 아닙니다. 모델에서 예측을 할 때 positive로 할것인지, negative로 할것인지에 대한 기준치를 설정하는 것입니다.  모델에서 예측 기준값을 변경해서 예측을 recall 또는 precision에 중점을 두고 예측을 하는 방법입니다. 

2. 제가 이 데이터를 분석하면서 target 값은 "Amount" 칼럼에 따라 결정된다고 생각했는데(혹은 가장 큰영향을 미친다고) 이러한 이유로 amount 칼럼에 이상치로 판별되는값이 사기로 판별되는 값이 아닌가? 라는 의문점을 가질수밖에 없었습니다.

=> Amount가 모델의 중요의 feature이긴 하지만, 절대적인 feature는 아닙니다.  amount가 이상치 값을 넘는다고 사기 거래가 되는 것도 아닙니다. 데이터를 확인해 보시면 amount가 일반적인데 사기값에 해당하는 경우가 많습니다. 

그리고,

단순히 이상치 제거를 하는 과정을 설명해주시기 위해 코드를 넣으신건지 아니면 제가 가진 의문점 처럼 이러한 사기검출 데이터셋에 이상치값을 함부러 제거하면 안되는게 맞는건지 알려주면 감사하겠습니다

=> 어떤 코드를 의미하신건지 잘 모르겠습니다만, 전반적으로는 이상치 제거를 하기 위한 기법을 말씀 드리기 위한  코드입니다.  원하시는 답변이 아니면 다시 업데이트 부탁드립니다.