inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[개정판] 파이썬 머신러닝 완벽 가이드

선생님 질문있습니다!

218

co choi

작성한 질문수 37

0

항상 강의 잘듣고 있습니다 :) 새해복 많이 받으세요!

 

1)분류실습 하다가 궁금한점이 있는데 데이터세트가 불균일한 경우에 임계값을 조정해서 업무에 맞게 정확도, 정밀도, 재현율을 구하잖아요? 그런데 만약 train 데이터셋의 모델이 임계값 0.6을 기준으로 만들어졌다면 test 셋에도 임계값을 조정한후 모델을 평가하나요?? 같은 의미로 standardscaler도 test셋에똑같이 적용해야하나요?

 

2)신용카드 사기 검출시 이상값 제거에 대해서

신용카드 사기검출 실습하는 도중 이상치제거에 대해서 의문점을 가지게 되어 질문드립니다!

제가 이 데이터를 분석하면서 target 값은 "Amount" 칼럼에 따라 결정된다고 생각했는데(혹은 가장 큰영향을 미친다고) 이러한 이유로 amount 칼럼에 이상치로 판별되는값이 사기로 판별되는 값이 아닌가? 라는 의문점을 가질수밖에 없었습니다.  단순히 이상치 제거를 하는 과정을 설명해주시기 위해 코드를 넣으신건지 아니면 제가 가진 의문점 처럼 이러한 사기검출 데이터셋에 이상치값을 함부러 제거하면 안되는게 맞는건지 알려주면 감사하겠습니다 :)

python 머신러닝 배워볼래요? 통계

답변 1

1

권 철민

안녕하십니까, 

1. standard scaler는 학습 데이터 기반으로 만들어진 standard scaler를 테스트 데이터에도 적용을 시켜줘야 합니다. 하지만 임계값 기준치 변경은 학습 데이터에 적용하는것이 아닙니다. 그러니까 데이터에 적용을 하는 것이 아닙니다. 모델에서 예측을 할 때 positive로 할것인지, negative로 할것인지에 대한 기준치를 설정하는 것입니다.  모델에서 예측 기준값을 변경해서 예측을 recall 또는 precision에 중점을 두고 예측을 하는 방법입니다. 

2. 제가 이 데이터를 분석하면서 target 값은 "Amount" 칼럼에 따라 결정된다고 생각했는데(혹은 가장 큰영향을 미친다고) 이러한 이유로 amount 칼럼에 이상치로 판별되는값이 사기로 판별되는 값이 아닌가? 라는 의문점을 가질수밖에 없었습니다.

=> Amount가 모델의 중요의 feature이긴 하지만, 절대적인 feature는 아닙니다.  amount가 이상치 값을 넘는다고 사기 거래가 되는 것도 아닙니다. 데이터를 확인해 보시면 amount가 일반적인데 사기값에 해당하는 경우가 많습니다. 

그리고,

단순히 이상치 제거를 하는 과정을 설명해주시기 위해 코드를 넣으신건지 아니면 제가 가진 의문점 처럼 이러한 사기검출 데이터셋에 이상치값을 함부러 제거하면 안되는게 맞는건지 알려주면 감사하겠습니다

=> 어떤 코드를 의미하신건지 잘 모르겠습니다만, 전반적으로는 이상치 제거를 하기 위한 기법을 말씀 드리기 위한  코드입니다.  원하시는 답변이 아니면 다시 업데이트 부탁드립니다. 

 

모델 서빙과 관련된 강좌가 출시되는지 질문드립니다.

0

50

2

안녕하세요 열심히 수강중인 학생입니다

0

86

2

정수 인덱싱

0

86

2

넘파이 오류

0

108

2

11강 numpy의 axis 축 질문 드립니다.

0

106

2

Kaggle 에서 Santander customer satisfaction data 를 다운로드 되지가 않습니다.

0

92

2

Feature importances 를 보여주는 barplot 이 그래프로 안보여져요.

0

76

2

타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.

0

83

2

타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.

0

73

2

5강 강의 오류가 있어요.

0

90

1

실무에서 LTV 관련 모델 선택 질문입니다!

0

81

2

14강 강의 듣는중에 궁금한게 있어서 질문합니다~

0

75

3

파이썬 다운그레이 후 사이킷런 재설치

0

128

2

좋은 강의 감사합니다.

0

79

2

scoring 함수 음수값

0

72

2

6번 강의에 사이킷런, 파이썬, 아나콘다 각각 버전 일치 안 시키고 진행해도 강의 따라가 지나요?

0

108

2

분류 평가 정확도 예측

0

87

2

안녕하세요. 강의 들으면서 업무에 적용하고 싶은 수강생입니다.

0

114

1

카카오톡 채널 있나요

0

117

1

혹시 강의에서 사용하시는 ppt 받을 수 있는건가요

0

193

2

pca 스케일링 관련하여 질문드립니다.

0

109

2

주피터 대신 구글 코랩

0

184

2

강의에서 사용하는 pdf or ppt자료는 따로 없는 건가요?

0

155

2

실루엣 스코어..

0

91

2