inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[바이브 코딩 + AI 실무 데이터 분석] 런던 MBA 학생들이 열광한 수강평 5.0 만점 강의: 문과출신 비전공자도 현업에서 바로 써먹는 데이터분석 실무 역량과 취준 완성!

범주형 데이터 세트의 불균형 문제

165

소요요

작성한 질문수 1

0

안녕하세요, 수업을 듣다가 fraud detection을 예시로 주셨던 범주형 데이터 속성중에 세트 자체에서 불균형이 큰 경우, 예를 들어 yes 는 1000 개고 no 가 5개 밖에 없는 극단적인 불균형이 있을 때는 모델의 정확도를 맞추기 어렵다고 설명주신 부분에 질문이 있어요.

저도 사실 제 프로젝트를 하던중에 비슷한 문제가 있었어서 SMOTE같은 방법을 써서 어떻게 해서든 불균형 문제를 완화해보려고 노력했는데 주어진 데이터 자체가 너무 불균형이 심하면 설명주셨던 것처럼 별다른 방법을 찾지 못했습니다. 만약 그럼에도 불구하고 그 데이터가 중요한 속성들과 데이터라면 어떻게 다루는 것이 좋을까요?

제가 예전에 했던 방법은 정확하게는 기억이 나지 않지만 그 그룹군을 아예 나누어 data frame을 따로 짜서 분석을 진행해보려고 했던 것 같아요. (예시: no = fraud 그룹군 df, yes = non_fraud 그룹군)

실질적으로는 보통 어떻게 접근하거나 해결하는 지 궁금합니다...!

python EDA analytics chatgpt

답변 1

0

영국교수

네 좋은 질문인 것 같아요. 실제로 데이터 불균형 (unbalanced data)관련해서는 job interview에서 전형적으로 물어보는 질문 중 하나입니다. 데이터의 특징에 따라 여러가지 방법을 적용해볼수있는데, 실무에서 가장 많이 사용하는 방법은 앙상블(ensemble) 기법입니다. XGBoost 를 많이 사용하는데, scale_pos_weight 같은 패러미터를 써서 weight조절이 가능합니다. 그 외에도 SMOTE 같은 방식(오버샘플링)이 있지만, 이 경우 새로운 데이터가 실제 데이터 분포를 충분히 반영하지 못할 수 있기 때문에 추가로 판단해야 되구요. 언더샘플링 방식도 있지만 말씀하신 것처럼 극단적인 불균형에는 어울리지 않아 보입니다. 이외에도 Isolation Forest, Autoencoder 방식 등이 있기도 합니다. 각각 데이터 특성에 따라 섞어서 쓰기도 하고, 모든 방식을 쓴 다음 performance를 비교해서 채택하기도 합니다. 좋은 질문입니다 소요요님!!

27강 슬랙 테스트 부분도 누락된 것 같네요

1

19

2

이 정도로 관리를 안할꺼면 강의를 내려야 하는거 아닐까요?

0

10

0

실기 공부 시작 하려고 하는데요

0

26

2

22강 케글 연동 강의내용 누락된듯해요

1

20

2

작업형1 - 연습문제 1번 관련 질문입니다.

0

29

2

퍼블릭시티 결제 관련

0

18

1

강의 자료 16~39 관련

0

38

2

한국투자증권 미국 주식 매매 수수료와 환전 수수료가 높은 경우 자동매매 베개투자법을 적용해도 괜찮을까요?

0

37

2

강의자료 관련

0

25

1

오류 문의

0

35

2

안티그래비티 업데이트?

0

58

3

데이터 전처리 시 문의

0

40

2

random_state 값

0

35

2

인코딩 사용여부

0

44

2

섹션 2 확률변수 자료 문의

1

21

1

인코딩 전 데이터 합치기 질문드립니다!

0

39

1

Antigravity CLI로 완전히 통합 및 전환관련문의

0

45

1

antigravity 2.0은 화면이 많이 다르네요.

0

54

2

추가 질문사항입니다.

0

39

2

분석결과에 대한 질문

0

38

2

f를 붙여야 하는 이유

0

27

2

섹션5. 회귀 강의 관련 질문드립니다

0

43

2

36. 텔레그램 연동(특강) 노션 링크

0

31

2

수강기간연장 문의드립니다

0

47

2