inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[리뉴얼] 처음하는 파이썬 머신러닝 부트캠프 (쉽게! 실제 캐글 문제 풀며 정리하기) [데이터분석/과학 Part2]

베이즈 정리 활용과 머신러닝 프로세스

베이즈 정리 활용과 머신러닝 프로세스(0340)

297

강태규

작성한 질문수 1

0

03분40초 주변확률 계산  P(결과) 값 계산 관련 질문 드립니다.

 

제 풀이는 기존에 A상자와 B상자 딸기맛 비유 드신걸 생각해서  아래와 같이 스팸x, 스팸o의 두가지 상자에서 쿠폰을 선택하는 방식을 풀었습니다.

스팸 x / 50개

- 스팸 x, 쿠폰 o : 15개

- 스팸x , 쿠폰 x : 35개 

스팸 0 / 50개

- 스팸o,  쿠폰o : 25개

- 스퍀 x, 쿠폰x : 25개

 

질문 : P(쿠폰)값을 아래와  같이 계산하지 않고, 단순히 

총 쿠폰의 개수(40) / 총 메일의 개수(100)로 계산하신 이유가 궁금합니다.

 

P(쿠폰)의 값

P(스팸x) * P(쿠폰o|스팸x)  + P(스팸o)*P(쿠폰o|스팸o)

위와 같이 계산하여 7/20이라는 값이 나왔습니다.

 

 

kaggle 머신러닝 배워볼래요? python pandas

답변 1

0

잔재미코딩 DaveLee

안녕하세요.

영상에서, 다음과 같은 조건일 때, P(쿠폰) 을 4/10 으로 한 것에 대해 문의하신 것 같습니다.

다음 조건일 때,

- 총 100개의 메일이 있음

- 이 중, 50개는 스팸 메일이었음

- 스팸 메일 중, 25개는 쿠폰이라는 단어가 들어가 있었음

- 총 100개 중에 쿠폰이라는 단어가 들어있는 메일은 40개임

물론 명시적으로 총 100개 중 쿠폰이라는 단어가 40개 이기 때문에, 4/10 으로 할 수 있는데요. 주변확률처럼 

50/100(스팸) x 25/50(그중 쿠폰) + 50/100(스팸아님) x 15/50(그중 쿠폰) = 1/4 + 3/20 = 5/20 + 3/20 = 8/20 = 4/10 으로  4/10 과 동일하게 나오는데요. 제가 잘 못 계산한 것인지, 여러번 봤는데. 제가 이해한 것이 맞는 것이죠? 기본적으로 또 저렇게 명시적으로 총 100중에 40개라고 하면, 40/100 으로 확률이라고 봐야 하거든요. 혹시 제가 착각한 부분이 있다면, dream@fun-coding.org 로 알려주시면 또 확인해보겠습니다.

감사합니다.

0

강태규

빠른 답변 감사합니다

제가 계산 실수가 있었네요. 

감사합니다

 

 

 

자료 공유 질문

0

70

1

Ascii 에러 관련하여 질문드립니다

0

98

1

고차원 데이터 질문

0

85

1

세션4 범주형 데이터 분석 패턴 강의 질문

0

218

2

pandas 2.2.2, xgboost 2.1.3 에러 해결 방법

0

235

1

sklearn v1.5.1

0

176

1

머신러닝 적용을 위한 Feature Engineering 작업1

0

185

2

missingno 대체

0

175

1

scikit-learn 1.5.1 matplotlib 3.9.2

0

136

1

환불문의

0

273

1

자료공유를 받으려고 하는데 에러가 납니다.

0

171

1

iplot에서 항상 에러나는 분 안계신가용?

0

234

1

사망 여부 영향 가능성

0

149

1

섹션4_인코딩 이해하고 적용해보기(원핫인코딩) 질문

0

196

1

df.corr(numeric_only=True).iplot() 에러 해결 어떻게 해야되나요?

0

288

1

주피터 노트북 201_REGRESSION_BIKE_SHARING_MODELS 중 질문

0

252

1

3강 강의 자료 코드 관련 질문입니다

1

345

1

맥 사용자 mkdir .kaggle 했는데 파일이 안만들어집니다.

0

428

1

Bayesian Optimization에서 optimizer.maximize()함수를 더이상 지원 안한다고 합니다.

0

887

2

Bayesian Optimization LightGBM 적용

0

469

2

하이퍼 파라미터 튜닝 기법 적용하기 실행값이 미묘하게 달라요.

1

347

1

중복된 코드 수정 요청 - 자전거 공유 문제 이해와 EDA3

0

219

1

강의 중 에러 질문

0

756

1

cross_val_score 에러

0

471

1