베이즈 정리 활용과 머신러닝 프로세스(0340)

Question

03분40초 주변확률 계산 P(결과) 값 계산 관련 질문 드립니다. 제 풀이는 기존에 A상자와 B상자 딸기맛 비유 드신걸 생각해서 아래와 같이 스팸x, 스팸o의 두가지 상자에서 쿠폰을 선택하는 방식을 풀었습니다. 스팸 x / 50개 - 스팸 x, 쿠폰 o : 15개 - 스팸x , 쿠폰 x : 35개 스팸 0 / 50개 - 스팸o, 쿠폰o : 25개 - 스퍀 x, 쿠폰x : 25개 질문 : P(쿠폰)값을 아래와 같이 계산하지 않고, 단순히 총 쿠폰의 개수(40) / 총 메일의 개수(100)로 계산하신 이유가 궁금합니다. P(쿠폰)의 값 P(스팸x) * P(쿠폰o|스팸x) + P(스팸o)*P(쿠폰o|스팸o) 위와 같이 계산하여 7/20이라는 값이 나왔습니다.

잔재미코딩 DaveLee · Answer

안녕하세요. 영상에서, 다음과 같은 조건일 때, P(쿠폰) 을 4/10 으로 한 것에 대해 문의하신 것 같습니다. 다음 조건일 때, - 총 100개의 메일이 있음 - 이 중, 50개는 스팸 메일이었음 - 스팸 메일 중, 25개는 쿠폰이라는 단어가 들어가 있었음 - 총 100개 중에 쿠폰이라는 단어가 들어있는 메일은 40개임 물론 명시적으로 총 100개 중 쿠폰이라는 단어가 40개 이기 때문에, 4/10 으로 할 수 있는데요. 주변확률처럼 50/100(스팸) x 25/50(그중 쿠폰) + 50/100(스팸아님) x 15/50(그중 쿠폰) = 1/4 + 3/20 = 5/20 + 3/20 = 8/20 = 4/10 으로 4/10 과 동일하게 나오는데요. 제가 잘 못 계산한 것인지, 여러번 봤는데. 제가 이해한 것이 맞는 것이죠? 기본적으로 또 저렇게 명시적으로 총 100중에 40개라고 하면, 40/100 으로 확률이라고 봐야 하거든요. 혹시 제가 착각한 부분이 있다면, dream@fun-coding.org 로 알려주시면 또 확인해보겠습니다. 감사합니다.