가우시안 나이브 분류로 이해하는 머신러닝 원리 - 질문

Question

4분 16초에서 '문제 : 메일에 쿠폰 또는 주식 이라는 단어가 들어있는 메일이 스팸일 확률은?' 은 P(spam|coupon&cap;stock) 아닌가요?  그래프에는 P(coupon&cap;stock|spam) 으로 예시가 나와 있어서 다른거 같아서 질문드립니다 같은 방식으로 7분 36초 에서도 나이브 베이즈 분류 예시 수학식은 P(spam&cap;coupon) *P(spam&cap;stock) 으로 나와 있는데 그래프는 P(coupon&cap;spam) 과 P(stock&cap;spam) 으로 표시가 되어 있어서 다른거 같아 질문 드립니다.

Answer

문제는 사후확률을 구하는 것인데요.

그렇다면, P(원인|결과) 라고 볼 수 있고,

그래프에서는 원인이 coupon 과 stock 이고, 결과가 spam 임을 나타내서 다음과 같이 표시하였습니다.

(사전확률과 사후확률이 원인, 결과 순서만 다르기 때문에, 이 부분이 저도 헷깔려서, 공유드린 자료에서도 이 부분을 강조하기 위해, 색깔을 갈색으로 강조하는 경우가 많았습니다.)

P(coupon∩stock|spam)

또 이를 계산할 때 쓰는 나이브 베이즈 수학식은 다음과 같이 사전확률을 가지고, 사후확률을 계산하는 식이라서, 사전확률로 표시한 것이고요. 그래프는 사후확률을 나타낸 것인데, 문서에 사전확률만 표시가 되고, 그래프에는 사후확률이 표시되어서, 조금 헷깔릴 수 있는 것 같습니다. 그래서, 해당 자료에 해당 부분을 바로 업데이트하였습니다. 혹시라도, 제가 그래도 잘못 설명이 되었을 수도 있을 것 같은데, 만약에 그렇다면, 괜찮으시다면, 한번 dream@fun-coding.org 로 어느 챕터, 어느 부분에서 제가 설명한 부분이 문제인지만 다시 알려주시면, 다시 한번 확인해서, 필요하다면 영상 수정도 하겠습니다.

문환룡

가우시안 나이브 분류로 이해하는 머신러닝 원리 - 질문

이 글과 비슷한 Q&A

LightGBM의 min_child_samples 와 min_child_weight

django htmx 외에 몇 가지 질문 있습니다.

시험환경 체험링크가 들어가지지 않습니다.!

반복문 강의에서