3장 CF_knn 코드 질문

Question

안녕하세요 좋은 강의 감사합니다. (1) 코드 주석 관련 질문3장.ipynb 코드에서 def CF_knn(user_id, movie_id, neighbor_size = 0): if movie_id in rating_matrix.columns: sim_scores = user_similarity[user_id].copy() movie_ratings = rating_matrix[movie_id].copy()~~ 위 부분의 강의 중 코드 주석을 보면 movie_ratings = rating_matrix[movie_id].copy()이 부분의 주석이 주어진 영화와 다른 사용자의 유사도 추출이라고 되어있는데 영화와 사용자 유사도 추출이 아니라 주어진 영화에 대한 다른 사용자의 평점 추출 같은데 제가 이해한게 맞는지 문의드립니다!(2) 코드 질문neighbor_size 가 지정되지 않은경우 mean_rating 으로 대치하는 부분의 코드에서if neighbor_size == 0 :mean_rating = np.dot(sim_scores, movie_ratings) / sim_scores.sum()이라고 되어있는데mean_rating 이 전체 user_id의 해당 movie_id에대한 평균 평점을 의미하는 것이라면 분모가 sim_scores.sum()이 아니라 유효한 평점의 개수, 즉 len(sim_scores) 이런 게 되어야 하는거 아닌가요?왜 분자는 평점*유사도인데 나눌때 전체 사용자의 평점 합으로 나누는건지 이해가 잘 안갑니다. ㅜㅜ.

Answer

안녕하세요.질문 주신 부분에 답변 드리겠습니다.일단, 먼저 주석에 대한 부분은 학습자님께서 말씀하신대로 주어진 영화에 대한 다른 사용자의 평점 추출이 맞습니다.이 부분은 오타가 있었던 것 같습니다.두번째 부분에 대해서는, 가중평균에 대한 부분이기 때문입니다.학습자님께서 말씀주신대로 산술평균으로 계산한다면 그렇게 계산할 수 있습니다.예를 들어, 학생의 총 과목 평균국어 100, 수학 90, 영어 80 => (100 + 90 + 80) / 3 = 270 / 3 = 90점만약에 각 과목별로 가중치(=중요도)가 있다면 어떨까요국어 중요성 : 2, 수학 중요성 : 3, 영어 중요성 : 4[ (100 X 2) + (90 X 3) + (80 X 4) ] / (2+3+4) = 87.777777산술평균은 가중평균에서 가중치를 동일하게 1로 주셨다고 이해 하시면 될 것 같습니다.해당 예시를 저희 데이터셋으로 가져와보면dot product를 하니 유사도와 영화에 대한 평점이 각각 곱해지고 더해집니다.여기서 가중치가 유사도라고 이해해주시면 될 것 같습니다.그렇기 때문에 길이가 아닌, 가중치의 합(=유사도합)으로 계산되게 됩니다.감사합니다.거친코딩 드림.

Yoojeong Lee

3장 CF_knn 코드 질문

이 글과 비슷한 Q&A

PDF RAG 제작 프로젝트 진행 중 답변 정확도를 올리기 위해 무엇을 해야 할지 모르겠습니다.

[긴급 최종질문수정16:47] 지금 이런 에러가 계속해서 연달아 나고 있는데 진행이 아예 안 됩니다

7강 폴더 만들

test data 의 loss 계산식 문의