아이템 기반 협업 필터링

Question

11:27 이 시간대에 진행한 아이템-사용자 간의 유사도는 오직 평점으로만 유사도를 측정한것인데 godfather, The (1972)와 가장 유사한 영화에 godfather: Part II, The (1974)가 나온것은 그저 우연인것인가요? 다른 정보 없이 오직 평점으로만 유사도를 측정했는데 어떻게 저 둘이 유사도가 가장 높게 나온것인지 신기해서 질문드립니다. 개인화된 예측 평점을 적용하고 mse로 평가를 하는 부분에서 사용자가 평점을 부여한 영화에 대해서만 예측 성능 평가를 하는 이유가 예측 오차범위가 크게 나타날까봐 그런것인가요? 622쪽에 PREDICT_RATING() 함수는 사용자별 영화의 예측 평점을 계산하기 위해 해당 영화와 다른 모든 영화 간의 유사도 벡터를 적용한 것이기 때문에 많은 영화의 유사도 벡터를 이용하다 보니 상대적으로 평점 예측이 떨어졌다고 나오는데, 왜 많은 영화의 유사도 벡터를 이용하면 평점 예측이 떨어지는 것인지 이해가 잘 되지 않아서 쉽게 풀어 설명 좀 부탁드려도 될까요?

권 철민 · Answer

안녕하십니까, 대부 1편을 좋아한 사람의 경우 대부 2편의 평점도 유사하게 부여했기 때문이라고 생각해 주시면 될 것 같습니다. 그런데 지금 생각해 보면 너무 딱 떨어져서 저도 신기하기도 합니다. 사용자가 평점을 부여하지 않은 경우에는 실제값과 예측값의 차이에서 실제값을 구하기가 어려워서 mse를 적용하기가 어렵기 때입니다. 3. 유사도 벡터를 계산하는데 영화 개수가 너무 많다보니까 만들어 지는 벡터의 차원이 너무 많아져서 평점 예측이 상대적으로 떨어지는 결과가 도출되었습니다. 책이나 강의를 보시면 아시겠지만, 영화 개수가 굉장히 많아서 pandas Dataframe으로 표현되는 컬럼의 수가 매우 많습니다. 너무 많은 차원을 기반으로 한 유사도 벡터를 적용하면 평점 예측이 상대적으로 떨어질 수 있습니다. 감사합니다.