아이템 기반 인접 이웃 협업 필터링 실습 내용 중

Question

아이템 기반 인접 이웃 협업 필터링 실습 내용 중 문의드립니다. 28:16에서 확인가능한 최종 9번 사용자에 대하여 보지않은 영화 중 예측평점이 높은 영화 10개를 추천해주는 결과에서 1위 Shrek은 pred_score가 0.866202로 확인됩니다. 실제 평점범위가 0보다 크며 가장 큰 값은 5인데 추천되는 영화의 예측평점이 너무 낮은건 아닌지요? pred_score가 나올 수 있는 값의 범위와 의미가 궁금합니다.

권 철민 · Answer

안녕하십니까, 아이템 기반 협업 필터링을 위해서 유사도 벡터를 계산을 해서 만듭니다. 그런데 이때 유사도 벡터를 계산하는데 영화 개수가 너무 많다보니까 만들어 지는 벡터의 차원이 너무 많아져서 평점 예측이 상대적으로 떨어지는 결과가 도출되었습니다. 실습 코드를 보시면 아시겠지만, 영화 개수가 굉장히 많아서 pandas Dataframe으로 표현되는 컬럼의 수가 매우 많습니다. 너무 많은 차원을 기반으로 한 유사도 벡터를 적용하게 되면서 평점 예측이 상대적으로 떨어지는 결과가 발생하게 됩니다. 평점 예측값의 절대치보다는 상대적인 우선 수치에 보다 집중 해주시면 좋을 것 같습니다. 감사합니다.