아이템 기반 협업 필터링
334
작성한 질문수 30
11:27 이 시간대에 진행한 아이템-사용자 간의 유사도는 오직 평점으로만 유사도를 측정한것인데 godfather, The (1972)와 가장 유사한 영화에 godfather: Part II, The (1974)가 나온것은 그저 우연인것인가요? 다른 정보 없이 오직 평점으로만 유사도를 측정했는데 어떻게 저 둘이 유사도가 가장 높게 나온것인지 신기해서 질문드립니다.
개인화된 예측 평점을 적용하고 mse로 평가를 하는 부분에서 사용자가 평점을 부여한 영화에 대해서만 예측 성능 평가를 하는 이유가 예측 오차범위가 크게 나타날까봐 그런것인가요?
622쪽에 PREDICT_RATING() 함수는 사용자별 영화의 예측 평점을 계산하기 위해 해당 영화와 다른 모든 영화 간의 유사도 벡터를 적용한 것이기 때문에 많은 영화의 유사도 벡터를 이용하다 보니 상대적으로 평점 예측이 떨어졌다고 나오는데, 왜 많은 영화의 유사도 벡터를 이용하면 평점 예측이 떨어지는 것인지 이해가 잘 되지 않아서 쉽게 풀어 설명 좀 부탁드려도 될까요?
답변 1
1
안녕하십니까,
대부 1편을 좋아한 사람의 경우 대부 2편의 평점도 유사하게 부여했기 때문이라고 생각해 주시면 될 것 같습니다. 그런데 지금 생각해 보면 너무 딱 떨어져서 저도 신기하기도 합니다.
사용자가 평점을 부여하지 않은 경우에는 실제값과 예측값의 차이에서 실제값을 구하기가 어려워서 mse를 적용하기가 어렵기 때입니다.
3. 유사도 벡터를 계산하는데 영화 개수가 너무 많다보니까 만들어 지는 벡터의 차원이 너무 많아져서 평점 예측이 상대적으로 떨어지는 결과가 도출되었습니다. 책이나 강의를 보시면 아시겠지만, 영화 개수가 굉장히 많아서 pandas Dataframe으로 표현되는 컬럼의 수가 매우 많습니다.
너무 많은 차원을 기반으로 한 유사도 벡터를 적용하면 평점 예측이 상대적으로 떨어질 수 있습니다.
감사합니다.
모델 서빙과 관련된 강좌가 출시되는지 질문드립니다.
0
30
2
안녕하세요 열심히 수강중인 학생입니다
0
71
2
정수 인덱싱
0
75
2
넘파이 오류
0
94
2
11강 numpy의 axis 축 질문 드립니다.
0
91
2
Kaggle 에서 Santander customer satisfaction data 를 다운로드 되지가 않습니다.
0
83
2
Feature importances 를 보여주는 barplot 이 그래프로 안보여져요.
0
71
2
타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.
0
78
2
타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.
0
65
2
5강 강의 오류가 있어요.
0
86
1
실무에서 LTV 관련 모델 선택 질문입니다!
0
74
2
14강 강의 듣는중에 궁금한게 있어서 질문합니다~
0
70
3
파이썬 다운그레이 후 사이킷런 재설치
0
122
2
좋은 강의 감사합니다.
0
76
2
scoring 함수 음수값
0
68
2
6번 강의에 사이킷런, 파이썬, 아나콘다 각각 버전 일치 안 시키고 진행해도 강의 따라가 지나요?
0
104
2
분류 평가 정확도 예측
0
83
2
안녕하세요. 강의 들으면서 업무에 적용하고 싶은 수강생입니다.
0
100
1
카카오톡 채널 있나요
0
111
1
혹시 강의에서 사용하시는 ppt 받을 수 있는건가요
0
191
2
pca 스케일링 관련하여 질문드립니다.
0
104
2
주피터 대신 구글 코랩
0
176
2
강의에서 사용하는 pdf or ppt자료는 따로 없는 건가요?
0
149
2
실루엣 스코어..
0
88
2





