올려주신 파일과 sparse matrix

Question

안녕하세요, 거친코딩님!올려주신 강의와 파일들을 보면서, 프로젝트를 하다가 궁금한게 있어서 질문드립니다. 강의에서 올려준 파일 u.user, u.item, u.data와 rating-20m.csv가 별개의 영화 평가 데이터 파일들 인가요? Sparse Matrix 알고리즘에서 rating-20m.csv 파일만 쓰여서 궁금해서 여쭤봅니다. 1)에서 질문한것이 맞다면 최신 무비렌즈 영화평가 데이터를 Sparse Matrix 에서 돌려도 될까요? (올려주신 rating-20m.csv파일과 최신 무비렌즈 영화 평가 데이터 내용이 똑같더라구요.) 강의에선 Sparse Matrix의 출력이 오차율이 나와서 그러는데, 최종적으로 추천 영화를 출력하려면 어떻게 구현하면 될까요?

Answer

안녕하세요.거친코딩입니다.각 질문에 대한 답변 드리겠습니다.1) 이론과 실습에 사용된 데이터는 사용자들이 영화에 대한 평가 정보를 가진 'MovieLens'데이터로써 GroupLens라는 텍스트 추천 시스템으로부터 수집된 데이터를 활용하고 있습니다. 그리고 전체 데이터수는 2,700백만 개인데, 강의에서는 이 중에서 일부를 추출한 MovieLens 100K 데이터와 20M 데이터를 사용한다. 100K 데이터는 전체 데이터 중 100,000개를 추출한 것이고, 20M 데이터는 2,000만 개 데이터를 추출한 것이라 생각하시면 됩니다. sparse matrix 관련해서는 굳이 user와 movie라는 메타성 정보가 필요하지 않고, 단순히 큰 데이터를 어떻게 매트릭스화를 시키면 얼마나 더 커지는지와 이를 어떻게 핸들링 하는지에 대해서 다룬 부분이라 생각하시면 좋을 것 같습니다.2) 최신 데이터를 저도 확인을 못해봤지만, 그때 말씀드린대로 동일하다면 똑같이 한번 적용해보셔도 좋을 것 같습니다.3) model.get_one_prediction(user_id,item_id) 함수를 통해서 예측값을 추출하신 후에 최적의 값을 매칭하시면 될 것 같습니다. (7장의 2챕터 : '하이브리드 추천 시스템의 원리' 참고해 보시면 좋을 것 같습니다.)감사합니다.거친코딩 드림.

Code_Slave

올려주신 파일과 sparse matrix

이 글과 비슷한 Q&A

numpy의 shape

강의자료 요청드립니다!

딥러닝 코드에 Batch Normalization 적용해보기 질문입니다

딥러닝으로 Regression 문제 적용해보기 (House Price Kaggle 문제) 질문입니다