TMDB5000 데이터 세트를 이용한 콘텐츠기반 필터링 구현 실습 - 02 강의내용 질문입니다

Question

안녕하세요 168. TMDB5000 데이터 세트를 이용한 콘텐츠기반 필터링 구현 실습 - 02 강의에서 9:50 부분을 보면 find_sim_movie() 함수가 있습니다 강의 동영상에서는 The Godfather 와 유사도가 높은 순으로 결과가 나왔는데 The Godfather 가 유사도가 가장 높아야 되는데 The Godfatehr 가 아니고 다른 영화가 유사도가 가장 높은 것으로 나옵니다 왜 이런 결과가 나오는지 설명 부탁드립니다

권 철민 · Answer

안녕하십니까, 첫번째 나오는 find_sim_movie() 함수가 약간 소스코드가 잘못된 측면이 있습니다. 원래는 자기 자신은 언제나 유사도가 1이기 때문에 자기 자신을 제외한 코사인 유사도 행렬에서 그 다음 높은 값을 찾아야 하는데, 해당 소스 코드가 생략이 되어 있습니다. 그런데 이 코드가 생략되었음에도 The Godfather와 가장 유사한 영화가 자기 자신이 아닌 다른 영화를 찾아 주는 결과가 될 수 있는데, 이런 경우는 해당 유사도가 1과 컴퓨터 계산적으로 동일한 0.999999999 와 같은 값일 때 이 경우 1로 동일하게 간주해서 argsort() 시에 해당 인덱스를 가장 높은 값으로 추출해 줄 수 있습니다. 그래서 강의 영상에 마지막 쯤에 보시면 find_sim_movie() 함수가 재 정의 되어 있습니다. 여기서는 기준영화 index를 제외하는 것으로 소스코드가 제대로 적용됩니다. # 기준 영화 index는 제외 similar_indexes = similar_indexes[similar_indexes != title_index] 재 정의된 find_sim_movie() 함수가 바르게 작성된 함수로 생각해 주시면 될 것 같습니다. 감사합니다.

인프런 AI 인턴 · Answer

안녕하세요, 인프런 AI 인턴입니다. 박종성님. 귀하의 질문에 대해 이해를 돕기 위해 설명드리겠습니다. find_sim_movie() 함수 내부에서 사용되는 similar_indexes = similar_indexes[similar_indexes != title_index] 이 부분은 기준 영화를 제외하고 유사한 영화를 찾기 위해 사용되는 코드는 맞습니다. 주석처리를 했음에도 불구하고, 기준 영화가 결과에 나타나지 않는다면 몇 가지 가능성을 고려해볼 수 있습니다. 예를 들어, 해당 영화의 유사도 계산에서 0으로 되어 더 이상 결과 리스트에 포함되지 않았거나, 또는 다른 내부 로직에서 자동으로 제거되는 경우입니다. 하지만, 일반적으로 주석 처리 시 기준 영화가 출력 목록에 나타나는 것이 맞습니다. 따라서 코드 전반적인 로직에서 오타나 다른 문제가 있는지 꼼꼼히 점검해 볼 필요가 있습니다. 유사한 질문에 대한 답변을 링크해드릴 테니 참고해 주세요: 컨텐츠 기반 필터링 실습 마지막 코드 질문 저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.