score 함수에 대해 질문이 있습니다.

Question

안녕하세요 이번 강의에서 best_seller 함수에 대해 질문이 있어 글을 남기게 되었습니다. score 함수에서 y_pred는 각 사용자가 평가한 영화의 평점의 평균값이 들어가있는데 y_true는 단순히 x_test의 rating이 들어가고 있습니다. y_true에는 y_pred 의 movie_id 의 순서와 동일하게 들어가야 동일한 영화에 대한 실제값과 예측값에 대한 오차를 확인할 수 있는 것 아닌가요 ? 단순히 np.array(x_test['rating']) 을 사용해도 y_pred array에 들어가있는 특정 사용자가 평가한 특정 영화에 대한 순서와 동일하게 삽입이 되는지 궁금합니다.

거친코딩 · Answer

안녕하세요. 학습자님 데이터분석가 거친코딩입니다. 질문 주신 부분에 대해서 답변드리도록 하겠습니다. 말씀하신 부분에서 train_mean이 list라고 생각하셔서, 해당 질문을 주셨다고 생각합니다. train_mean은 리스트가 아니라, movie_id를 index로 가지고있는 Pandas Series입니다. 그래서 train 셋에 만약 test셋의 Movie id 가 있다면, 해당 영화값의 평균값을 사용하고, 만약 없다면 try, except문에서 걸려서 rating = 3.0이 됩니다. 해당 답변으로 어느정도 해결되셨을거라 생각이 되는데 만약 해결이 안되셨다면 한번더 질문주세요. 감사합니다.

kangsy763 · Answer

다시 읽어보니 질문이 복잡하네요, 정리하자면 y_pred를 만들 때 사용되는 id_pairs와 y_true를 만들 때 사용되는 x_test['rating']의 순서가 일치해야할 것 같은데 zip을 통해 생성한 id_pairs는 x_test의 순서에 영향을 안끼치는 것인지가 질문이 될 것 같습니다. 그리고 찾아보니 순서에 영향을 끼치지 않는 것 같네요... 해결완료(?)