score 함수에 대해 질문이 있습니다.

Question

안녕하세요 이번 강의에서 best_seller 함수에 대해 질문이 있어 글을 남기게 되었습니다.

score 함수에서 y_pred는 각 사용자가 평가한 영화의 평점의 평균값이 들어가있는데 y_true는 단순히 x_test의 rating이 들어가고 있습니다. y_true에는 y_pred 의 movie_id 의 순서와 동일하게 들어가야 동일한 영화에 대한 실제값과 예측값에 대한 오차를 확인할 수 있는 것 아닌가요 ?

단순히 np.array(x_test['rating']) 을 사용해도 y_pred array에 들어가있는 특정 사용자가 평가한 특정 영화에 대한 순서와 동일하게 삽입이 되는지 궁금합니다.

Answer

안녕하세요. 학습자님데이터분석가 거친코딩입니다.질문 주신 부분에 대해서 답변드리도록 하겠습니다.말씀하신 부분에서 train_mean이 list라고 생각하셔서,해당 질문을 주셨다고 생각합니다.train_mean은 리스트가 아니라, movie_id를 index로 가지고있는 Pandas Series입니다.그래서 train 셋에 만약 test셋의 Movie id 가 있다면, 해당 영화값의 평균값을 사용하고,만약 없다면 try, except문에서 걸려서 rating = 3.0이 됩니다.해당 답변으로 어느정도 해결되셨을거라 생각이 되는데만약 해결이 안되셨다면 한번더 질문주세요.감사합니다.

Answer

다시 읽어보니 질문이 복잡하네요, 정리하자면y_pred를 만들 때 사용되는 id_pairs와y_true를 만들 때 사용되는 x_test['rating']의 순서가 일치해야할 것 같은데 zip을 통해 생성한 id_pairs는 x_test의 순서에 영향을 안끼치는 것인지가 질문이 될 것 같습니다.  그리고 찾아보니 순서에 영향을 끼치지 않는 것 같네요... 해결완료(?)

kangsy763

score 함수에 대해 질문이 있습니다.

이 글과 비슷한 Q&A

실무에서 Augmentation 적용 시

안녕하세요 파이썬이랑 tensorflow 정확한 버전 알수있을까요?

yolo v3 설치 과정에서 에러가 발생합니다!

강의 내용중 질문있습니다.