숙제3, 숙제4 결과 분석에 대한 질문입니다.
안녕하세요 :) 좋은 강의 내용 잘 듣고 있습니다. 강의 중간에 숙제를 하다가 아래와 같은 질문 사항이 생겼습니다.
1. (숙제4)의 영화 평점 기반으로 예측하기에서 train.groupby("movieId")["rating"].std().mean()=0.835, (숙제3)의 사용자 평점 기반 예측하기에서의 train.groupby("userId")["rating"].std().mean()=0.926 값을 얻을 수 있습니다. 여기서 (숙제3)의 평균 표준편차 값이 더 작은 이유는 (숙제4)의 predict_by_movies 데이터 프레임의 "predict" 칼럼의 모든 Nan을 train["rating"].mean() 값으로 모두 동일하게 대체했기 때문에 상대적으로 (숙제4)의 "predict" 칼럼보다 고른값이 되었기 때문으로 해석할 수 있을까요?
2. 위 1번에 이어서 (숙제4)의 predict_by_movies 데이터 프레임의 "predict" 칼럼의 모든 Nan을 train["rating"].mean() 값으로 모두 동일하게 대체했기 때문에 어쨌든 이 값은 실제 해당 movieId의 평균 평점은 아니므로, (숙제4)에서 최종 도출한 rmse가 (숙제3)에서 최종 도출한 rmse보다 더 커질 수 있는 이유라고 볼 수 있을까요?
답변 2
3
-
predict_by_movies의 predict 컬럼은 예측한 평점이고, train의 rating 컬럼은 실제로 유저가 매긴 평점입니다. 작성하신 코드로 구한 평균 표준편차는 train 데이터 안에서 영화/사용자 별로 매겨진 평점이 어떻게 분포되어있는지를 의미하는 값으로, 예측한 평점과는 관계가 없습니다.
영화 평점 기반 예측(숙제4)이 사용자 평점 기반 예측(숙제3)보다 작은 평균 표준편차 값을 가지는 것은, 평균적으로 봤을 때 하나의 영화에 대해 여러 유저들이 매긴 평점의 분산이, 한 명의 유저가 여러 영화에 대해 매긴 평점의 분산보다 작다는 의미입니다.
- 말씀하신대로 해석이 가능합니다. 영화가 무엇인지에 관계없이 모든 train 데이터의 평균 평점 값을 넣은 것이니 예측의 정확도가 감소할 수 있습니다.
강의자료 requirements.txt 파일 위치?
0
401
2
추천시스템 심화 강의는 언제 올라오나요?
0
395
1
list of list 사용 이유
0
277
1
Lasso 하이퍼 파라미터 튜닝 강의 부분에서 질문드립니다.
0
397
1
현업에서 어떠한 방식으로 진행하는지 궁금합니다
1
268
1
train / test 구분하여 생기는 문제에 대해서
1
270
1
list(zip 사용하는 부분에서 질문드립니다.
1
257
1
predict 만드는 부분에서 질문합니다.
1
199
1
쿼리질문합니다!
0
240
1
1분 질문
0
272
1
4:37 부분 질문입니다
1
249
1
1:50에 나오는 주석?처리 단축키가 뭔가요?
1
212
1
[강사님] Content_based가 이게 맞나요?
1
216
1
user_profile_list 및 리니어/라쏘 모델 설치 질문
0
249
1
실제 서비스에서 추천시스템을 사용하려면 매번 db의 모든 유저정보를 csv파일로 가져와서 알고리즘을 사용해야하나요?
0
252
1
regex 추출 한줄로
2
296
1
requirements.txt
1
192
1
predict 를 직접 구하는 방법에 대한 질문
1
444
1
Google Colaboratory 설치
1
225
2
오버피팅 방지 방법 관련 참고할 수 있는 코드가 있을까요?
1
339
2
sunplot
5
216
1
보충자료 링크 확인 부탁드립니다.
1
205
2
다음강의 시간
0
196
1
다른 확장자를 가지는 파일에 대한 분석
1
236
1





