[Revised Edition] The Complete Guide to Python Machine Learning

Content-based filtering implementation practice using TMDB5000 data set - 02

컨텐츠 기반 필터링

2022-05-04T07:35:18.241Z

326

HAHA

52 asked

안녕하세요.

컨텐츠 기반 필터링을 보면 서버에서 올려 구현하다고하면 메모리에 해당 정보들을 메모리에 올려서 해야되는건가요??

서버에서 사용한다면 새벽 n시에 메모리에 있는 업데이트를 한다던가(cron job처럼) 하는 작업이 있는걸까요??

아니면 이런 정보를 위한 DB가 따로 있나요??

감사합니다.

통계 python 머신러닝 배워볼래요?

Answer 3

HAHA

2022-05-04T08:44:35.101Z

질문 답변주신 내용에서

대용양 데이터일 경우 db에 index걸어서 서비스 하신다고 하셨는데,

답변에서 남겨주신 내용을 토대로 한다면 결국 다시 memory에서 계산하는게 아닌가요??

제가 잘못 이해했으면 죄송합니다ㅠㅠ

HAHA

2022-05-04T08:31:19.350Z

혹시 DB에 예를 들어 어떤 포맷으로 올리는지 알려주실 수 있을까요?

사용자-아이템을 한다고 하면 모든 사용자와 모든 아이템을 계산해서

record 수는 사용자 수

column 수는 아이템 수로 해서 db에 저장하는걸까요??

dooleyz3525

2022-05-04T08:36:28.509Z

RDBMS 에 저장할 때는 코사인 유사도와 같은 데이터 포맷을 하기에는 컬럼수가 너무 많아서 안됩니다. 그래서 모두 ROW 형태로 내립니다. 그러니까 레코드수 사용자수 , 컬럼수 아이템수가 아니라 레코드 수 사용자수 X 아이템수, 컬럼수 2개(사용자아이디, 아이템 아이디)

HAHA

2022-05-04T08:38:37.467Z

넵 답변해주신 내용토대로 좀 더 고민해보고 이해가 안가는 점 있으면 다시 질문 남기겠습니다!
항상 질문 답변해주셔서 감사합니다!

dooleyz3525

2022-05-04T07:42:06.789Z

안녕하십니까,

네, 빠르게 서비스해야 하므로 메모리에 올려서 하는 경우가 많습니다. 하지만 대용량의 데이터 일 경우에는 db에서 index을 잘 걸어서 서비스를 하기도 합니다.

보통은 db에 있는 정보를 새벽에 배치로 잘 가공해서 메모리에 올려 놓고 서비스 합니다.

감사합니다.

강의 문의드립니다.

2026-07-16T04:50:38.870Z

모델 서빙과 관련된 강좌가 출시되는지 질문드립니다.

2026-05-01T11:39:04.150Z

안녕하세요 열심히 수강중인 학생입니다

2026-03-20T05:48:51.269Z

101

정수 인덱싱

2026-03-10T02:09:10.950Z

넘파이 오류

2026-02-05T05:22:08.801Z

131

11강 numpy의 axis 축 질문 드립니다.

2026-02-02T06:16:34.620Z

121

Kaggle 에서 Santander customer satisfaction data 를 다운로드 되지가 않습니다.

2025-12-16T04:49:39.154Z

106

Feature importances 를 보여주는 barplot 이 그래프로 안보여져요.

2025-12-12T14:17:58.295Z

타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.

2025-12-07T03:20:58.260Z

타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.

2025-12-07T03:20:58.258Z

5강 강의 오류가 있어요.

2025-11-27T13:25:07.609Z

102

실무에서 LTV 관련 모델 선택 질문입니다!

2025-11-13T06:55:26.680Z

14강 강의 듣는중에 궁금한게 있어서 질문합니다~

2025-10-22T00:42:25.511Z

파이썬 다운그레이 후 사이킷런 재설치

2025-10-17T06:33:31.171Z

147

좋은 강의 감사합니다.

2025-10-10T14:50:26.463Z

scoring 함수 음수값

2025-10-10T11:54:12.475Z

6번 강의에 사이킷런, 파이썬, 아나콘다 각각 버전 일치 안 시키고 진행해도 강의 따라가 지나요?

2025-09-17T18:04:52.756Z

116

분류 평가 정확도 예측

2025-09-05T00:01:07.255Z

107

안녕하세요. 강의 들으면서 업무에 적용하고 싶은 수강생입니다.

2025-08-09T03:06:36.272Z

119

카카오톡 채널 있나요

2025-08-07T05:48:00.570Z

128

혹시 강의에서 사용하시는 ppt 받을 수 있는건가요

2025-08-04T07:56:47.933Z

208

pca 스케일링 관련하여 질문드립니다.

2025-07-21T07:36:19.975Z

135

주피터 대신 구글 코랩

2025-07-13T08:18:47.926Z

191

강의에서 사용하는 pdf or ppt자료는 따로 없는 건가요?

2025-07-06T07:39:51.597Z

163