블로그

인공지능과 추천 시스템 강의 노트 - 2025.10.4(5주), 2025.10.10(6주)

2025.10.4. / 2025.10.11들어가며학기 초부터 예상을 한 것이긴 하지만, 대체 휴일을 포함하며 매우 긴 추석 연휴가 주어지며, 토요일 수업을 진행하는 입장에서 꽤 난감한 상황이 되었다. 토요일에 수업을 배정할 때부터, 소위 빨간 날인 휴일은 아니지만 그렇다고 열흘 연휴 중 두번이나 여의도에 등교하는 것을 강제하는 게 적절한가 등의 고민이었고.. 나도 개인적으로 명절을 한국에서 보내기 여의치 않은 상황이어서 두 번의 강의를 온라인으로 진행하는 것으로 하기로 하였다.그래도 라이브 유튜브 하는 것처럼 댓글도 달리고 하면 좋겠다는 생각을 했지만, 미국의 금요일 밤 11시나 한국의 오후 3시나 여의치 않은 상황이어 녹화 영상을 송출하는 방식으로 진행했다. 팟캐스트 등의 댓글로 서로 궁금한 걸 나누면 좋을텐데, 이건 내 역량의 한계인가 싶기도 하다.같이 보면서 이야기나눌 수 있는 내용들을, 한편으로는 가볍게 보았으면 하는 마음으로 링크들을 공유했는데, 수업의 특성 상 반강제로 끝까지 보아야 출석 인정이 되게 되었다. 기왕이면 이전에 보지 않은 클립들이면 싶고, 흘려 듣더라도 내가 받았던 감동을 받으면 좋겠다는 생각이다. 이번 글은 나누었다기보다는 그냥 준비한 내용들을 흘려 보낸 에 가깝고, 후속으로 나누고 싶은 이야기들은 언제든지 환영한다. 준비한 내용들 - 5주5주) 강의 updateSearch by GoogleGoogle — 25 Years in Search: The Most Searched ( 2024, 4min )Google — Year in Search 2024 ( 2024, 4min ) The Evolution of Search ( 2011, 6 min )How Google makes improvements to its search algorithm ( 2011, 4 min )Search Quality Meeting: Spelling for Long Queries (Annotated) ( 2012, 8 min ) Google Instant Launch Event ( 2010 , 1h 26m ) - Google Instant ( 15 ~ 52, 37min )Inside Search Event ( 2011, 59 m ) - Google instant pages , ( 0 ~ 23, 10 min ) Google I/O 2015 - Smarter user acquisition with App Indexing, AdWords and Google Analytics (2015, 20 min ) 5번째 주는 구글 검색에 대한 내용들을 모았다. 개인적으로 일에 관련된 모든 것들을 좋아하던 시절의 이야기들이고, 기술적인 챌린지들도 내용도 꽤 아는 이야기들을 press event 로 녹여 내던 시기의 이야기들을 주로 담았다. 개인적으로는 search quality review meeting 이 밖으로 더 널리 알려지면 하는 바람도 있고, 자주는 아니지만 google I/O 에 검색팀이 나가야만 했던 그 시절 상황도 알려지면 하는 생각이다. 이후의 Google I/O 이벤트들은 전문가들의 손길이 다양한 데서 닿았던 거라 그시절의 낭만은 더이상 없는 듯해서인지 그래서 좋은 기억으로 남아 있는 거 같다. 준비한 내용들 - 6주AI until 2025Ted Talk : How we're teaching computers to understand picturesby Fei-Fei Li ( March 2015 , 18 min )Ted Talk : How AI could empower any business by Andrew Ng ( April 2022, 11 min ) Ted Talk : Why AI is incredibly smart and shockingly stupid by Yejin Choi ( April 2023 , 16 min )Building AI for Everyone | Jeff Dean Senior Fellow in Google AI ( 2018, 세바시 강연, 16 min ) The future of computing: a conversation with John Hennessy (Google I/O '18) ( May 2018, 25 min )Jeff Dean (Google): Exciting Trends in Machine Learning ( 2024, 70 min ) 6번째 주는 AI 관련된 몇몇 talk 들을 역시 사심을 담아 공유하였다. AI 쪽으로 발을 디딜 때 접하게 되었던, data driven 의 세상을 접하면서 알게 된 감동을 하나씩 공유하려 주고 싶었지만, 요즈음의 AI 는 그당시 쥐어 짜던 시절의 ML/DL의 조금은 수줍던 접근이 더이상 아닌 거 같아 살짝 아쉬운 부분이 있다.구글에 10여년 다니며, 지금은 전직장 동료(?)가 노벨상을 받았다는 억지스런 자랑거리도 있다지만, 말로만 듣던 대가들을 살짝 가까이에서 볼 수 있었던 것에 대한 감동, 또 그들이 자기자신들의 한계를 넘는 모습을 접할 때 큰 울림이 있어 왔다. 물론 그들의 한계라는 것조차 내가 임의로 그린 것이겠지만… 그 중 몇몇은 지금 보아도 전율이 이는데, 살짝 길지만, 그 중 두명의 이야기를 나누고 싶었다.하나는 2018년 google I/O 때 John Hennessy 옹(? 님?)께서 훑어 주신, 컴퓨터 구조에서 시작한 ML / domain specific programming 에 대한 이야기로, 마치 지금의 transformer 지배적인 세상을 예측한 듯한 대가의 말씀, 그것도 엄청나게 열정적인 자세로… 진정 저렇게 나이 들고 싶다는 생각을 했었다. 다른 하나는 Jeff Dean 의 구글 AI/ML summary. 당시 Brain 팀의 수장이었지만, 그 누가 이토록 꿰뚫는 이야기를 할 수 있을까, 그리고 그걸 듣는 입장에서 수긍할 수 있을까 등의 감정으로 보았던 내용들이라 하겠다. 제품과 기술 둘 중에서 꽤 많이 기술 이야기이긴 하지만, 기술자 identity 인 나의 시각에서 수업에 지장이 안 간다면 꼭 나누어 주고 싶은 이야기들이 클립들에 담겨 있다 하겠다. 약간의 사족구글에 조인할 때 founder, celebrity 들을 보고 선택을 한 건 아니었지만, 이후에 내가 tech 회사를 차린다면 혹은 조인한다면 Jeff Dean 혹은 Craig Silverstein 같은 사람을 회사 내에서의 코드나 업적으로 만나길 바라게 되었다. 이후에 나타난 회사를 옮겨 다니는 네임드들을 접할 때, 이들이 구글에서 이루어 낸 '업적'을 고려해 보게 되는데, 훨씬 더 다양한 일들이 있게 되는 복잡해 진 요즘 세상에, 특히 engagement 를 고민하게 될 때 그 시절의 낭만은 꽤 그립다.

대학 교육 기타인공지능추천시스템

인공지능과 추천 시스템 강의 노트 - 2025. 9. 13. (2/16)

들어가며타이트해진 출석 체크와 작년 대비 추가된 중간과제와 기말과제 조건들 덕인지 꽤 많은 학생들이 다른 선택들을 하였고, 인원은 58명으로 정해졌다. 이제 조금 기대치가 조절되고 있는 셈이니 내년에도 이 과목을 내가 하고 있을 지는 모르지만, 학과를 위해서는 강의 평가도 좋은 점수가 나와야 할텐데 하는 걱정도 적지 않게 든다.공개된 데이터를 가지고, EDA 를 자유 형식으로 하라는 중간 과제가 서로 낯설어서 질문들이 많다. Kaggle , Dacon 등에서 보이는 ‘내가 봐도 문제 없는 데이터’를 가지고 직장 상사에게 보고하는 형태의 보고서를 쓴다는 생각으로 과제를 정의하고 있다. 데이터의 형식, 문제 정의 등에 대해 피드백을 주고 받을 생각으로, 각자 도메인에서 의미있는 해석들이 있으리라 기대가 된다.구름이 잔뜩 낀, 하지만 매력적인 서울 하늘 준비한 내용들2주) 강의 updateAI 강의 - 1강추천시스템 - 1Google(Playstore)에서 과제 런칭하기 - 1 이번 주에 있었던 일들로는 굵직굵직한 OpenAI 의 한국 행보와 구글 검색의 AI 모드 전면 배치 등이 있었다. 사상 최고를 경신하고 있는 코스피 자체도 관심 있게 챙겨야 하겠다. 나눈 이야기들약간의 역사적인 이야기가 들어 있는 인공지능 이야기와 추천 시스템의 입문에 대해 다루었다. 추천 시스템이라는 단어들도 오해가 많은 영역이라, 이 강의에서는 완성된 사용자 위주의 제품의 시각에서 접근과 그걸 가능하게 하는 방법론에 대해 이야기를 많이 하게 된다. 다음 시간부터는 각 내용들에 대해 요즘 시각에서 익숙한 이야기들을 담게 되겠다.유사 쇼핑몰의 개념으로 구글 플레이스토어 이야기를, 완제품의 시각에서 구글 검색 이야기를 내부자의 관점에서 많이 하게 될 것이라 ice-breaking 으로 구글 플레이스토어 이야기를 꽤 일찍부터 시간을 많이 할애하기로 했다. 지표들에 대해서까지 대략적으로 이야기를 하였는데, 아무래도 바깥에서 이야기하기에 한계들이 있는 영역이라 여러 번 감정 이입을 해 가며 정리를 해야 하겠다. ps.인프런에 올라가 있는 유료 강의들을 원하는 학생들에게는 무료로 제공하자 싶어 본의 아니게 인프런 광고를 조금 하게 되었다. 도움이 필요한 분들께 조금이라도 도움이 되면 하는 바램이다.

대학 교육 기타인공지능금융추천

AI 들에게 물어보기 - 노래 가사

"글렌 메데이로스의 nothing's gonna change ..." 오며가며 추천에 떠서 유튜브 복고맨 을 보게 되며 80-90 음악들로 다시 refresh 되는 일들이 있었고, 그 중 몇몇 노래들은 당시 어설프지만 영어를 배우게 해 준 고마운 노래들이어서(?) AI 서비스들에게 가사를 물어 보았다. 여전히 얕은 기량이지만, 문장으로도 예뻤던 기억들도 있다.알아듣고 기뻐하던 가장 오래된 기억의 노래로 Glenn Mediros 의 Nothing's gonna change my love for you 에 대한 이야기들도 있었고, 며칠 전 저녁 먹는 식당에서 들리길래 이것저것 해 보았다. 깔려 있는 앱들이 다 한글 영어 음성 지원이 되고, 말로 해서 꽤 알아 듣는 모양새들이었지만, 이 글을 만들기 위해 데스크탑에서 다시 해 보고 정리. 때마침 저작권 이슈도 언급되기도 해서 ( “AI 추격조에 데이터 개방… 저작권료 차후 계산 파격 필요” [뉴스 투데이] ) 몇 개 해 봄. 이번부터는 네이버와 더불어 클로바x 도 참전... 많이 복잡해 졌는데, 개인적/주관적이지만 오늘의 기준사용자인 내가 '정확한 가사'를 볼 수 있는가 ? 출처는 믿을만 한가 ? 친절한가 ?  질문은 "글렌 메데이로스의 nothing's gonna change my life for you 가사 써 줘"결과는    구글 검색 >  Liner > 네이버 = Bing > 클로버x > Perplexity > ChatGPT = Claude > WRTN > Gemini  구글 검색 ( 10 / 10 )Knowledge Panel 에 특화된 쿼리여서 공정성 시비가 있을 수 있음 인정.한 페이지 넘게 가득 할애하는 이전에 못 보던 용기까지.발매 년도 1987. 이것도 정답. 이 노래는 1986년에 녹음되어 1987년에 발매되었다 함. 원곡도 아니니 이정도는 인정.늠름한 출처까지.. Liner ( 8/10 )결과 페이지 포맷팅 감점. 노래 가사가 한 줄씩 한 페이지 너머 이렇게 itemized item 로 보이는 거는 많이 불편함. 맨 위 결과인 블로그 페이지는 찜찜하지만, 벅스가 보이면 인정, 랭킹 아쉬움.네이버 ( 6/10 )링크 클릭하면 되긴 함. 네이버 블로그들 Bing ( 6/10 )링크 클릭하면 되긴 함. 역시 여기도 블로그들 클로바x ( 5.5/10 ) 일단 안 된다고 함. 가끔씩(!) 블로그 링크 보여 줌.Perplexity ( 5/10 ) 못 가르쳐 주겠다면서 뭘 이렇게나 많이..?영어가 많다고 영어로 답을 ?링크들은 전부 unofficial links. ChatGPT ( 4/10 )못 가르쳐 주겠다는데.. 굳이 요약을...? 왜...? Claude ( 4/10 )못 가르쳐 주겠다는데.. 그래도 안내 해 줌.. WRTN ( 3/10 )못 가르쳐 주는데, 그 중 제일 불친절함. 맨 마지막 문장은 심지어 조롱 같음. Gemini ( 2/10 )가사를 틀리게 보여 줌. 그래서 최하위 점수.심지어 아래 출처 링크는 404. 조금은 진지하게... Gemini 는 구글 검색 안 쓰나 ? 총평AI 서비스의 최대 적은 저작권 ?? 정말 ? 저작권이라는 두리뭉실한 이름으로 여러 가지 의미로 쓰이지 싶은데... 구글 검색이 추구하는 방향으로 출처와 credit 을 authorship 형태로 존중하는 방향으로 진행되어야 하지 않을까 ? 각각 서비스들 MOE 등등 할 거면 구글 검색보다는 잘 하자 ? 

대학 교육 기타검색

인공지능과 추천 시스템 - 마치며 - 2024. 12.

들어가며2024년 2학기 KAIST 경영대학원에서 Digital Finance MBA 과정에서 개설된 ‘인공지능과 추천시스템' 강의를 마쳤다. 3학점 16주의 일정이 끝났고, 작년에 강의를 끝냈을 때에 느꼈던 아쉬움에 더해서 두번째 기회였음에 따라 오는 추가적인 아쉬움들이 든다. 금융의 영역과 문제 풀이의 본질인 공학의 테두리 안에서, 인공지능과 추천이라는 주제를 다른 트랙처럼 운용하려 했고, 제품과 서비스로서의 문제 정의와 풀어 나가려는 접근 등을 같이 고민하려 했다. 과목의 이름이 주는 방대함과 위압감은 생각 이상이었고, 변화하는 시대의 이슈들을 따라가고자 하니, 구현에 대한 공통적인 실습을 줄이는 방식으로 타협을 하게 되었다. 준비한 것들교재 같이 읽기 - 박태웅의 AI 강의교재 같이 읽기 - 추천 시스템 입문 코드 따라 하기 - MovieLens , 추천 알고리즘 - 기본 구현들, openAI news creation추석 맞이 클립 모아 보기stateof.ai 2023, 2024 같이 보기특강 - Google(Playstore)에서 과제 런칭하기특강 - Search Quality with Google 특강 - Lessons from  Google Search특강 - Big Acquisitions / Nest / Subscriptions / US Life기말 발표 주제 선정, 발표 자료 리뷰, 발표 리뷰  준비했지만 못했던 것들교재 같이 읽기 - GPT-4 를 활용한 인공지능 앱 개발교재 같이 읽기 - 금융 전문가를 위한 머신러닝 알고리즘코드 따라 하기 - 추천 알고리즘 - 복잡한 구현들, Deep Learning 특강 - 인이지와 Digital Transformation with XAI Stat 들  77명의 수강생 ( 디지털금융MBA 46명, 정보경영 20명, 프로페셔널 MBA 6명, 카이스트MBA 3명,임팩트MBA 1명, 경영공학부 1명 )  4번의 remote 수업, 2번의 online 수업44개의 기말 과제 1번의 간담회 형식의 치맥   작년과 달랐던 점들 직장을 다니면서 주경야독을 하는 학생들과 전업 학생들이 완전하게 둘로 갈려 있었음.  기말 과제들에 공을 들여 이야기를 했는데, 학생들이 다른 과제의 이야기들에 관심을 가지지 않았음.  아무 주제로 면담 신청을 열어 놓았는데, 아무도 신청을 하지 않았음.  띄엄띄엄 학생들을 볼 수밖에 없는 제약이 있기도 했지만, 학기를 진행하며 작년과 너무 다른 분위기들에 많이 흠칫하게 되었다. 침체되어 있는 업권의 불편한 분위기가 그대로 내려오고 있는 게 아닌가 하는 생각이다. 마무리하며강의 평가 결과로는 타 과목 대비 낮은 점수가 나왔는데, 특히 작년보다 그다지 나아지지 못했다는 아쉬움이 있다. 전업으로 하시는 다른 과목 교수님들보다 높이 나올 수 없다는 결과는 여전히 당연하다 생각하고 있고, 특히 이 과목은 학생들이 금융과 IT의 양 극단에 있어서 적절한 강의 대상을 정하기 어려웠을 거라는 책임교수님의 예상과도 일치하는 많이 놀랍지는 않은 결과였다. 작년의 경험에 조금의 노력을 더했지만, 부족함이 많이 지적되는 결과라 하겠고, 모두를 만족시키지 못한 것에 대한 욕심, 너무 살살(?) 했던 것에 대한 아쉬움, 미안함 등이 있지만, 이 자료들이 쌓여서 올해도 내년 강의에 잘 이용이 되면 하는 바램으로 올해는 여기 까지로 마무리하자 싶다.여러 물리적인 제약들에도 불구하고, 개인적으로는 너무 소중한 경험이었고, 다시 한 번 기회를 더 주신 책임교수님과 학과 사무실 분들, 완벽했던 수업조교 들께 감사한 마음을 전한다. 수업 시간을 함께 한 학생들께도 고마움을 전하고 앞으로도 좋은 영향을 끼치기를, 그리고 인연이 계속되기를 기대한다. 

대학 교육 기타인공지능추천강의

인공지능과 추천 시스템 강의 노트 - (6/16) - 2024. 10. 11.

들어가며노벨상으로 주변이 시끌벅적한 가운데, 가을의 여의도는 이제 단풍도 보이기 시작하고, 이맘때만 느낄 수 있는 아름다움이 시작된 듯하다. 지난 주의 건담과 뉴진스에 이어 오늘은 열기구가 보였다.  분당에서 여의도를 가는 길에 AI 강의 2025 책을 구입하러 책과 얽힘 에 들러 아래 이벤트를 참석해서 사인도 받았고, 브로마이드도 구할 수 있었다. 그리고 이는 오늘 퀴즈를 맞춘 학생에게 선물로 책과 함께 주었다. https://www.facebook.com/events/1614464549496226/?ref=newsfeed박태웅의 AI 강의 2025 싸인회 기말 과제는 아직 절반 정도만 셋팅이 되었다. 몇몇 메일들에 대해서는 주제를 명확하게 해 달라는 피드백을 주기도 하고, 논문 정리의 경우 미리 같이 훑어 보며 궁금한 점들을 미리 이야기하기도 하는데, 조금 더 이야기들을 들을 수 있으면 하는 바램이다. 그리고, 간담회를 8주 차에 운영하기로 허락을 받았고, 한두시간 이야기를 자유로이 나누기로 했는데, 이 때에도 다양한 이야기를 들을 수 있으면 하는 바램이다. 한 주간 서울의 가을 날씨를 제대로 대비하지 못해 감기를 꽤 앓았었는데, 수업 시간에 쉬어가는 목소리로 이야기를 하게 되어 학생들에게 미안하게 되었다...  준비한 내용들6주) 강의 update현재까지 노벨상 수상한 모든 사람이 내가 아는 사람이 되는 신기한 상황에 그 중 절반은 근무 기간이 겹치는 전 직장 동료라는 게 여전히 믿기지는 않는다. 저 상의 무게, 업적의 깊이, 살아온 이력 등이 어땠을까 가늠이 가지 않으면서도 여러 가지 생각이 들게 되는 한 주였다. 아울러 stateof ai 2024 년 내용이 release 되었다. ( https://www.stateof.ai/ ) 이후 수업에서 몇 번 다룰 내용들이라 여러 번 인용이 되겠지만, 작년의 예측들에 대해서는 일단 아래의 내용으로. 참고로 AI 가 만든 음악이 메이저에 올라올 거라는 9번째 예언의 해석에 대해서는 개인적으로 동의가 되진 않는다.  추천시스템 - 7. 평가추천시스템 - 5Google(Playstore)에서 과제 런칭하기.pptx 추천 시스템 순서 상으로는 5. 알고리즘이 먼저이지만, 이는 책 절반을 할애하게 되고, 7. 평가 부분은 이론적으로 먼저 훑고 가야 할 내용이라 이야기를 꽤 해야 했다. 아래는 대략적인 설명. 결국 셋 다 해야 한다는 이야기.. 교재는 무비렌즈 데이터들을 가지고 해 보는 것으로 이 중 오프라인 평가에 해당하고, 안에서도 아이템을 예측한 후에 판단을 어떻게 내릴 것인지에 따라 f2 score 혹은 RMSE 비교 등으로 여러 이야기를 하게 될 것이다.그리고, 추천 시스템 알고리즘 맨 앞 부분은 랜덤과 popular. 개인화든 아니든 어떤 로직이든 싸워서 우열을 가려야 하는 상대가 있다면 이 둘인데, 이들에 대해 코드로 EDA 하는 부분이 포함되어 있다. 이후 조금 복잡한 알고리즘의 경우는 각각 별도의 시간을 가지고 하나씩 해야 할 거 같은데, 수업 시간에 하나씩 30분씩 해서 진행해 보려 한다. 아무래도 노트북 코드를 가지고 훑는 모습이라 한계가 있을 거 같기도 한데, 지표들이 공감과 설명이 잘 되면 하는 바램이다. 구글 플레이스토어 - part 1이 발표 자료는 작년 강의 이후 조금 정리해서 구글 플레이스토어 한국 현지화 과제를 2년간 책임자로 있으면서 다루었던 내용들이 정리된 내용들로, 이제 거의 10년이 다 되어가는 기억과 기록들이지만, 두어번 시간에 나누어서 나누고 싶었던 내용이다. 실제 B2C 제품 팀을 운영하는 분들에게 해 줄 수 있는 이야기들이기에 최대한 감정 이입을 부탁하기는 했다.오늘은 첫 시간으로 내용들 중에서 개요와 당시의 제품이 지니고 있던 챌린지들, 그리고 평가들을 하기 위한지표들에 대한 이야기들을 나누었다. 쇼핑몰의 성격과 닮아 있지만, 1인당 1개의 구매 제한, preinstall 등의 사연들이 있는 제품에서 여러 이야기들을 나누기 위해 지표 이야기까지는 같이 다루고 싶었다.  아래는 학생들에게 낸 오늘의 퀴즈. Q) 당시 구글 플레이스토어에서는 Good Acquisition 을 정의했는데, 인스톨 후 Y일 이내에 X번 실행을 한 경우 이를 True 로 놓았었다. X 와 Y 를 구하시오.힌트 : Y 는 7의 배수 Q&AQ. 모델 밸리데이션 시 Train:Valid:Test 비율을 8:1:1을 사용하는 경우와 6:2:2로 나누는 경우는 어떤 차이가 있나요? 예를들어 8:1:1이 6:2:2 보다 과적합 문제가 더 커지는 건 아닌가요?A. 일반적으로 그 이슈가 맞습니다. 일반론적으로 많은 경우 training 수가 적으면 학습이 덜 되고, 과하게 많으면 overfitting 이슈가 생깁니다. 대개 training 이 안 되는 문제가 먼저 오게 되고, overfitting 이 뒤에 오는데요. Overfitting 의 경우 전체 데이터 수를 늘리면서 많이들 해결합니다. 20%를 테스트로 놓는 경우는 대개 샘플 수가 적을 때 많이들 그리 합니다. Q. 질문은 강력한 시그널이라는 말씀을 들으니 십여년 쯤 전 구글 직원분의 세미나가 생각납니다. 그분도 질문은 거짓말을 하지 않는다고 말씀하시면서 자신은 질문 쿼리 데이터를 바탕으로 투자시스템을 만들 계획이라는 이야기를 했었습니다. 구글이나 다른 기업들이 질문 데이터를 활용하는 방법들을 소개해주시면 감사하겠습니다.A. 정확하게는 질문 후의 반응의 행동까지가 한 셋트입니다. 질문이 연속될 경우 그것도 강한 연관 시그널이겠구요. 특히 통계로 접근할 때 쿼리창에 나오는 suggest 쿼리들은 통계적으로 안 쓸 이유가 없는 훌륭한 소스지요. 많은 경우 통계 혹은 로직이 random 과의 싸움이라 했을 때 같은 쿼리를 다른 사용짜가 우연히 같이 넣는다고 하면 아주 큰 일이 벌어지고 있는 것입니다. 네이버 검색도 마찬가지고 각종 쇼핑몰도 마찬가지이겠습니다. 구글 플레이스토어만 하더라도 모든 쿼리에 대해 거대한 표를 만들어 놓는다 치면 어떤 쿼리가 와도 정답을 줄 수 있겠습니다. 시스템 복잡도 이런 건 대개 뒤에 고민해도 늦지 않습니다. :) 출처 : 브런치 매거진 KAIST DFMBA 2024https://brunch.co.kr/@chaesang/83 ( 2024. 10. 11. )

대학 교육 기타인공지능추천금융

인공지능과 추천 시스템 강의 노트 - (5/16) - 2024. 10. 4.

들어가며10월이 되면서 다시 찾은 서울은 더이상 무더위의 서울이 아니었고, 날씨는 언제 그랬냐는 듯 평범하였다. 한국에는 목요일 새벽에 도착하였고, 몇몇 적응들을 한 후 여의도로 출근도 평범했다. 여의도 전철역에는 뉴진스와 건담 관련 광고들이 펼쳐져 있었다.  기말 과제에 사인업을 20명 정도 하였다. 감을 잡기가 힘들었는지 작년 대비 학생들이 주제들을 이야기 못 해 주고 있는 상황인 거 같지만, 메일이 오면 일단 먼저 주제의 범위가 괜찮은지 같이 둘러 보며 피드백을 주고, 일정 조절을 같이 하고 있다. 이후 일정들을 체크해서 자유 간담회 시간을 잡을 예정이고, 이번 달 말 정도에 한 번 할 수 있으면 좋겠다는 생각이다. 준비한 내용들5주) 강의 update( 모든 이슈들은 openai 를 중심으로.. )추천시스템 - 3 추천시스템 - 4 추천 시스템 강의 3, 4장3장은 UI/UX 에 대한 이야기를, 4장은 추천 로직을 시스템으로서 접근하는 노력을 담았다. 하나의 제품이라 할 지라도 모두에게 모든 케이스를 만족시키는 결과를 하나의 로직이 만들어 낼 수 없을 것이고, 그러기에 제품의 여러 상태에 따라 다양한 내용들을 접목시키는 노력에 대해 이야기하고 있다. recommender로 불리기 전에는 information filtering 이라는 이름으로 널리 쓰이고 있었고, 이론적인 교과서적인 면에서 결국 시스템 구현은 아래 위키피디아에 나온 이 방법들을 기본으로 설명하고 있고, 하이브리드를 적용하는 것으로 접근한다. https://en.wikipedia.org/wiki/Collaborative_filtering제품의 구성 따라 아래의 예제들처럼 접근하시라.. 라는 잠정적인 결론.    개요 추천 - 내용 기반 필터링      알림 서비스 - 사용자-사용자 메모리 기반 협조 필터링       알림 서비스 - 모델 베이스 ( 데이터가 축적되면 )      전자상거래 검색 - 내용 기반 필터링      전자상거래 홈페이지 - 구입 이력을 통한 추천   이후의 내용들은 각 서브 모듈을 어떻게 정의하고 비교할 것인지에 대한 내용들이어서 다음 시간으로 미루었다. 코딩과 수식이 난무한 시간이 될 것이고, 꽤 고민 거리들이 있게 될 거 같다.오늘의 퀴즈들오늘은 구글 검색 때 했던 몇가지 논의들 + 안팎으로 공개되었던 몇몇 숫자들에 대한 질문들.1. 구글의 검색 결과를 사용자가 클릭을 했을 때 click duration 이 짧으면 short click 이라 해서 이른바 낚임을 나타내는 나쁜 페이지를 나타내는 정보이고, long click 은 이후 페이지를 충분히 소비한 좋은 결과를 이야기하게 되는데, 이를 나누는 기준은 각각 몇 초일까 ?2. 구글이 knowledge panel 을 기존에 있던 광고 위에 올리고, 기존의 click mechanism 이 특히 모바일에서 틀어지게 되었는데, 주어진 쿼리에 스크롤이 얼마간 일어나지 않으면 비록 click 이 없더라도 쿼리에 대한 좋은 결과를 준 것으로 간주했는데, 이 때는 몇 초를 기준으로 삼았을까 ? Q&AQ. 사용자가 제품 안에서 하는 행동들을 기록해서 적으면 너무 방대하고 오차들이 많지 않나요 ?A. 이른바 event tracking 이라 불리는 영역이고 아주 오래전부터 상상 이상으로 많은 제품들이 이쪽에 있는데, Google Analytics / Firebase Event / Amplitude 등이 그 역할을 하고 있고, 그 데이터를 수집하려는 입장에서는 더 많은 정보들을 원하고 있을 것입니다. 오차들을 줄이려는 노력들을 많이 하고 있고, 통계적으로 의미 있는 일들을 모으고 있고, 사용자들의 이벤트들을 모아서 보통 세션이라는 개념으로 해서 분석을 많이들 합니다. Q. 유튜브에서 추천은 어떤 식으로 이루어 지나요 ?A. 지금의 유튜브는 위의 두 줄을 '통합 추천'의 개념으로 놓고, 그 아래 그룹들을 추천해 주는 방식을 쓰고 있습니다. 넷플릭스나 아마존 등에서도 비슷하고, 친절한 그룹 설명들이 있는데, 그 중에 여러 이유들을 가지고 모아서 위에 모아 주는 용감한 전략을 쓰고 있지요. Q. 구글검색 굿클릭 기준이 30초~2분(모바일은 3초?)인데, 30초라고 결정했던 요소들이 어떤 것이었는지 궁금합니다. (예를 들어, 지난 데이터들을 분석해보니, 30초 미만 머물렀던 클릭들은 다시 검색하거나 다른 링크로 들어가는 행동을 보였다던지)A. 검색 결과 - 클릭 - back to 검색 결과 - 다른 클릭 이 일어날 때 앞의 back to 검색 결과에 대해 많은 가중치를 두는 계산들을 했었습니다. 페이지 자체의 품질이라기보다는 주어진 쿼리와의 연관성에 대한 피드백이 되는 경우가 많아서 사용자가 계속 검색 페이지로 돌아오는 건 클릭 후 행동이 그다지 만족스럽지 않았다는 것을 나타낸다 했었구요.모바일 3초는 knowledge panel 이 주어진 쿼리에 대해 얼마나 유효한지에 대한 수치였습니다. 검색 페이지를 보여줬을 때 사용자가 3초간 보고 스크롤을 하지 않는다면 검색 결과가 만족스러운 것이다 라는 해석이었더랬습니다. Q. Cross-selling 파트에서 구매전/구매후 추천되는 아이템이 다르고 운영되는 팀도 다를 것라고 하셨는데, 그냥 생각하기엔, 같은 팀에서 운영하는 것이 더 효율적이고 시너지가 날 것 같은데, 그 두 시점에 따라 다른팀에 의해 운영되는 효과가 궁금합니다.A. 제품의 구성원 따라 다르겠지만, 구글 정도의 큰 회사인 경우 혹은 다른 쇼핑몰 들일지라도 같은 공간을 여러 팀들이 경쟁해서 무언가를 꾸미는 형태로 진행된다 보시면 될 것이구요. 공급자 눈에 비슷해 보여도 ‘똑같은' 로직이 다른 곳에 최고의 성적을 내는 경우가 드물기도 하고, 반대로 안팎의 사정으로 묶어서 운영하기도 하겠구요. 효율을 어디서 정의하느냐 따라 다른 일들이 벌어진다 하겠습니다. 개인적으로 사용자 입장에서 구매 버튼 누르는 시점 앞뒤로 똑같은 걸 사라고 자꾸 뭔가가 뜨면 싫어할 거 같긴 합니다. 실제로 사용자들은 그런 사소한 이유들로 많이들 떠납니다. Q. Credibility파트에서 ‘리뷰자체를 신뢰하게 만드는 법’에 첫 항이 ‘운영자들이 리뷰를 직접검수’ 였는데, 언뜻 생각하기로 그렇게 많은 리뷰를 어떻게 다 검수하지란 생각이 들어서요,, 필터를 해서 특정한 유형의 리뷰만 보는 모델을 사용해서 효율화를 하는지(왠지 이것도 한계가 많아서,, 다 직접 봐야하지 않나 싶은데) 어떻게 효과적인 방법으로 리뷰 검수를 할 수 있는지 궁금합니다. A. 일단 사람이 먼저 해야 이후에 기계한테 룰이든 머신러닝이든 시키지 않을까요 ? 기계의 도움을 받아 사람이 하고 보수적으로 처리한다 정도가 맞는 말일 거 같습니다. 참고로 구글은 spam fighting 을 20년 넘게 해 오던 회사이고, 거기에 따른 노하우들에서 시작합니다. 참고로 막 만들어진 서비스의 경우 리뷰 별로 안 많을 겁니다… :)  제품을 운영하는 입장에서는 ‘효율화'는 나중에 와야 합니다.출처 : 브런치 매거진 KAIST DFMBA 2024https://brunch.co.kr/@chaesang/81 ( 2024. 10. 4 )

대학 교육 기타인공지능추천경영

한국 IT 용어 이야기 (12) - "주석"

REM 이 기억이 났다. 예전의 기억들부터..연식이 나와 버리지만, 꽤나 오래 전 초등학교 아니 국민학교 시절에 컴퓨터를 배웠다. 당시 삼성 SPC-1000 이었고, 뭐 이렇게 생긴 것을 학교에서 접했더랬다. 왼쪽의 플로피 디스크는 공용으로 썼던 기억이다.이후 Apple2 컴퓨터를 접하면서는 이런 것도 했었더랬다.for / if else / print 뭐 이런 것들이 제일 먼저 배우게 된 영어 단어였다. I am a boy 같은 것보다 먼저 배웠던 기억이다.서예 학원을 다녔어서 한자를 꽤 읽을 줄은 알았지만, 어려운 한글/한자인 '주석'을 접하게 되고, REM 이라는 충격적인 단어를 접하게 된다. 오늘의 기억 소재.. 아주 오랫동안 REMOVE , REMEMBER 등의 약자로 오해하고 있었더랬다. 프로그램에 줄 별로 친절한 설명을 달기 위함이였다고 하지만, 안 쳐도 실행에 지장 없고, 손으로 코딩을 하던 시절에는 더더욱 없는 셈 치려 했던 기억이다. 이런 걸 왜 만들었지? 왜 사람들은 주석이라 그랬지? 대학교 시절의 주석남들이 써 놓은 논문들을 제대로 접하면서 각주, 주석, 인용 등의 의미를 알게 되었다. 코영어로는 footnote, cite... REM 은 왜 안 쓰지 ? 미국 사람들은 remark 를 쓰는 건가 ? 코드를 계속 접하면서도 여전히 있으나 마나한 명령어로 인식하고 있었다. 내가 초절정 고수는 아니었지만, 그렇다고 남들한테 일일이 설명해야 하는 상황이 생길 일이 적었기도 했다. 컴파일러 혹은 어셈블러 과목에서 주석 처리는 제일 먼저 해결해야 하는 문제였다. parser 이런 거 처음 만들 때 당연히 잘 안 되고... 실제 주석만 처리하다 꽤 많은 시간들이 날아갔던 경험들이다. 다양한 주석들평생 프로그램/코딩을 가까이에 놓다 보니 다양한 언어들을 접하게 되고, 아주 다양한 comment 방법들을 접하게 된다. 여러 개를 닥치는 대로 쓰다 보니 거꾸로 Java 에서 # 을 쓴다든지 하는 실수들을 접하게 된다. windows shell 에 REM 을 쓰던 시절도 있었고, bash shell 에서 # 인지 // 인지 매번 헷갈려 한다. 최근의 꽤 충격적인 경험들은 -- 을 붙여 쓰던 것들이었다.. C, C++, C#, Java, JavaScript, golang : // , /* */어셈블리어 : ;HTML : <!-- -->Python : # , ''' ''', """ """SQL : -- , /* */CSS : /* */BASIC : REM annotation / comment예전에 배웠던 언어들의 최신 버젼들은 주석도 아닌 것들이 annotation 이라며 코드나 컴파일러에 영향을 주려 한다. Java , Python 에서 종종 보이고. 프레임워크 따라서 이름을 정하거나 외우거나 해야 할 수도 있게 되었다. 함수 이름만 고민하던 시절에 비해 왜인지 모르게 더 복잡해 진 거 같고, 문해력이 더 필요하게 되었다.바이브 코딩 등을 통하다 보면 comment를 통해 꽤 많은 의미를 주려 한다. 구글에서 코드 리뷰 등을 논할 때 여러 가치관을 가지고 함수 앞부분에 이야기를 많이 하라고 했고, 정작 코드 블럭에서는 설명이 필요한 코드들을 만들지 않도록 노력하라는 이야기들을 배웠더랬다. 빅테크에 조인하고 나서야 남에게 읽히기 위한 코드 만들기를 꽤 뒤늦게 시작했으니, 진정한 미국 영어들은 이 comment 들을 리뷰하면서 배웠던 기억들이다. a 냐 the 냐 , 마침표냐 쉼표냐 등등.. 이제 아무도 REM 을 쓰지는 않나 보다.. 그래도 주석이라고는 쓰겠지 ?

대학 교육 기타

한국 IT 용어 이야기 (11) - "플랫폼"

내가 쓰는 플랫폼은 어떤 걸까..? 지금 돌이켜 보면 거짓말같은데, 빅테크에 있던 10여년 동안 딱히 신경 쓰지 않았었더랬지만, 밖에 나오면서 꽤 많이 '플랫폼' 이라는 말을 접하게 된다. 살짝 생각해 보면, 바깥이기도 하고 한국이라서 더 그랬던 거 같기도 하다. 플랫폼 기업이라는 말도 꽤 들리고, 국가 과제로 혹은 제안서 등에서 무슨무슨 플랫폼을 만들겠다고 하는 건 특히 많다. 회사마다 사내에 데이터 플랫폼이라는 걸 여러 곳에서 만들고, 뭔가 비슷비슷해서 또 다른 식의 구체화가 되는 등... 살짝 삐뚤게 보면, 뭔가 조금 더 있어 보이는 목적으로 꽤 남용되고 있는 단어라는 개인적인 생각이다.일단 10여년 전의 김수보 선배님의 글이 발견됨..https://subokim.wordpress.com/2013/01/31/platform-story/ 플랫폼 - 기차 / 터미널일반적인 사전적 의미부터... (누군가가) 플랫폼에는 길을 닦아 놓았으니 이 위에 운송 서비스를 하시오.. 버스든 기차든 어디로 가는 거든 등... 기본적으로 여행객과 운송 업체가 연결될 것이고, 사람이 아니고 물건들끼리 '자유로이' 서비스들을 운영하고, 아마도 수수료를 철도 유지비로 내는 등의 것들이 고려될 수 있겠다. 쉽게는 직행, 완행 등 다양한 서비스들이 구현될 수 있겠고. '쉽게' 라는 게 키워드이기도 하겠다. 그래서 플랫폼의 일부인 기차역은 도심에 대개 위치하게 되고, 주변의 숙박업, 외식업 등의 간접적인 효과를 끼치게 한다.여기서 일단 짚고 싶은 건 보이지 않는 곳에서 많은 일들이 벌어지고 정의되어야 한다는 부분이다. 최소 도시 혹은 나라 스케일의 판단이 있어야 하고, 땅을 사서 길을 만들고 광고나 운영비 등이 담보되거나 혹은 세금으로 처리되거나 등등의 일들이 있겠다. 기관차의 유지 보수는 해당 사업자들이 하겠지만, 철로의 유지 보수, 설계 등은 플랫폼 업체의 담당이고 이를 쓰는 사용자들에게는 보이지 않는 영역이어야 하겠다. 여기까지가 아주 원초적인 의미의 플랫폼. 모바일 플랫폼하드웨어 플랫폼이라는 걸로 살짝 지나간 기억이 있긴 한데, 리눅스냐 윈도우즈냐, OS 가 뭐냐 GUI 가 뭐냐 정도가 간단한 논의거리였더랬고, Symbian OS, S60 Platform 이라는 정도로 처음 제대로 접하게 된다. OS 위에 GUI layer, system layer, 각종 middleware 등이 깔린 상태를 다 담당하고, 그 위에 application 만 만들면 되게 해 놓은 상태까지..이 연장선 상에 아이폰과 안드로이드가 세상에 나왔을 때 모바일 플랫폼이라는 걸로 정리되었더랬다. 이름이 주는 오해가 있지만, S60 의 소멸 이후에 iOS 와 Android 는 꽤 오랫동안 모바일 플랫폼으로 불렸다. 모바일 장치를 구매한 사용자, 앱의 형태로 서비스를 제공하고 싶어 하는 개발사, 하드웨어를 만드는 업체들 등이 플랫폼을 만든 구글 혹은 애플이 이미 만들어 놓은 것들 위에 할 수 있게 한 것일테다. 플랫폼 을 담당하는 업체들은 아래의 것들을 모두 담당해야 하겠다.운영체제 + RuntimeApplication framework + APIs개발 도구들앱을 배포할 수 있게 만드는 장터 + 인스톨러들하드웨어 폼팩터 + 에코시스템 플랫폼 - 배달 앱살짝 놀랐지만, 쿠팡, 배달 음식 서비스에서 배달을 업으로 삼는 분들을 플랫폼 노동자들이라고 부르고 있었다. 우버 드라이버 = 플랫폼 노동자 의 개념이었던 것도 놓치고 있었던 부분이고, 개별 노동자들의 일감을 '쉽게' 만들어 줄 수 있게 하는 역할을 하고 있고, 우버와 쿠팡 등은 그 의미에서 플랫폼 기업이 맞겠고, 그 위에 차량 이용 서비스 , 차량 제공 서비스 등이 구현되는 모습이겠다. 살짝 까칠하게 엄밀하게 이야기하자면, 회사에 고용이 되어 버리게 되면 그건 '플랫폼'으로서의 의미가 아니겠다는 생각이다.위의 기찻길 플랫폼 만큼 일반적이거나 공공의 성격이 굳이 있진 않지만, 서로 제공하려는 서비스와 돈의 흐름들을 되게 만들어 주는 영향이 있다 하겠다. 우버 등의 경우 차량 이용자, 차량 제공자가 참여할 수 있게 하고, 배달 앱들의 경우, 식당 주인, 음식 주문자, 배달 서비스 제공자 들이 연결되겠다. 그 사이에서 필요한 배차, 물류, 주문 등등을 플랫폼 기업들이 담당하고 있겠다. 플랫폼 노동자 = 배달업 종사자 로 지나치게 일반화되는 건 많이 불편한데, 배달업 뿐 아니라 프리랜서, 가사도우미 등 불완전한 고용 형태들을 가진 사람들이 일을 찾는 곳들은 여러 의미로 플랫폼 노동자로 불리고 있다. 데이터 플랫폼 / 데이터 플랫폼 서비스 ?기업들 내부에 하나씩 있는 팀 혹은 프로젝트들 혹은 ### 구축 으로 불리는 여러 과제들의 경우 scope 들이 많이 달라진다. 요구 사항 특히 기대치가 다른 경우들이 대개 여기에 해당하는데, database 에 테이블 하나만 운영해도 되는 경우부터 UI 를 가지고 현란한 대시보드들을 자유자재로 만들 수 있게 기대하는 것까지 다양하다. 게다가 큰 꿈들을 가지고 사내에 모든 데이터들을, 혹은 버티컬/도메인 상관 없이 다 어떻게 해 주겠다.. 라고 하지만 실제 사용자들이 필요한 건 주문형으로 만들어 진 채팅 서비스이지 플랫폼이 아닌 경우가 꽤 많다. 앞의 플랫폼들을 참고한다면 공급자가 할 수 있는 것들, 수요자가 필요한 것들 혹은 수요자를 위해 누군가가 이 위에해야 하는 것들이 있는 경우 등 오해가 많이 생기는 영역이겠다.지난 사례들을 통해서 DX, AX 고민들을 할 때 꽤 나타나는데, 기껏 복잡한 걸 다 만들어 놓아도 결국 excel 로 다운로드 받기 위해 전용 화면들이 필요하다든지, 주문형 대시보드를 만들기 위해 현장에 있는 사람들이 새로운 교육들을 배워야 하는 일들이 벌어진다든지, 어차피 새로운 데이터들이 들어올 때 수동으로 할 거면서 뭔가 저절로 될 것처럼 포장되어 있다든지 등... 특히 플랫폼과 서비스가 동시에 보일 때 많이 불편함을 느낀다. 기억을 더듬어 보면 marketplace , framework , library , solution 등의 이름들이 꽤 많이 섞여서 나오게 된다. 서로 같은 이야기를 하고 있는 건가?상대적으로 서비스라고 하는 것도 사실 꽤 최근에 쓰이는 개념이리라.. 예를 들면 구글 검색은 서비스이고 유튜브는 플랫폼이고, 광고는 플랫폼이고 등등... 굳이 여기서 말 가르기를 해야 하나 싶다가도 서비스가 주는 명확함이 대화들을 이끌어 나가는 걸 지지하는는 편인데, 그래서인지 개인적으로는 플랫폼 자체는 실체가 없는 것이라는 선입견이 꽤 있다. 맨 처음 예제로 간다고 하면 플랫폼 사업의 근간은 도로 깔고 철도 연결하는 업인데, 서울에서 부산에 그래서 언제 뭘 타고 가야 하느냐와의 대화를 하고 있는 셈일테다. 용어들의 간극이줄어드면 하는 바램이다. 부록 : AWS / GCPAmazon은 Amazon Web Service로 쓰는데, Google은 Google Cloud Platform 으로 쓴다. 두 회사 솔루션의 경우 platform 도 맞고, service 도 맞을 거 같은데, MS 는 아예 Azure 라고 피해 간다. 다만 cli 의 경우 아래처럼 다른데, AWS 가 세련되어 보인다.$ aws login$ gcloud auth login$ az login 구글의 경우 Google Web Service 는 오래전부터 구글 검색 프론트엔드가 쓰던 이름이어서 GWS 를 쓰지 못했을 것 같은데, 지금은 GWS = Google Workspace 로 쓰이고 있다. Google Cloud Service 라고 쓰고 싶을 수도 있었겠으나 Google Cloud Storage 가 꽤 오래 전부터 GCS 를 잡고 있었을 테니... 밖에서는 gs:// 로 쓰고 있는 걸 보면... 이름 짓는 건 매우 어렵겠다. 특히 쓸만한 이름들은 이미 다 누군가가 쓰고 있어서 더 어려운 것도 그러하겠다.나를 포함한 엔터프라이즈에서 몇몇 주관적인 평가들로는 service 를 사용하는 고객의 만족도가 platform 을 사용하는 고객의 만족도가 높다 한다. 특히 뭔가가 잘 안 될 때 service 는 도움을 청할 곳이 있고, platform 의 경우 내가 스스로 풀어야 하나 등의 간극이 있다. 

대학 교육 기타용어

wikipedia 25주년을 맞이하며 - 나의 첫번째 백과 사전

Wikimedia 가 창립 25주년을 맞이하며( https://wikimediafoundation.org/wikipedia25/ ) 주요 BigTech 들과의 협업을 뉴스로 접하게 되었다. ( https://news.nate.com/view/20260116n08571 ). 주로 위키피디아지만, 검색 현업에 있을 때, 혹은 그 이전부터 접했으니 나도 20년 정도는 열혈 사용자였던 거 같고 여러 가지 연관된 생각과 이야기들. 사용자의 시각에서먼저 꽤 오랫동안 접속할 때마다 donation 을 강요(?)하는 배너를 보며 한편으로 마음이 많이 불편했는데, 먼저 그 걱정은 덜게 되어 다행이라는 생각이다.초기 미국 이민자의 삶을 살 때 가장 믿고 의지했던 사이트. 구글에서 검색을 하고, 그럴 듯한 위키피디아 페이지가 결과에 보이면 많이 안심하며 무조건 읽으면서 배워 나갔다. 연예계 소식, 역사 이야기, 각종 수학 공식들까지. 어린 시절 집 어딘가에 있었던 백과사전이 이런 것이었겠군 싶었던 내용들. 영어 공부도 이걸로 했었고, 인용된 링크들이 믿음직하던 것들도 덤.2026년 현재 여전히 방문자 수 세계 10위 이내에 드는 초대형 사이트. 사람들이 좋아하는 만큼 AI 들이 좋아하는 것도 당연하겠고, 아마도 나 같은 사용자 덕에 구글 같은 검색 엔진의 도움도 있었을 테니 그것도 당연함. 광고 없이 파트너십과 재단으로 운영된다는 것이 여전히 믿기지 않는다. 몇몇 예민한 내용들은 가짜뉴스의 소재로 사용되기도 한다지만, 특별한 정치적 소재가 아니고서는 믿고 보던 사이트. 개발자의 시각에서web page , dump , API 접근 , database export 지원까지.. 이렇게까지 친절해도 될 일인가 싶을 정도로 완벽한 방법들을 제공한다. 일단 영어권에 필요한 내용들은 다 있고, flat 한 directory 구조이지만 URL 과 문서의 제목을 잘 찾아 내기만 하면 자연스레 navigate 할 수 있다. 웹 페이지 펼쳐 놓고, 터미널 비교하기도 너무 수월하고.. 페이지 자체가 보통 너무 길지도 너무 짧지도 않게 되어 있는데, 이건 내가 훈련이 되어서 그렇다고 하겠다.구글 검색 현업에 있을 때 사내에 daily dump 가 있어서 공공재로 사용했던 기억들이 있고, 저 flat 한 구조는 freebase 와 엮이면서 시너지를 내고, 구글의 knowledge base / knowledge panel 에 근간으로 쓰였더랬다. 사이트 자체의 정보들이 다들 쓸모 있는 것들이어서 몇몇 버티컬을 같이 디자인하며 열심히도 들여다 본 기억이다. 물론 지금도 LLM 들 pretrain 에 commoncrawl 에 더해 제일 먼저 참조되는 소스로 이용된다. 별도의 유사 검색 엔진을 만든다고 한다면 당연히 처음으로 사용해야 할 데이터임에 틀림 없다. 구글 선수 시절 기억들정보들이 충돌이 날 때 그를 해결하는 source of truth 로 자주 이용되었고, '잘 된' 영어의 참조로 이용하였더랬다. no wikipedia index 는 좋은 baseline index 로 이용되었고, 뭔가 잘 모르겠다 싶으면 구글 검색에 물어 보거나 wikipedia dump 에서 찾는 방식으로 많이 이용되었다. 인용된 링크들도 의미가 있었고, 잘 만들어 진 고품질의 문서, 사이트에 해당했다.당연하게 App indexing 과제에서 처음으로 커버한 100개의 사이트에 포함되어 있었고, 웹 세상과 다르게, 모바일 세상에서 많이 쓰이지 않는 wikipedia 앱을 어떻게 다루어야 하는 고민을 했더랬다. 웹이 너무 잘 만들어져 있어서 앱이 쓸모없어진 그런 경우라 하겠다. 당시 검색 팀에서 경쟁적인 위치에 있던 mobile rendering , progressive web app 등도 앞다투어 제일 먼저 다루던 사이트였다.꽤 오래 만졌던 영화 같은 몇몇 도메인들의 경우에는 공공의 적으로 위치하기도 했던 기억이다. 제일 많이 쳤던 "Tom Hanks" , "Forrest Gump" 등의 쿼리에 대해 마음으로는 imdb.com 이 올라와 주기를 기대하며 어떻게 하면 저 wikipedia 를 이길 수 있을까 고민도 많이 했었더랬다. 한편으로는 그런 실험들을 돌리면, 여지없이 사용자들은 wikipedia 를 더 좋아했더랬다. 참고로 한국의 경우 나무위키와 시네 싸이드들이 더 위에 올라와 있다. 한글에 대한 아쉬움들눈높이가 영어에 있어 더 그렇겠지만, 한글 contents 는 많이 부족해 왔다. 위키피디아가 한국 사용자들에게 알려져 쓰였으면 하는 시기에 네이버 검색이 네이버 지식인과 네이버 원박스 들과 함께 흥했고, 당시에 구글 스타일의 검색이 고전을 하게 된 이유와도 닿아 있다. 당시에는 선수로 참여하면서 승부에서 진 셈이기에 아쉬운 마음이 많다. 당시 방법론으로 번역 품질을 고민하기에도 같은 내용을 여러 언어로 설명하기에 제일 표본이 되는 게 위키피디아였고, 그래서 EN-JA 가 EN-KO 보다 번역 품질이 높았던 것들도 연관이 있었다 하겠다.이후 살짝 다르지만 나무위키가 이 포지션을 잡게 되며, 거친 단어들이었지만 구글 검색의 품질이 올라가고, 그에 맞추어 한글 위키피디아 내용들도 좋아진 기억이다. 다행이기도 하고, 이제 원박스나 쇼핑 관련된 게 아닌 경우 검색 결과 페이지가 밀린다는 평가는 거의 없는 거 같다. 참고로 나무위키는 라이센스가 다르고 위의 개발자 친화적인 방법들이 제공되지 않는 일종의 민간 기업에 해당한다. 언제 어떻게 사라질 지 모르는... 아슬아슬하달까..최근 소버린 논의 등에서 '한글로 잘 정리된 문서' 영역에 대한 아쉬움이 많다. 영어의 경우 너무나 손쉽게 wikipedia dump, 한 달에 한 번씩 업데이트 되는 commoncrawl dump 등 공들여 만든 믿을 만한 데이터들이 너무 쉽게 접근 가능한데, 한글에 대해서는 '네이버에 있으니까', '블로그에 있다니까' 등에 synthetic 으로 만들어 낸 데이터들에 대한 이야기들만 조금씩 이야기하게 된다. language model 을 만든 이후 agent 나 RAG 등이 어딘가에 검색을 시도하려 한다 하면 그건 또 그것대로 같은 사이클을 돌게 되며 아쉬운 상황들이 벌어질 거 같다. 재단이 안 되면 세금/연구 기관들이나 기업들이 챙길 수 있을까..? 

대학 교육 기타정보뉴스

인공지능과 추천 시스템 - 마치며

들어가며 2025년 2학기 KAIST 경영대학원에서 Digital Finance MBA 과정에서 개설된 ‘인공지능과 추천시스템' 강의를 마쳤다. 3학점 16주의 일정이 끝났고, 지난 두 번의 느낌과는 또 다른 추가적인 아쉬움들이 든다.이번에도 금융의 영역과 문제 풀이의 본질인 공학의 테두리 안에서, 인공지능과 추천이라는 주제를 다른 트랙처럼 운용하려 했고, 제품과 서비스로서의 문제 정의와 풀어 나가려는 접근 등을 같이 고민하려 했다. 과목의 이름이 주는 방대함과 위압감은 지난 학기들 이상이었고, 변화하는 시대의 이슈들을 따라가고자 하는 게 버거움이 많았다. 준비한 것들교재 같이 읽기 - 박태웅의 AI 강의교재 같이 읽기 - 추천 시스템 입문코드 따라 하기 - MovieLens , 추천 알고리즘 - 기본 구현들 , 복잡한 구현들특강 - stateof.ai 2025특강 - Google(Playstore)에서 과제 런칭하기특강 - Search Quality with Google특강 - 실전에서 만나는 이슈들-데이터 기반 의사 결정, 서비스 설계 개발, 운영과 모니터링특강 - 인이지와 Digital Transformation with XAIㅏ기말 발표 주제 선정, 발표 자료 리뷰, 발표 리뷰추석 맞이 클립 모아 보기 Stat 들56명의 수강생4번의 remote 수업55개의 EDA 중간 과제, 44개의 기말 과제1번의 간담회 형식의 치맥 작년과 달랐던 점들토요일 오후 수업. 16주간 여의도로 토요일 오전 출근, 저녁 퇴근.공개적인 자료를 가지고 진행한 EDA 중간 과제들 추가강의 계획서부터 예고를 꽤 했었지만, 과목 이름에 대한 기대 때문에 편차가 심한 건 감내해야 했을 테고, 학생들의 리포트 내용이나 발표 내용도 아예 처음 보는 사람부터 거의 다 아는 사람들까지 편차가 커서 아쉬움이 많았다. 토요일이지만 물리적으로 하루 종일을 할애했었지만, 막상 학생들과 기억나는 interaction들이 많지 않은 것도 아쉽고, 내용들도 중구난방의 형태로 받아들이는 친구들이 많았다. 학기 초 한두번 수업 시간에 이야기를 했더랬지만, 끝까지 전달되지 않는 건 정말 내 문제만이었을까 싶은 생각까지 든다.중간 리포트와 기말 보고서의 품질이나 깊이 등이 작년 대비 많이 낮아졌다는 생각이다. 파트타임 MBA 라서 사정을 너무 봐 주어서인지 보고서들이 연말에 너무 몰리고, 복잡한 개인 일정 때문에, 피드백 자체를 몇 번 주지 못한 상태가 되었고, 그 결과가 전반적인 품질의 저하로 나타났다는 생각이다. 보고서들은 딱 보기에도 AI 들이 절반 이상은 만들었다는 생각이 들 정도이고, 그 행간을 읽어 보려 노력했지만 많이 힘겨웠던 시간들이었다.아울러 한학기를 통틀어 커피챗을 신청한 학생은 단 두명, 학생들의 질문은 다섯 손가락 안이었고, 같이 참여를 했으면 하는 공동 문서에 서로의 과제들에 대한 질문과 대답에 반응하는 학생들은 열명 미만이었다. 다른 레퍼런스가 없어 이렇게 질문들이 없는 걸까 싶기도 한데, 옆의 교수님께서는 매 수업 '내가 열심히 참여하고 있다'는 증거를 포스트잇에 써서 내라고 해서 점수화 시키시던데, 가르치는 사람과 배우는 사람 등의 방법 들에 대해 고민이 더 필요하다 싶다. 점수 매기기학과에서 준 몇가지 가이드가 있었고, spreadsheet 에 출석과 항목들을 체크했었지만, 이번에는 gemini 와 chatgpt 의 도움을 받아서 배점을 정했다. 아래는 사용한 스크립트. 배점을 설정하고 계산하는 데 유용하게 사용했다. ---60명이 듣는 과목을 성적을 매기려고 해. 아래의 기준들을 가지고 100점 만점의 평가표를 만들고 싶은데.. Spreadsheet 의 공식으로 만들고 싶어. 일단 출석+태도 50% , 중간 15% , 기말 35% 비중이고100점 만점으로 변환한 후에는 A+ = 4.3, A0 = 4.0, A- = 3.7 등으로 놓고평균으로는 어지간하면 3.7 정도를 놓고 싶어 16번의 수업에 24번의 출석 체크가 있었는데, 하루에 최대 2번 체크를 했어서 결석일수가 2개면 수업 하나를 안 들은 거야. 중간 과제는 리포트를 쓰는 과제인데일정을 잘 지켜 리뷰를 잘 받았는지 ( yes / no )기간 내에 제출을 잘 했는지 ( yes / no ) - no 는 late코드와 리포트의 양식을 지켰는지 ( yes / no ) - no 는 정리 정돈 안 됨.데이터를 분석의 난이도 ( A / B) - A 가 어려운 것들코드 있음 or graph ( yes / no ) - no 는 양이 부족해추가적인 제안한 게 있는지 ( yes / no ) - yes 는 조금 더 챙겨 주고 싶어.과제를 안 낸 학생은 하나가 있어 기말 과제는 15-20분 발표를 시켰어.일정을 잘 지켜 리뷰는 잘 받았는지 ( yes / no )기간 내에 제출을 잘 했는지 ( yes / no ) - no 는 late피드백을 반영했는지 ( yes / no )발표 시간은 잘 지켰는지 ( yes / 살짝 초과 / 많이 초과)영상의 품질은 어떤지 ( yes, no )추가적인 감동이 있는지 ( yes ) bonus논문 분석 , 타사 제품 설명 , 제품 기획 중 하나를 고르는데논문 분석은 논문 하나의 분석 이외의 견해가 있는지 ( yes, no )타사 제품 설명은 데이터 분석이 포함되었는지제품 기획은 조금 harsh 한데 타겟이 명확한지 ( yes / no ) , User study or data 가 있는지 ( yes / no ), Prototype을 실제 구현을 했는지 ( yes / no )  마무리하며강의 평가 결과는 작년보다도 낮은 점수들이 나왔다. 꽤 실망스러운 점수여서 추스리는 데 에너지가 많이 든다. 리모트 몇 번이 어중간했고, 추석 등의 어중간한 시간에 이용하려 한 온라인 방송 송출과 대가들의 강의를 소개한 것들에 대해 부정적인 점들이 몇 있었다. 물론 날 선 피드백들과 더불어 새로운 시각들을 알게 되었다는 피드백들도 있었던게 위안이 되었다.원래의 취지와 달라져 버린 과목의 이름과 상대적으로 더 old 해 져 버린 개발 세상의 이야기들은 올해 정도까지일 거 같다. 내년 아니 올 가을에 어떤 내용들을 이 과목에 담을 수 있을지 학과 교수님들과 진지하게 고민하고 이야기 나눌 예정이다. 

대학 교육 기타인공지능추천시스템

인공지능과 추천 시스템 강의 노트 (16/16) - 2025.12.20.

들어가며마지막 수업은 제출된 기말 과제들 중 여럿을 같이 보는 것으로 마무리를 지었다. 시간을 따로 잡았어야 했을까 하면서도 각 과제별로 나누었던 이야기들을 최대한 나누고 싶어 몇 개를 선정해서 진행했고, 그 결과로 마지막 수업은 조금 밋밋하게 끝이 나게 되었다. 준비한 내용들금융이 주가 되는 유명 AI 관련 학회는 없지만, AI 학회들에 꾸준히 workshop 한 세션들은 열리고 있어서 이들을 소개하는 것을 마지막 시간 소재로 이야기했다. 기말 과제들을 리뷰하며 몇 개는 진지한 논문의 형태로 가도 되지 않을까 생각도 했었지만, 여러 제약들이 가끔 아쉬울 때가 있다. 맺으며학점 제출 기간이 바로 있어서 연말까지 중간과 기말 과제를 채점해야 했고, 아래의 질문들을 적용했다.타임라인에 맞추어 리뷰들을 받았는가?제 시간에 제출하였는가?리포트의 형식을 갖추었는가?데이터와 분석하는 코드들을 같이 리뷰하고 있는가?추가적인 제안들을 담고 있는가?제안한 풀고 싶은 문제를 접근하고 있는가? 난이도는 어떠한가?각종 AI 도구들이 이미 가까이에 와 버린 세상에 현업에서는 혹은 수업에서는 어떤 의미들을 가지고 어디까지 적용해야 하는가 한 학기 내내 같이 고민하는 시간이었고, 각각의 도메인에서 해결할 수 있는 문제들과 해법의 형태로 세상을 이롭게 하는데 쓰이면 하는 바램이다.

대학 교육 기타인공지능추천시스템

인공지능과 추천 시스템 강의 노트 (15/16) - 2025.12.12.

들어가며강의장 사정으로 금요일 저녁에 수업을 진행하였다. 기말 과제를 녹화해서 발표 예정이었는데 제출된 양이 부족해서 이번 학기에 진행하고 있는 스탠포드 대학의 고수 교수님들의 강의들을 같이 보며 이야기를 나누었다. 준비한 내용들15주) 강의 update모든 플레이어들이 참여한 aaif.io 가 한편으로는 충격적이었다. 새시대의 foundation 으로 자리잡을 수 있을까 응원 반, 걱정 반의 마음이다.업권 전체, 직군 전체를 욕먹이는 사건이 발생했어서 내내 마음이 불편했다. 투자자의 입장에 조금 더 가까운 친구들이니 이런 것들을 잘 걸러냈으면 하는 바램으로 학생들에게 한소리 했더랬는데, 괜한 화풀이를 학생들에게 한 모습인 거 같기도 했다. 중간 과제 EDA report ( part 2 )IBM HR Attrition Analysis and Prediction디지털 연결성과 계좌 보유율 EDAKaggle 보험 이탈데이터 EDA학생 스트레스 예측 EDA 리포트Wine Quality Prediction음악의 장르/특성과 멀티플렛폼의 상관관계반도체가격 예측 EDA 및 결과분석요약서식당 방문목적X서비스만족도 상관성 분석FacebookAI-PersonaChat소셜미디어 사용과 개인 생산성의 관계 분석화물차 구입자금 대출의 채무불이행 요인 분석데이터 기반 고객 세분화: 연령과 소득이 소비 행동에 미치는 영향 분석Netflix 콘텐츠 데이터 EDADART 비재무 공시와 공시 시점 주가 반응 분석건강 요인이 보험금 청구액에 미치는 영향 분석고객 구매 행동 데이터를 활용한 구독 서비스 가입 예측 및 마케팅 전략 수립PUBG 초보 캠핑(존버) 전략의 순위(winPlacePerc) 영향: PSM 분석 보고서학생 성적 데이터 분석서울시 따릉이 대여량 예측신용카드 거래 이상거래 탐지아파트 경매 낙찰가 예측 EDA어떤 동물이 가족을 빨리 만날까뉴욕 숙박 공유 서비스 데이터 정합성 검증 및 운영 최적화 리포트Gold Price Time Series Data전 세계 행복도 결정요인 분석DART 공시 재무지표와 주가의 상관관계 분석공급망 데이터 분석호텔 예약 데이터를 활용한 예약 취소 가능성 예측 및 고객 유치 전략 제안한국 ETF EDA Report비디오 게임 산업의 흥행 결정 요인에 관한 연구글로벌 AI 직무 데이터 기반 핵심 기술(Hot Skill) 탐색적 분석Instacart Market Basket Analysis금가격 분석 및 예측 보고서Bitcoin개인대출 연체리스크 방지를 위한 예측시스템 준비한 대가의 강의들Deep learning 일반과 deep learning for computer vision 의 입문에 대한 최고수들의 최근 정리들 두 개를 보며 이야기들을 나누었다.Stanford CS230 | Autumn 2025 | Lecture 1: Introduction to Deep LearningStanford CS231N Deep Learning for Computer Vision | Spring 2025 | Lecture 1: Introduction FeiFei Li 교수의 강의는 컴퓨터 비전과의 역사에 해당하는 부분이 크다고 하겠고, Andrew Ng 교수님의 이야기는 현재와 미래에 대한 견해들이 많은데, 아래 두 그림의 요약은 내 생각과도 100% 닿아 있다. 맺으며연말의 정신 없이 어려운 일정들과 함께 학기 마지막에 몰아쳐지는 과제들은 매번 어렵고 버겁다. 과목이니 성적표를 받게 될테고, 학생들의 입장에서의 기대치와 그와 관련된 claim 들로 연말이 바쁘게 지나가게 될 거 같다.남은 다음 포스트들은 기말 과제 요약들과 마지막 강의 wrap up 등이 있겠다.

대학 교육 기타인공지능추천시스템

인공지능과 추천 시스템 강의 노트 (14/16) - 2025.12.6.

들어가며토요일 새벽에 공항에 도착했고, 간밤에 큰 눈이 왔다던 겨울의 서울 풍경이었다. 바로 여의도로 출근해서 이야기들을 진행했다.마지막 학기에는 학생들의 과제 발표를 나누는 시간으로 기획했었는데 시간이 비게 되어서 그 공간을 이번 학기 최근에 진행한 여러 대가들의 공개 강의들을 준비했다. 미처 준비가 되지 못한 시간들을 유튜브로 때우는 거 같은 미안함도 있었지만, 나름 돌발 변수가 생긴 상황에 어중간한 내용들을 보여 주기보다는 꽤 공들여서 최신의 의미 있는 내용들을 준비했다. 준비한 내용들14주) 강의 update여느 주와 다름 없이 다양한 영역에서 꽤 여러 일들이 일어난 한 주였고, Ilya Sutskever 를 비롯한 대가들의 다른 방식으로 AGI 에 접근하는 것에 대한 이야기들이 관심을 끌었으며, 은근히 SW 적으로 치고 나오는 NVidia 이야기들도 주목할 만하겠다. Stanford AI Club: Jeff Dean on Important AI Trends얼마전 Jeff Dean 이 구글에서 일어났던 프로젝트들 중심으로 AI trend 를 설명해 준 내용들이 담겨 있다. ‘내가 해 봐서 아는’ 것들 위주로만 모아 놓은 것인데도 깊이가 깊고, 덤으로 최근 Gemini 가 적용되는 제품들이 소개된다. 중간 과제 EDA report ( part 1 )Kaggle 등의 공개적으로 나와 있는 데이터들 중 일부를 골라 회사 상사 등의 관계자들에게 EDA 보고서를 쓰는 것을 개인 과제로 중간 과제로 놓았다. 각각 제한이 있는 데이터셋들이지만, 이들을 분석하는 과정에서 데이터들이 가르쳐 주는 내용들, 도메인에 대한 분석들을 꽤 잘 나누어 주는 내용들이었다. Syllabus 의 pre-requisite 에도 불구하고 몇몇 학생들은 처음 Python 을 접했지만, coding assistant 의 도움을 받든지, 구글링을 이용하든지 진행해 주기를 바랬고. 한계가 어떠한지, 분석하는 방법이 어떠했는지, 분석된 결과가 보고서의 형식이 어떠했는지 등을 피드백을 각각 주고 받았다. 각자 강점이 있는 도메인에 있는 내용들을 찾기를 이야기했고, 덕분에 많이 배우게 되었다. 아래는 학생들이 제출한 보고서의 제목들이다. Elon Musk 트윗 감정점수 및 트윗빈도가 Tesla 주가에 미치는 연관성 분석서울특별시 아파트 매매 실거래가(2016-2025) EDA 보고서사업자 등록 상호 데이터 분석 보고서스포티파이(이탈여부) 데이터카페인 섭취량이 건강에 미치는 영향도(상관관계) 분석전복나이 예측 EDA 및 회귀 모델링자동차 판매 데이터 분석럭셔리 뷰티 팝업 이벤트 성과 요인 분석 및 머신러닝 기반 예측 모형 연구학생 성적에 영향을 미치는 요인은 무엇이며,그중 가장 영향력이 큰 요인은 무엇인가한국 고속도로 톨게이트 통행량 기반 이동 흐름 분석데이터로 읽는 대구 부동산 시장: 입지와 시설 요인의 가치 분석고용형태에 따른 임금 격차 및 초과근무 구조 분석Loan Prediction Dataset EDA ReportStore Sale EDA Report2020년 시카고 대규모 폭동 이 도시 치안 시스템에 미친 영향 분석서울시 따릉이 대여량 예측 EDA 보고서주요경제지표(미국정책관련)에 따른 가상자산의 가격변화분석스타트업의 성공에 영향을 미치는 요인은 무엇이며, 그 중 가장 영향력이 큰 요인은 무엇인가 맺으며연말 여러 복잡한 일정과 함께 몰려 드는 과제 피드백들이 꽤 버겁지만 많은 걸 새로 알게 되어 소소한 기쁨이 있다. 하지만, 채점도 진행을 시작해야 하겠고, 정신 없는 12월이 될 거 같다.

대학 교육 기타인공지능추천시스템

인공지능과 추천 시스템 강의 노트 (13/16) - 2025.11.29.

들어가며 개인적인 사정으로 미국에서 온라인으로 진행하였다. 녹화 영상을 들으며 출석 처리가 되는 환경이라고 하면 그래도 조금은 가벼운 내용들이기를 기대하다가도 반대로 이참에 다른 데서 못 듣는 것들을 포함하자 싶은 서로 상반된 생각들이 있었다. 학기 초에 과목과 관련해서 준비한 내용들은 다 커버했고, 이번 시간에는 조금 더 일반적인 이야기들을 '실무에서 만나는 이슈들' 이라는 주제로 준비한 내용들을 상영하였다.아래는 시간차 어긋난 곳에서 진행한 미국 서부의 명절 스케치들.. 준비한 내용들13주) 강의 update알파고 이후에 알파스타가 스타크래프트 2 프로토스로 인간을 이겼다고 했는데, Grok 과 T1 과의 5:5 롤 대전은 그것대로 꽤 기대되는 게 있다. 실무에서 만나는 이슈들-강사 소개.pptx실전에서 만나는 이슈들-데이터 기반 의사 결정.pptx실전에서 만나는 이슈들-운영과 모니터링.pptx실무에서 만나는 이슈들-서비스 설계 개발.pptx 학기 시작하기 전에 녹화 영상으로 미리 준비해 놓았던 내용 중 마지막으로 아껴 놓았던 ‘실무에서 만나는…” 시리즈를 나누었다. 몇년 전에 FastCampus 에서 진행했던 “현실 세상의 컴퓨터공학 지식 with 30가지 실무 시나리오 초격차 패키지” 라는 강의 셋트( https://fastcampus.co.kr/dev_online_newcomputer ) 의 한 부분으로 준비했던 내용인데, 전공자의 시각에서 생각해 보니 필요했던 내용들 위주로, 비전공자가 이거라도 꼭 배워야 한다면 이라는 시각으로 준비한 내용들이었다. 굳이 금융으로 한정짓지는 않더라도 전공자들과 비전공자들이 일터에서 이야기하게 될 때 서로를 위해 알아 두면 하는 내용들을 모았더랬다. 다 합하면 5시간이 넘는 분량이어서 마지막 하나는 수업과 상관 없이 optional 로 시청할 수 있도록 하였다. 맺으며15분씩 발표 영상을 만들어 제출한 내용들로 이후를 구성할 예정인데, 숫자가 모자라면 그 시간들을 같이 나눌 이야기거리들이 더 필요하게 될 거 같다. 여전히 많은 일들이 벌어지는 세상이라 재미있는 배울 것들이 넘쳐나고, 한편으로는 연말에 리뷰하게 될 중간 기말 과제들이 몰려 오는 것들과 개인적인 내년 준비들에 대해 생각이 많아지게 되었다.

대학 교육 기타인공지능추천시스템

인공지능과 추천 시스템 강의 노트 (12/16) - 2025.11.22.

들어가며 추워진 날씨와 갑자기 다가온 연말 분위기 물씬 나는 여의도의 주말이고, 회사에서도 수업에서도 연말과 내년을 준비하느라 다들 분주한 상황이라 하겠다. 수업 시간 재료로 쓰려 했던 나눌 수 있는 기말 과제 발표들을 충분히 모으지 못한 상황에서 이야기하고 싶었던 몇몇 주제들을 모아 수업을 준비했다. 준비한 내용들12주) 강의 update추천시스템 - 5장 - 추천 알고리즘 상세 ( part 4 )지난 주에 Gemini를 전면에 내세운 구글의 본격적인 반격이 시작되었고, OpenAI 는 이에 기다렸다는 듯 코덱스 맥스로 반격하고 있다. 어떤 고귀한 뜻이 있을까 모르겠지만, anti-gravity를 보면서는 한편으로는 여전한 구글의 작명 센스에는 안타까움이 많다.먼저 similarweb 에서 발표한 GenAI + web 의 상황들에 대한 리포트를 같이 훑어 보았다. 유료는 아니지만 회원들에게 제공하는 리포트였고, 주로 AI 서비스와 검색 시장에 대한 작년 대비 변화에 대한 내용들이었다. SEO 이후 GEO 혹은 AEO 라는 이름으로 다양한 주장들과 논의들이 벌어지고 있고, 꽤 여러 전문가라 칭하고 있는 사람들이 말들을 얹고 있는 상황이지만, 좋은 스코어보드로서 similarweb 같은 데이터들이 중심을 잡아 주면 좋겠다는 생각이다. 아래는 간단 요약.‘Chatgpt’ 가 구글에서 ‘facebook’을 제치고 제일 많이 불리는 쿼리가 되었고deepseek strike 이후 구글의 AI mode 는 구글 검색 페이지에서의 배치 덕에 안착했다.전체 검색의 수는 줄어들고 있고, 구글 이외의 엔진들은 훨씬 더 많이 줄어들었다.여전히 구글 검색은 세션의 길이가 짧고, chatgpt 는 길게 물어본다. 세션 길이는 짧은 게 좋은 걸까? 긴 게 좋은 걸까 ?다음 파트에서는 스마트팩토리라는 토픽으로 지난 봄에 써 놓았던 글들을 같이 보면서 인이지(http://ineeji.com/) 와 관련된 이야기들을 나누었다. 피지컬 AI, 제조 공정 등의 키워드가 각광받고 있는데, 실제 현장에서 어떤 문제들을 어떻게 풀고 있는지에 대한 이야기들을 주로 정리했고, 수년 전 DX 이후 AX 라는 이니셔티브가 있지만, 실제 현장에서는 아직 오래된 공정, 잃을 게 많은 서비스 등의 이유로 많은 산업에서 일어나기 혁신이 일어나기 힘든 점들에 대해서 다양한 도메인들과 상황에 따른 이야기들을 나누었다. 새로운 장비들만 놓고 문제는 풀지 못하는 사례들도 있고, 여러 의미로 onpremise 를 고수해야 하는 상황 들도 꽤 강한 제약들로 여전히 작용하고 있는데, 최근에 팔런티어라는 새로운 공룡이 들어오면서 일어나는 변화들과 그 사이에서 역할을 찾으려는 크고 작은 기업들의 노력들이 앞으로의 관전 포인트라 하겠다. 클라우드 기반 스마트팩토리 - 용어들클라우드 기반 스마트팩토리 - 이슈들클라우드 기반 스마트팩토리 - 사례들 세번째 파트에서는 요즘 어딜 가나 듣게 되는 Agent / Agentic 이야기들을 거슬러 올라가서 LLM 이 처음 나왔을 때부터 어떻게 쓰면 좋을까 고민하던 업권의 노력들에 대해 정리를 하였다. prompt 잘 쓰기부터 fine tuning, RAG 를 이용하면서부터 생긴 정보 찾아 주기와 chain 로직을 이용한 다양한 답변 만드는 방법들에 이르기까지.. 한창 진행중인 논의들을 최근 정보들 위주로 다루었다. 여전히 변화무쌍한 상황들을 연결하는 역할을 하고 있는 MCP 까지.. 오늘은 키워드 중심으로 진행한 것이었지만 너무 간단하게 훑어서 이후에 어떤 것들을 조금 깊이 다뤄 볼까 고민이 된다.마지막으로 추천 시스템 파트에서는 교재에서는 남아 있던 부분인 행렬 분해와 자연어 처리를 이용하는 방법들에 대한 예제들을 나누었다. 고전적이지만, 사용자와 아이템의 거대한 행렬을 만들고 빈 칸을 예측하며 채워 나가는 꽤나 수학적 접근이고 사용자가 ‘좋아할 만한’ 아이템들을 예측하는 것으로 문제를 정의해 나가고 있다. 메타 정보들을 사용하기도 하고, 사용자들의 리뷰들을 풀어서 입력으로 사용하기도 하는 방법들이고, LDA 와 word2vec 을 적용하는 방법들에 대한 소개들이 있었다. 사용자의 purchase list 를 attribute 로 사용해서 user-user relation을 구현하는 방법들까지 정리가 되어 있다.교재로서 준비한 책에서 코드와 함께 다루는 내용들은 여기까지여서 더 깊은 이야기들을 마저 나누지 못하였고, 코드들은 링크들로 대체하며 조금 훑어 보긴 했다지만 아쉬운 마무리를 하게 되었는데, 조금은 고전적인 방법론들을 영감으로 각자 실무에 쓰임이 있는 내용들을 해 나갈 수 있길 약간은 무책임하지만 바래 본다. 맺으며중간 과제와 기말 과제들은 피드백을 부지런히 주고 받고 있지만, 아직 서로 읽어 보며 발표할 수 있을 정도의 글들이 많이 모이지는 않고 있다. 중간 과제인 EDA 리포트들은 다양한 주제들에 대해 기록들이 모이고 있어서 2주 후에 같이 정리할 수 있을 거 같고, 많은 기말 과제들은 마지막 시간에 몰리게 되는 것을 피할 수 없을 거 같다. 다음 주는 개인적인 사정으로 온라인 수업을 진행해야 하겠고, 진행했던 특강 중 하나를 담아 놓을 예정이다. 

대학 교육 기타인공지능추천시스템

인공지능과 추천 시스템 강의 노트 (11/16) - 2025.11.15.

들어가며가까이, 멀리 단풍이 꽤 잘 보이는 몇번 없는 맑은 가을 날씨이고, 길거리에 두꺼운 외투들이 보이는 것으로 보아 금방 겨울이 될 것이리라 싶다. 캘리포니아에는 이제 우기가 시작되며 짧은 낮이 시작되었겠다.강의실 옆 공간에서 2026년 신입 DFMBA 선발 과정의 면접이 있어 많은 경영대학과 DFMBA 교수님들께서 오셨고, 지난 2월의 올해 기수 오리엔테이션 이후 반년만에 인사드릴 수 있었다. 겸임 교수의 제한적인 경험들로 부족함이 많지만, 다른 교수님들께서 챙기지 못하는 부분을 담당해 준다고 하여 고마워 해 주셔서 오히려 어찌할 바를 모르기도 하고, 한편으로는 여전히 강의 평가 평균을 깎아 먹는 것들에 대해서 죄송하고 불안한 마음이다. 많은 일들이 그렇지만, 열심히 하는 거랑 결과가 나오는 게 매번 일치하지는 않는 거 같긴 하고, 진인사대천명의 가르침만 다짐해 본다. 준비한 내용들11주) 강의 updateLessons from Google Search - part 2.pptx며칠 전의 수능 시험 이후 각종 AI 서비스들이 이 문제들을 풀고 있으면서 스스로를 단련하기도, 혹은 출제자 진형에 이의를 제기하기도 하고 있다. 재작년에는 이 AI 들이 얼마나 잘 맞추고 있는가가 관건이었다면 지금은 얼마나 덜 틀리는가를 비교하며 자랑한다. 여전히 인서울 대학은 못 간다는 둥, 킬러 문항 혹은 영어 문장의 한글 이해 등에 차이가 있어 보이는데, 한글을 조금 다르게 이해하고 있는 것은 여러 면에서 은근히 걱정 거리이기도 하다.인공지능 파트에서는stateof.ai에서 industry 부분을 같이 이야기 나누었다. 100페이지 정도에 해당하는 지난 한 해동안 벌어진 일들이 총망라되어 있는 내용들이었고, 갑자기 전력, 부동산 등에 대한 이야기들이 과하게 논의되는 느낌이었다. Agent 라는 이름으로 스피디한 변화들이 많이 벌어지고 있고, ROI 를 중심으로 하는 비지니스에서 adoption 이 과할 정도로 일어나고 있으며, 그에 따른 거품들도 꽤 걱정스럽긴 하다. ㄲ개인적으로는 similarweb을 인용한 검색의 총량이 줄어드는 변화들이 관심이 많고, 하루 아침에 일들이 벌어지는 것보다 여기저기서 끊임없이 변화들이 있으리라. 여전히 미국에서는 chatgpt 를 써 보지 않은 사람들도 많고, 이들을 재교육시키는 것부터 많은 사업들의 기회와 변화가 있고, 마지막으로 빅테크의 플레이어들이 회사들을 너무 과하게 옮겨다니는데 개인적으로 상도덕과 이해가 가지 않아 혼란스럽긴 하다. 이건 자격지심과 부러움 혹은 꼰데 마인드라 해 두자 싶기도 하다.추천 시스템 파트의 남은 부분, 조금 고급 난이도의 구현 등은 다음 주로 놓고, 이번 주에는 구글 검색에 대한 특강 부분을 마무리 지었다. web result UI , rich snippets ( 지금은 rich results ) , knowledge panel , 구글이 이미 10년 전에 했던 crazy project 들을 다루고 그 뒤에 내가 직접적으로 관여했던 universal search, app search, app indexing 등의 챌린지들을 나누었다. AI 시대에 얼마나 가치가 있을 것인가 라는 질문들이 있는 것도 사실인데, 예전부터 agent 를 만든다면 제일 먼저 나 대신 검색을 하게 했을 거라는 생각에는 변함이 없고, 공개 자료면 표준에 맞게 잘 해 놓아서 이들이 이전에 노력한 대로 따라가야 하지 않겠느냐 라는 시각에서 이야기들을 나누었다.학생들의 질문들이 있을 경우, 조금 더 심각하게 많은 이야기를 나눌 수 있는 내용들이기도 해서, 나름 많은 내용들을 나눌 수 있는 주제이긴 한데, 한편으로 audience 입장에서 진입 장벽 또한 높게 있다 싶다. 당시 구글이라는 소프트웨어와 데이터에 진심인 서비스라는 만들어 져 있는 토대 위에 내 노력들이 살짝 더해진 것이었을 것이고, 마냥 좋은 경험이었다 라고 두리뭉실하게 접어 놓기에는 이래저래 아쉬운 마음이 든다. 맺으며본격적인 숙제 검사의 시간들이 진행되고 있고, 시간이 허락할 때마다 신청하는 학생들의 진로 상담 등도 힘 닿는대로 거들고 있다. 과정의 특성 상 대부분 생짜 취준생이기 보다는 예비 이직러들에 가깝긴 하고, 길게 여러 일을 하고 싶어하는 학생들에게 20년 혹은 그 뒤를 바라보며 이야기를 나눈다는 게 얼마나 현실적일까 싶기도 하지만, 각자 걸러 들을 만큼 걸러 듣고 도움이 되는 이야기들만 담아 갈 수 있기를 바라며, 이 인연들이 조금이라도 내 덕을 볼 수 있기를 기도한다. 

대학 교육 기타인공지능추천시스템

인공지능과 추천 시스템 강의 노트 (10/16) - 2025.11.8.

들어가며새벽에 인천공항에 도착해서 긴 하루를 보내는 일정이었는데, daylight saving이 끝나고 바람 때문에 조금 늦게 도착해서 아침 6시 넘어 공항에 도착했다. 숙소를 3시간 넘게 다녀 올 시간이 여의치 않고 여의도가 그에 비해 한편으로 공항에서 가까워서 바로 강의장으로 와서 하루를 시작했다. 갑자기 쌀쌀해 진 날씨에, 미국보다 일찍 시작하는 연말 장식 설치, 거기에 학생들 졸업 촬영까지 여러 모로 다르고 좋은 의미로 어수선하게 바쁜 도시의 주말 아침이다. 준비한 내용들10주) 강의 update추천시스템 - 5장 - 추천 알고리즘 상세 ( part 3 )Lessons from Google Search - part 1.pptx인공 지능 파트에는 stateof.ai 의 research 부분을 같이 읽었다. 거의 모든 연구들이 어떻게 reasoning 을 해 내고 있는지에 대한 이야기들이었고, 테스트 방법들이 오염되는 것들과 지식 증류의 방법으로 해자들이 없어지는 것들에 대한 내용들이 눈에 띄었다. 아직 언어 모델 이외의 연구 결과들에 대해서는 Alphafold 이후 획기적인 것들이 결과물로 보이지는 않고 있지만, Physical AI 같은 키워드들은 산업 현장에서 오히려 먼저 반영되지 싶다. 추천 시스템 파트에서는 연관 규칙, 사용자-사용자 메모리 기반 협조 필터링, 회귀 모델 부분을 같이 다루었다. 추천이라는 주어진 문제를 회귀 모델로 변환해서 접근한 방법들이었는데, 사용자들의 평점만을 가지고 모델을 만들어 접근하는 것이라 한계도 있지만, 한 번은 시도해 봄직한 방법이라 하겠다. Regression 이라 정의되는 순간 오차로부터 자유롭기 힘들고, 사람의 감정을 숫자로 예측한다는 것에 대한 챌린지가 있다 하겠다. 서비스 특강 파트에서는 구글 검색 이야기를 오프라인으로 하는 이번 시간과 다음 시간에 깊이 다루기로 하였다. 조금 오래 된 기억과 기록이지만 ‘해 봐서 아는’ 이야기에 해당하겠고, 만만하게 보이기도 혹은 반대로 어렵게만 보이기도 한 검색에 대한 이야기들과 고민 거리들을 같이 나눌 수 있으면 하였다. 사용자의 행동을 읽고 모으는 방법으로 이벤트 로그, 세션 이야기들을 다루었고, 이들을 이용한 품질을 높게 만들게 하기 위한 온라인/오프라인 방법들에 대해 정리를 했다. 맺으며중간 과제로 모으는 리포트들은 생각보다는 자유 형식이지만, 분석 위주의 내용들을 모으게 되었고, 나역시 다양한 주제들에 배우는 것들이 있어 감사한 마음이다. 중간 과제들은 댓글로 comment 들을 공유할 수 있으면 하는 바램으로 구글 독스나 공개적인 노션의 형태로 해 보고 있는데… 기술적인 숙제를 얼른 끝내 놓아야 겠다 싶고, 다음 주에 검색 부분이 끝나면 원격 수업 1회를 포함해서 특강 부분의 내용들을 다시 준비해야 하는데, 생각보다 할 일이 많은 11, 12월이 되겠다 싶다. 

대학 교육 기타

인공지능과 추천 시스템 강의 노트 (9/16) - 2025.11.1.

들어가며개인 일정으로 미국에서 진행해야 하는 주여서 온라인으로 진행했다. 지난 번의 온라인 수업은 추석 연휴 중에 있었지만, 이번은 그게 아니어서 줌을 통한 라이브로 갈 지, 녹화 영상을 준비해서 주 단위로 준비할 지 논의가 있었는데, 토요일 오후에서 각자의 자리에서 줌 접속을 기대하는 게 여의치 않아서 녹화 영상으로 대체했다.학기 초부터 준비했던 ‘해 봐서 아는’ 일들 중 하나로 플레이스토어 이야기들을 정리했고, 녹화된 영상의 방법으로 잘 전달이 되었으면 하는 바램이다. 기존에 동작하고 있는 서비스를 설명하고 예를 들어 하나의 기능을 처음부터 기안해서 운영하기까지를 다룬 내용으로, 특히 제품 기획 혹은 담당하는 입장에서 하나의 타산지석이 되면 좋겠다는 생각이다. 준비한 내용들9주) 강의 updateGoogle(Playstore)에서 과제 런칭하기 - 2.pptx 나눈 이야기들APEC 회의 전후로 다수의 굵직한 협약들이 기업간, 정부간에 발표되었고, GPU 26만장 이슈가 한창이다. 개인적으로는 Physical AI, LLM, agent 등의 다양한 키워드들이 비슷한 선상에서 통용되고 있는 상황, 소버린 AI 를 이야기할 때 필요한 좋은 한글 컨텐츠 등의 운영에 더 많은 우려와 의견들이 있지만, 그 우려들도 저 GPU들 없이는 무용지물이니 일단 응원의 마음이 먼저라는 점은 명확하고, 관객, 코치가 아닌 내가 선수로 다시 뛴다면 어디서 무엇을 어떻게... 라는 고민을 다시 해 본다.업권에 관심 있는 뉴스로는 OpenAI 와 PayaPal 의 wallet 을 이용한 instant checkout 이 눈에 들어왔다. 얼마전 거의 비슷한 시기에 Google 주도로 Agent Payments Protocol 을 PayPal 을 비롯한 꽤 많은 회사들과 만들어 발표하고, 그리고 그 리스트에 없던 Stripe 만 OpenAI 와 Agentic Commerce Protocol 을 만들어서 다들 어떻게든 payment의 벽을 헤쳐 나가겠다는 의지를 보였는데, 이 뉴스는 PayPal 의 wallet expansion strategy 와 맞아 떨어지려는 것으로 읽혀 또하나의 대세 혹은 전쟁이 일어나는 공간이겠구나 싶은 생각을 했다.  서비스 이야기 중 플레이스토어 관련 내용에서는 제품의 설명에 대해 마무리한 후에, 실제 '해 봐서 잘 아는', 기안하고 진행했던 세 과제에 대해서 이야기를 나누었다. Fulfillment 부분이 빠진 유사 쇼핑몰의 성격이지만, 그래도 있을 건 다 있는 꽤 오래된 서비스이기에 참고하기에 나쁘지 않다 싶고, 여기에 구글에서 life of a project 가 살짝 덤으로 포함되어 있다.당시 한국과 일본 제품을 담당하던 시기에 제품 책임자의 위치에서 역할을 하고 있었을 때였고, 풀고 싶었던 혹은 풀어야 했던 문제들을 발견, 정의, 구현, 부작용 발견, 재구현, 회고 후 운영까지의 경험들을 담백하고 이야기 하고 싶었다. 아래 과제 이름 등이 한글로 미처 번역해 준비해 놓지 못한 부분은 살짝 아쉽다.Locale-aware scoringPre-registrationLocale-ready signals 맺으며모이는 중간과제들을 내외부로 어디까지 공개할 것인지 기술적인 조절을 하고 있고, 기말과제는 아직 완제품이 모이지 않고 있다. 수업 시간에 이야기거리를 더 준비해야 만들어야 하는 부담이 살짝 생기게 되었고 기말에 몰리게 될 게 예상되어 개인적인 일정들을 그에 맞게 조절해야 하겠다, 특히 이번 시간에는 추천시스템 부분에서 조금 복잡한 선형 회귀 방법들을 같이 이야기해야 하는데, 한글, 영어가 섞여 난이도가 꽤 있다.일정이 예상대로 진행되면 목요일 밤에 출발해서 토요일 새벽에 공항에 도착하는데, daylight saving 이 풀리면서 한 시간 여유가 사라져 바로 여의도로 짐과 함께 이동해야 하는 일정이어야 할 거 같다. 정신 차려 보니 겨울이 다시 와 있겠다 싶다.

대학 교육 기타인공지능추천시스템

인공지능과 추천 시스템 강의 노트 (8/16) - 2025.10.25

들어가며개인적인 용무들을 본 후 12시 넘어 조금 빠듯하게 도착을 하였다. 주중에 분량 조절을 꽤 하는 편이었는데, 이번 주는 코드 구현이 들어가 있어 가늠이 잘 되지 않았다. 준비한 내용들을 다 훑었는데, 2시간 정도가 지나게 되었다. 바이브 코딩의 세상에 이렇게 하는 게 어떤 의미가 될까 한 번 고민해 보기도 한다.학생들의 과제들로 수업이 채워지면 좋겠다 싶은데, 아직 중간 과제와 기말 과제 현황판에 제안들이 예년 대비 많이 부족해 보인다. 수업 태도라고까지는 모르겠지만, 절반 정도의 학생들에게는 아직 무엇을 해야 하는지가 전달이 되지 않은 거 같아 조금 걱정스럽다.단풍이 보이는 가을의 여의도. 준비한 내용들8주) 강의 update추천시스템 - 5장 - 추천 알고리즘 상세 ( part 2 ) 나눈 이야기들인공지능 부분에서는 stateofai 2025 의 총평들과 survey 내용들에 대해 이야기를 나누었다. 작년의 10개 예측에 대한 평가들은 절반 정도가 적중했고, 내년에도 10개의 내용을 예측하였는데, reasoning 을 하나의 축으로 놓고, 각종 agentic 서비스들이 난무하게 될 것이라 여전히 복잡한 일들이 있게 되겠다.stateof.ai 2024년 예측의 성적표stateof.ai 2025년 예측들선수들이 인정하는 AI lab 순서들추천 시스템 영역에서는 MovieLens 에서 실제 추천 서비스를 만들어서 앞시간에 했던 지표들을 비교하는 과정을 담았다. 그 중 직관적인 설명이 가능한 무작위, 통계 정보, 연관 규칙 세 가지에 대해서 어떻게 구현하였는지에 대한 해설들과 함께 코드들을 같이 보았다.수업 시간에 커버한 추천 시스템 구현 방법들한글과 영어가 섞여 있어 애매하지만, 그래도 내용들이 직관적이어서 아이디어들을 설명할 수 있는 정도는 되었다. 하지만, colab 으로 execution button 을 누르는 것들만으로는 이래저래 한계가 있고, 학생들이 이것저것 바꾸어 체크해 보면 좋을텐데 하는 생각으로 진행하였다. 다음 시간부터는 더 복잡한 user-user 협조 필터링과 행렬 분해를 위한 여러 노력들을 설명하게 될텐데, 이대로 괜찮을까 하는 걱정이 조금 든다.Random 에 대한 이야기를 꽤 오래 나누었다. Random 자체가 합의된 정의가 없는 것이고, 돌릴 때마다 다르게 나오는 것, 미래에 대해서는 50% 확률, 게임 가차에서 반대로 지켜야 하는 입장에서의 활용, 정규 분포 등에 대한 이야기들을 하였고, 예전 구글 면접 때 풀었던 monkey sort ( bogo sort ) 에 대한 이야기들과 복잡도들 설명을 나누었다. 맺으며다음 주는 개인적인 사정이 있어 미국에서 리모트로 진행을 해야 한다. 녹화를 해서 방송하려 하니 시차 등의 난이도가 더 높은 거 같은데, 플레이스토어 못다한 부분을 마무리지으려 한다.대부분 사회 생활들을 꽤 한 MBA 과정의 학생들이지만, 해외로 취직을 계획하며 준비하는 학생이 있어 수업 후 여의도에서 커피챗을 한 시간 남짓 하였다. 개발자가 아닌 친구들이 글로벌 꿈을 펼치는 방법이 어떤 것들이 있을까 궁금하기도 하고, 선수와 코치, 감독 사이에서 여전히 고민하는 개인적인 시각까지 더해서 여러 가지 면에서 고민들이 많아지지만, 또다른 에너지를 반대로 얻을 수 있는 시간이었다.

대학 교육 기타인공지능추천시스템

인공지능과 추천 시스템 강의 노트 (7/16) - 2025. 10. 17

들어가며 연휴 이후 첫 수업인데, 토요일에 강의장에서 일정이 있어 금요일 저녁으로 이동해서 수업을 진행하였다. 꽤 오랫동안 잊고 있었는데, 금요일 오후의 여의도는 토요일 오전보다 훨씬 북적이는 동네였다.이전의 두 번의 녹화 온라인 강의가 강제로 끝까지 보게 하는 내용이라 하여 장단점이 있다 싶었고, 학기 말까지 남은 다음 2번의 원격 수업을 아예 녹화로 진행해야 할까 하는 생각을 해 보게 되었다. 준비한 내용들 7주) 강의 update추천시스템 - 5장 - 1 나눈 이야기들한시간 분량의 수업을 준비하는 내용은 양에서는 적었지만, 추천 시스템 항목에서 MovieLens 데이터의 EDA 를 조금 진지하게 하게 되었는데, 학교에 있는 Chrome + colab 등으로 입코딩과 클릭 클릭을 해야 하는 수업이었다. 학교 PC 에 뭘 설치하기도 애매하기에 여러 방법을 고려해 봤지만, 이 정도가 맞는 거 같은데, 해 본 사람들에게는 아무 것도 아닌 일일 수도, 여전히 처음 해 본 사람들한테는 진입 장벽일 수 있겠다.학생들 각자 보고 싶은 데이터는 직접 보며 분석했으면 하는 마음에 pre-requisite 으로 Python 을 놓았고, 자유 방식의 EDA를 과제로 내었는데, 한 학생은 이 벽을 넘지 못하고 혹은 넘지 않고 과제를 drop 하였다. 코딩 자체를 평가 잣대로 놓지는 않기에 용기를 내기에 나쁘지 않은 환경이라 생각하는데 이래저래 아쉬움이 있다. 이후 근처의 식당에서 간담회를 진행했는데, 조금 자유로운 분위기에서 여러 이야기들을 나누며 명함들을 수집하였다. 절반 정도의 학생들이 참석을 하였고, 미래야 모른다지만, 이것도 인연인데 싶다. p.s.학생 하나가 7개월 아기와 함께 수업에 들어오게 되었다. 뉴스로만 접하던 상황이어서 조금 신선하긴 했고, 아기네 식구들과 다른 학생들 모두에게 불편하지 않은 상황이었기를 바라는 마음으로 이야기들을 진행했다. 다행히 울지 않은 순한 아이였고, 한국에서 거의 처음으로 유모차에 사람이 앉아 있는 것을 본 기억이기도 하다.

대학 교육 기타인공지능추천시스템

인공지능과 추천 시스템 강의 노트 — 2025. 9. 27. (4/16)

들어가며 가을의 여의도에서는 매 주말 굵직한 일정들이 있는지, 이번 주는 불꽃놀이가 있다 했다. 아침 출근길부터 캠핑 장비 , 야유회 장비들을 들고 여의도로 오는 가족들이 유난히 많아 보이고, 수업이 끝나는 오후 4시부터는 교통 통제와 지하철역 무정차 등의 일들이 있다 하여, 오늘 수업은 중간에 쉬는 시간 없이 2시간 정도를 한 번에 이야기하는 강행군을 진행하게 되었다.  추석 연휴 사이에 있는 두 번의 온라인 강의에 대한 진행에 대해 이야기를 하고, 모이고 있는 중간, 기말 과제들의 내용들에 대한 이야기들을 정리하였다. 서로 이야기가 잘 통해 미리 제출해 준 학생들이 있는가 하면, 아직 내용이 전달이 잘 덜 된 학생들도 있는 듯한데, 시간을 조금 더 들여 이야기를 나누어야 하겠다 싶다. 준비한 내용들 4주) 강의 updateAI 강의 - 4강, 5강추천시스템 - 4. 추천 알고리즘 개요추천시스템 - 7. 평가나눈 이야기들 AI 쪽 이야기는 상대적으로 적었지만, 네이버 파이넨셜과 카카오톡 등의 굵직한 제품들과 관련된 뉴스들이 많이 나오고 있다. 국민 서비스들로 자리잡은 것들이기에 사연이 더 있다 하겠고 호불호 혹은 끼치는 영향이 클텐데, 예전보다 정보들이 쉽게 돌아다니기에 좋다 나쁘다의 의견들이 퍼지는 속도들도 상당하다 하겠다.이번 주에는 AI 에게 “롯데 자이언츠 몇 게임 남았어?” 라는 질문을 하였고, 당시 기준으로 정답은 4게임인데, 꼼꼼하게 날짜 계산해 가며 챙겨야 하는 어려운 질문인지 모든 AI 서비스들이 정답과는 다른 말들을 하였다. 9월 첫 주 기준으로 이야기를 하기도, 대충 얼버무리기도 하기도 하는데, 제품의 입장에서 authoritative contents 가 검색에 안 잡히는 게 그 원인인 듯하다. 상대적으로 미국은 espn 이나 mlb 사이트들이 최신으로 유지되는 것에 비해 그 내용들이 부족한 것이라 하겠다.AI 강의 부분은 책의 뒷부분을 나누었다. AI 가 전방위적으로 도입된 후에 순작용보다는 부작용 혹은 같이 풀어나가야 할 과제들을 여러 시각에서 정부 정책과 함께 고민하는 정도로 나누었고, 이 책을 같이 읽는 건 일단 여기까지로 정리를 했다. 이후에 AI 관련한 내용들은 계속 쏟아질 뉴스들을 따라잡는 것들과 10월 9일에 발표된다는 stateof AI 를 가지고 10월 이야기들을 마무리하게 될 거 같고, 과목 후반기에 필요한 내용들을 더 준비해야 하겠다.2025년 stateof AI report 는 10월 9일에 발표됨.추천 시스템 부분은 교재에서 4장 추천 알고리즘의 개요 와 7장 평가 챕터를 다루었다. 5장부터는 실제 구현이 포함되는, 코딩이 포함되는 내용일 것이라 지표들을 언급해 놓고 시작하는 것이 낫겠다고 생각했는데, 이 부분은 처음 보는 사람들에게는 한없이 어렵고, 쓰던 사람들한테는 별 고민 없이 쓰는 내용들이라 편차가 있겠다. 서비스의 시각, 완제품의 시각에서 접근을 한다고 하지만, 모든 의사판단의 기준에는 데이터가 있어야 하고, 오프라인에서 비교할 수 있는 이 지표들은 필수적으로 알아야 하고, 실제 업무에서 '왜?' 라는 질문을 하고 들을 수 있어야 하겠다. 아래는 한 장으로 요약된 추천 시스템 알고리즘. Collaborative Filtering in Recommender Systems 이후 MovieLens 를 가지고 하는 예제들은 그 자체로 의미가 있지만, 손을 좀 더 보아야 하겠다는 생각인데, 입코딩 혹은 따라서 해 보는 vibe coding 으로 추석 연휴 후에 수업 시간에 한 시간 정도는 따라 가 보아야 하겠고, EDA , random / popular 추천 정도까지만이라도 되면 좋겠는데, 내용을 좀 더 다듬어서 연습을 좀 더 해야 겠다는 생각이다. 환경이 어디까지 지원이 될 수 있을지 모르겠는데, 학교 컴퓨터에 cursor 를 설치할 수 있으면 좀 더 이것저것 해 볼 수 있지 싶다. ps. 다음 두 번의 온라인 녹화 수업까지 해서 이런저런 핑계로 수업 자체가 소홀하게 되는게 아닌가 반성을 잠깐 했다. 한 시간 이르게 끝내어 일산에 부모님 성묘를 다녀올 수 있었고, 이후 조금 더 집중해서 남은 시간들을 챙겨 보려 한다. 질문들Q. ChatGPT 는 왜 계산을 잘 못 하나요 ?A. 요즘에 조금 더 나아졌지만, 가장 큰 문제는 질문을 문자로 받아 들여서 그것을 도서관이나 문헌에서 찾으려 하는 방법에 가깝다 하겠습니다. LLM 에게 한 번 물어 봐서 최대한 그 결과를 이용하려는 방식에서 오는 한계일 텐데요. 요즘은 사용자 질문에 바로 응대하는 것보다 여러 번 LLM 혹은 서비스들에게 필요한 일들을 chain of thought 같은 식으로 질문과 대답들을 내부에서 처리한 후에 이 질문을 이해해서 계산기 혹은 계산 서비스에 필요한 값들을 parameter 로 전달해서 푸는 방식으로들 해결해 나가고 있습니다.

대학 교육 기타

MCP를 이용해서 LLM 서비스 만들기 — 예제와 함께

이 글은 제가 NIA [한국지능정보사회진흥원]의 < 디지털서비스 이슈리포트 > 2025년 9월호에 기고한 글입니다. 원본 글 '2025년 AI 현황 보고서 리뷰'를 이곳에서도 공유합니다.들어가며 - LLM 이후최근 몇 년간 대형 언어 모델(LLM)은 눈부신 발전을 이루며 AI의 패러다임을 바꿔 놓았다. GPT, 클로드, 제미나이와 같은 LLM들은 단순 질의응답을 넘어, 문서 요약, 코드 작성, 창작물 제작 등 복잡한 작업을 능숙하게 처리하고 있으며, 연구실을 넘어 실제 비즈니스와 서비스 현장에서도 핵심적인 역할을 수행한다.하지만 LLM 단독으로는 여전히 한계가 존재한다. 모델 자체는 방대한 학습 데이터를 기반으로 추론하지만, 실시간으로 변화하는 데이터 연동, 최신 정보 반영, 외부 시스템 API 호출과 같은 기능은 직접 수행할 수 없다. 예를 들어 현재 날씨 정보나 특정 기업의 실시간 재무 데이터를 분석하는 작업은 LLM 혼자서 처리하기 어려운데, 이러한 간극을 메우기 위해 새로운 기술적 접근이 필요하게 되었다.이번 글에서는 이에 소개되는 MCP(Model Context Protocol)를 이용해서 어떻게 LLM 기반의 채팅 서비스에 추가적인 기능들을 할 수 있는지 예제와 함께 살펴 보도록 하겠다. MCP의 역할과 확장성그림 1 MCP 이전과 이후의 LLM에서의 서비스 연동( https://www.descope.com/learn/post/mcp )LLM의 한계를 극복하기 위해 등장한 것이 바로 MCP이다. 2024년 앤스로픽에서 처음 소개된 MCP는 LLM이 외부 시스템, API, 데이터베이스 등과 안전하게 연결되도록 돕는 것을 목표로 시작했는데, 이후 오픈AI, 구글 등 다른 주요 AI 기업들이 이를 채택하면서, MCP는 LLM 생태계의 사실상 표준으로 자리 잡고 있다.MCP는 LLM을 독립적인 존재가 아닌, 다양한 기능을 가진 외부 시스템과 연동되는 하나의 핵심 모듈로 만들어 준다. 예를 들어, 날씨 정보를 제공하는 서비스를 구축할 때 LLM은 사용자의 질문을 이해하고, MCP는 이를 외부 날씨 API와 안전하게 연결하여 실시간 데이터를 가져온다. 이 과정에서 모델은 데이터 접근에 직접 관여하지 않으며, MCP가 데이터 전달과 결과 통합을 전담한다. 이러한 접근 방식은 다음과 같은 장점을 가진다.유연성: 다양한 외부 API나 도구를 LLM에 쉽게 연결할 수 있다.효율성: LLM이 불필요한 추론을 줄이고, 필요한 정보만 정확하게 요청하도록 한다.안정성: LLM의 환각(Hallucination) 현상을 줄이고, 신뢰할 수 있는 정보를 기반으로 응답을 생성하도록 돕는다.이러한 MCP는 기업이 특정 LLM에 종속되는 이슈를 완화하면서 서비스의 확장성 및 유연성을 극대화하는 솔루션을 가능하게 한다. MCP를 활용한 서비스 구현: 날씨 서비스MCP의 작동 원리를 이해하기 위해 실제 코드들로 날씨 서비스를 구현해 본다. 이 서비스는 LLM이 사용자의 요청을 분석하여 실제 날씨 정보를 제공하는 외부 API를 호출하고, 그 결과를 바탕으로 응답을 생성한다. 도구(Tool) 정의와 핸들러 구현파이썬으로 구현하는 예제에서는 MCP 프레임워크를 사용한다. 이를 사용하면, 도구의 메타데이터와 실제 로직을 분리하여 관리할 수 있는데, 여기서 도구 메타데이터는 LLM에게 전달되는 정보로, 도구의 이름과 설명, 필요한 매개변수를 정의한다. 자세하게 적을 수록 정확한 때 도구가 불리고, LLM이 이후에 입력 변수들을 채우는 데 쓰인다.그림 2. 날씨 도구의 메타데이터 정의실제 외부 API(OpenWeatherMap)를 호출하여 데이터를 가져오는 함수를 작성한다. 이 함수는 LLM이 직접 호출하는 것이 아니라, 조건이 만족되었을 때 MCP 서버가 호출한다.그림 3. Open Weathermap 을 호출하는 날씨 도구의 구현 예제 McpServer에 도구 등록 및 실행McpServer는 도구의 메타데이터와 핸들러를 연결하고, 사용자 요청부터 최종 응답까지의 전체 과정을 관리하는 역할을 한다.그림 4. McpServer 등록 및 실행 예 각 LLM별 통합 예제McpServer는 내부적으로 각 LLM 공급자의 API에 맞춰 Tool 객체와 핸들러를 변환하는 어댑터 패턴을 사용한다. 개발자는 아래와 같은 내부 구현을 신경 쓸 필요 없이, 동일한 register_tool() 인터페이스를 사용하면 된다. OpenAI LLMOpenAI는 tools 매개변수를 사용해 함수 호출 정보를 받는다. McpServer는 등록된 도구 메타데이터를 오픈AI의 JSON 스키마 형식으로 변환하여 요청에 포함한다.그림 5. 오픈AI에서 호출하는 McpServer 등록 및 실행 예 Anthropic API (Tool Use)앤스로픽은 'Tool Use' 기능을 통해 유사한 스키마를 사용한다. McpServer는 Tool 객체를 클로드 API의 tools 매개변수에 맞는 형식으로 변환한다.그림 6. 앤스로픽에서 호출하는 McpServer 등록 및 실행 예 Gemini API (Function Calling)제미나이는 'Function Calling' 기능을 지원한다. McpServer는 Tool 객체를 gemini.GenerativeModel의 tools 매개변수에 전달할 수 있는 FunctionDeclaration 객체로 변환한다.그림 7. Google Gemini API에서 호출하는 McpServer 등록 및 실행 예 주의할 점들LLM과 MCP를 활용하여 서비스를 개발할 때에는 몇 가지 중요한 고려 사항이 있다. 이 점들을 간과하면 예측하지 못한 오류나 보안 문제가 발생할 수 있다. 아래의 주의사항들을 잘 따르면, LLM과 MCP를 활용한 서비스의 안정성, 신뢰성, 그리고 사용자 만족도를 크게 높일 수 있다.명확한 설명: LLM이 사용자의 의도를 정확히 파악하고 올바른 도구를 선택하도록, 각 도구(함수, API)에 대한 설명(description)을 명확하고 구체적으로 작성해야 한다. 이 설명은 단순히 기능 요약에 그치지 않고, 도구의 목적, 사용 시기, 필요한 변수(arguments)와 그 형식, 그리고 예상되는 반환값까지 상세히 포함해야 한다. .보안 및 제어: LLM이 호출할 수 있는 함수는 신뢰할 수 있는 것으로 제한해야 하며, 접근 제어와 인증을 철저히 해야 한다. 특히, 금융 거래나 개인 정보 접근과 관련된 민감한 함수는 더욱 엄격하게 관리해야 한다. 또한, 외부에 공개된 공용 MCP나 API를 사용할 때는 해당 서비스의 보안 정책과 데이터 처리 방식을 충분히 검토해야 하는 등, LLM이 악의적인 프롬프트에 의해 민감한 함수를 호출하거나, 민감한 정보를 외부에 노출하지 않도록 사용자의 입력과 LLM의 출력에 대한 검증 로직을 반드시 구현해야 한다.오류 처리: 외부 API 호출은 네트워크 문제, 서버 오류 등으로 인해 실패할 수 있으므로, 이에 대한 오류 처리 로직을 견고하게 구현하는 것이 매우 중요하다. LLM에게 단순히 "API 호출 실패"라고 전달하는 것만으로는 부족하다. API 응답 코드(예: 404, 500)에 따라 구체적인 오류 메시지를 생성하고, 이를 LLM에게 전달해 사용자에게 더 유용한 피드백을 제공하도록 해야 한다. 예를 들어, "해당 지역의 날씨 정보를 찾을 수 없습니다." 또는 "일시적인 서버 오류가 발생했습니다. 잠시 후 다시 시도해 주세요."와 같은 안내를 LLM이 생성하도록 유도하는 것이 좋다.지연 시간(Latency): MCP는 외부 API 호출을 통해 응답을 생성하므로, 단순 텍스트 생성보다 응답 시간이 길어질 수 있다. 여러 개의 API를 순차적으로 호출하거나, 복잡한 연산을 수행할 경우 지연 시간이 더욱 늘어난다. 따라서 사용자 경험(UX)을 고려하여 적절한 로딩 메시지를 표시하거나, 비동기 처리를 통해 지연 시간을 최소화하는 설계가 필요하다.비용 관리: 외부 API 사용에는 비용이 발생하는 경우가 많다. LLM이 불필요하게 많은 API를 호출하거나, 반복적인 요청을 보내지 않도록 효율적인 도구 선택과 사용 로직을 설계해야 한다. API 호출 횟수나 비용을 모니터링하고, 특정 임계값을 초과할 경우 경고를 보내거나 호출을 제한하는 시스템을 구축하는 것도 중요하다. 맺으며 - 이후 전망MCP는 LLM을 단순한 텍스트 생성기를 넘어, 현실 세계와 상호작용하는 강력한 자동화 에이전트로 진화시키는 핵심 기술이다. 이 기술은 LLM의 언어 이해 능력에 실시간 데이터 연동, 외부 시스템 제어 같은 실제적인 '행동'을 부여한다. 예를 들어, 사용자의 요청을 받아 회사의 재무 데이터를 분석하고, 특정 조건에 따라 보고서를 자동으로 생성하거나, 복잡한 비즈니스 프로세스를 단계적으로 처리하는 것이 가능해진다.이러한 변화는 비즈니스 자동화, 고객 서비스, 데이터 분석 등 다양한 분야에서 LLM의 능력을 극대화하며, 인간과 기계의 상호작용을 훨씬 더 자연스럽고 효율적으로 만든다. 특히, 이전에 사용되던 RAG(Retrieval-Augmented Generation, 검색 증강 생성) 방식이 MCP에 통합되고 있다는 점은 주목할 만하다. RAG는 외부 지식을 검색해 LLM의 답변 정확도를 높이는 기술로, 초기에는 별도의 프레임워크로 구현되었지만, 이제는 MCP의 핵심적인 기능 중 하나로 자연스럽게 흡수되고 있다. MCP는 단순히 API를 호출하는 것을 넘어, RAG처럼 방대한 데이터베이스에서 필요한 정보를 찾아 LLM에 제공하는 기능까지 포괄하며, LLM이 더 넓은 맥락에서 정확한 정보를 활용하도록 돕는다.결국 MCP는 LLM 기반 애플리케이션의 가능성을 무한히 확장하며, 우리가 직면하게 될 다음 세대 소프트웨어의 근간이 될 것이다. 이 기술 트렌드를 이해하고 활용하는 것이 미래의 경쟁력을 확보하는 중요한 열쇠가 될 것이다.

대학 교육 기타mcp기고

인공지능과 추천 시스템 강의 노트 - 2025. 9. 6. (1/16)

들어가며올해부터는 IFC 16, 17층을 서울 파이낸셜 허브에서 쓰고, 이 곳의 여의도 교육장을 빌려서 강의가 진행되고 있다. 작년과 달라진 환경이지만, 이게 여의치 않았을 경우 홍릉에서 수업이 진행될 뻔 했다고 하는데, 대기하는 공간이 조금 불편해 지긴 했지만, 수업 하는 환경은 그대로 진행하게 되었다. 다만 토요일이라 IFC 로 출입하는 에스컬레이터가 동작을 하지 않는 정도의 사소한 불편함은 감수해야 하겠다.토요일 개강에 일정 조율이 복잡한 사정이 있어서 새벽 4시에 인천공항에 도착을 하였고, 성남에 가서 짐 풀고 정신을 차린 후 오전에 다시 여의도까지 이동을 하였다. 수업이 한 시부터이니 끼니 걱정도, 주말 주변의 식당 사정 등도 조사가 필요했고, 토요일 오전의 여의도는, 특히 출근하는 곳으로서 여의도는 꽤나 독특한 느낌이다.변경 기간 전에 신청한 DFMBA 학생은 38명 정도였는데, 변경 기간에 학생 수가 89명까지 늘어났다. 쉽다고 소문이 난 건지, 토요일 오후가 진입 장벽을 오히려 낮춘 건지, 한 번 들어 보자 생각한 학생들이 있는 건지 등의 생각들이 들었지만, 출석 체크를 조금 더 빡빡하게 하고, 중간 과제가 추가되었다는 이야기들로 인원들이 조절되면 한다. 준비한 내용들1주) 강의 소개 - 인공지능과 추천시스템 2025년 2학기1주) 금융 - 시작하며1주) 인공 지능 - 시작하며1주) 추천 시스템 - 시작하며 나눈 이야기들예년처럼 일단 첫번째 주에는 내 이야기를 하는 것으로 시작하였다. 다른 전문 교수님들께서 전하지 못하는 현업에서의 일들에서의 이야기들을 전하는 게 이 과목의 목표이기도 했고, 작년과 같은 마음으로 변경을 해야 하겠다는 학생들이 있으면 그 기회를 주는 게 맞다고도 생각해서 첫 시간은 내가 했던 역할들, 맡았던 과제들, 풀었던 문제들에 대해 큰 틀에서 이야기를 나누었다. 2025년을 맞이하면서 업계에서 일어나는 여전히 새롭고 많은 내용들을 다듬으며 새로 붙여 보고 있다.한 학기 내내 힘 닿는 대로 세 가지 키워드들 ‘금융', ‘인공 지능', ‘추천 시스템' 에 대해 이야기를 나누는데, 워낙 여러 의미로 쓰이는 단어들인지라 그 차이들, 각각의 영역에서 쌓아 올린 그 무게들에 대해 먼저 이야기들을 했다. 특히 세 키워드 중 나날이 더 유명해 지는 인공지능에 쏠리는 관심들을 어떻게 정리해 나갈 것인가, 어떤 이야기들을 나누어야 할 것인가는 여전히 고민 거리이다.마지막으로 꽤 오랜 시간을 할애해서 각 주별 수업의 구성, 중간 과제와 기말 과제 소개, 조교들과 오피스 아워를 통한 조절 등 한 학기를 준비하는 내용들을 나누었다. 링크드인 연락처를 조금 더 자주 나누고 있는데, 서로 불안한 지금과 어떻게든 새로운 일들이 벌어질 내년을 맞이하며 새로운 인연들이 닿기를 바라는 마음이 많다. ps.수업 후에는 스타필드에서 AWS 와 메가존클라우드가 같이 진행하는 해커쏜 결과 발표를 참관,응원,지원하러 다녀 왔다. 코딩 어시스턴트 영역으로 Q developer, 재미난 아이디어들이 playable 데모로 보이는 등 여러 생각들이 드는 조금 긴 하루였다.  

대학 교육 기타

채널톡 아이콘