인공지능과 추천 시스템 강의 노트 — 2025. 9. 20. (3/16)
들어가며
오늘도 이슬비가 내리는 흐린 가을날이었지만, 여의도에서는 아침부터 핑크빛 달리기 이벤트로 매우 많은 사람들이 북적이고 있었다. 한국에서는 여러 모로 달리기가 유행이라는데, 이제라도 한 수 배워 보아야 겠다는 생각이 드는 토요일 아침 출근길이었다.
몇몇 학생들이 중간 과제용 데이터들을 제안하기도 했고, 나도 시간을 들여서 몇몇 데이터들을 같이 들여다 보았다. Kaggle 이 상대적으로 자유롭게 쓰이고 있는 반면 dacon 은 대회에 참여하는 사람들이 아니면 보기 힘든 벽들이 있어서 이전 자료들로 공부하기에 제약이 꽤 있어 보인다. 그리고 분석할 데이터들 자체로는 공통적으로는 필드의 수가 이정도면 충분할까 싶은 데이터들이 상당수여서 의외의 발견을 하기가 꽤 어렵겠다는 생각이다.
다만, 다른 한편으로는 밑도 끝도 없는 EDA 이기에, 분석을 실제로 해 보기 전에는 충분한지 부족한지는 실제 리포트를 써 보기 전에 미리 결론내릴 정도는 아니겠어서, 결과가 마음에 들지 않더라도 채점에 나쁜 영향을 주지 않도록 해야 겠다는 생각이다. 과제로서 가이드를 주기로는 회사에서 상사에게 혹은 조직장에게 어떤 결정을 하기에 도움이 될만한 자료를 만드는 것을 목표로 해 달라고 하고 있고, 데이터에서 끄집어 낼 내용들이 없으면 없다고 이야기를 해 달라고 했는데, 이건 다른 면에서 리포트를 만드는 사람들의 시각에서는 쉽지 않은 판단이겠다 싶다.
준비한 내용들
나눈 이야기들
지난 주에 나온 페이스북의 스마트안경에 대해, 그리고 살짝 실패한 데모 시연에 대해 이야기를 나누었다. 안경 자체는 꽤 잘 나왔는데, 유독 갈은 배를 찾는 AI 서비스와 이를 wifi 탓으로 돌린 시연자, 이후 유사 DDOS 라고 이야기한 CTO 까지.. 기술 회사가 맞나 싶은 우려와 걱정이 들게 한 내용들이었다. 데모장 환경에서 테스트해보고 하는 건 10년전이나 지금이나 다 진지하게 해야 하는 거 아닌가 ? 안 되면 녹화를 하든지…
AI 강의 교재에서는 이 책에서 전하고자 하는 지식 혹은 뉴스들이 커버되었다. ChatGPT 즈음부터 시작된 여러 플레이어들의 등장에 관련된 이야기들을 독서 모임 하듯 같이 읽었고, 여기에 2024–2025년에 새로이 추가되는 내용들도 같이 이야기 나누었다. 지금 기준으로는 벌써 충분히 오래 전의 이야기들을 나누는 셈이어서 어떤 주제들을 얼마나 깊이들 다루고 있어야 하는가 등이 챌린지로 남게 되는 거 같다.
추천 시스템 교재에서는 프로젝트로서 추천시스템을 만들거나 개선하고 싶을 때 고려할 내용들을 아우르며 이야기 나누었다. 교재에서는 넓은 의미의 추천으로 과제를 구현해 가는 일반적인 방법이 소개되었고, UI/UX를 이야기하면서는 그 안에서 다양한 주제들 — 사용자 중심의 프로젝트 vs 서비스 제공자 중심의 프로젝트 이야기들과 AARRR 이야기들까자 대략적으로 다루었다. 아래는 이 책에서 제일 좋아하는 요약인 “사용자의 목적에 적합한 UI/UX 사례”.
이번 주부터 각종 AI 서비스들에게 여러 질문들을 하면서 얼마나 대답들을 잘 하고 있는지 혹은 잘 하게 하기 위해서 어떻게 질문해야 하는지를 양념처럼 해 보고 있는데, 먼저 “달리기 뻐꾸기” 같은 키워드스러운 단어들의 설명은 전통적인 검색 엔진들이 더 잘 하고 있고, 한글 검색 커버리지가 적어 보이는 몇몇 서비스들은 뻐꾸기에 대한 일반적인 설명들을 하곤 한다.
수업 내용 중에 25마리 말 문제가 나온다. 25마리 말 중 가장 빠른 3마리를 찾는데 몇 번의 경주가 필요한가? 말들은 매 경주마다 체력의 저하 없이 같은 속도를 내고, 오직 상대적인 순위들만 가지고 가장 빠른 말들을 찾으라.. 는 꽤 유명한 문제인데, 모든 AI 들이 이 문제는 마치 정답을 본 듯이 잘 풀지만, 문제를 7마리로 바꾸었을 경우 여전히 서로 다른 답들을 보여 주고 있다. 참고로 여기서 정답은 한 경주당 2마리를 제외하는 방식으로 하면 2번의 경주면 되는데, 고쳐 주려 해도 몇몇은 매우 대드는 모습을 보여 주곤 한다. 어려운 일을 시킬 때 교차 검증이 필요하거나 뭘 시켜야 할 지 말아야 할 지 고민하는 등 AI 와 더불어 살기에 더 어려운 일들도 분명 생긴다.
7마리 말 경주에 대해 잘못 대답한 AI 서비스들.
질문들
Q. 작은 서비스를 만들어 운영할 때에도 이미지의 소유와 관련된 저작권 문제가 신경이 쓰이는데, AI 서비스들은 이들 저작권 문제들은 어떻게 해결하려고들 할까 ?
A. 이 문제는 양상도 다양하고 해법들도 여럿이라 법정에서 많은 해결과 조정을 비롯해서 다양한 접근이 이루어지고 있다. 미국은 변호사가 엔지니어보다 역시 나은 직업인 듯… 아래는 예제들.
구글 검색으로 대변되는 웹의 세상에는 구글이 site 나 contents 의 authority를 존중하는 형태와, 뉴스 사이트들과의 협업 프로그램들로 진행해 왔음.
서비스 제공 회사는 어떻게든 출처를 제품 상으로는 표시하려 함.
OpenAI 와 Reddit 은 2024년 5월부터 partnership을 맺고 있음. 하지만, 제휴가 되었지만, 이는 Reddit 사용자들의 동의가 있던 게 아니어서 또다른 논란이 되고 있음.
뉴욕타임즈는 Anthropic 과 소송에서 1.5B USD 배상을 받았고, OpenAI 와는 진행 중.
댓글을 작성해보세요.