인공지능과 추천 시스템 강의 노트 - (12/16) - 2024. 11. 22.

들어가며

과제들이 본격적으로 진행되고 있고, 발표 자료를 정리하느라 주중에 일이 좀 더 많아졌다. 학기 초에 준비했던 것들 중에서 디테일한 내용들을 학기 말까지 커버하지 못하게 될 거 같고, 대신 과제들 피드백을 신경을 더 써 뭐라도 배워 가면 좋겠다는 바램이다. 다음 주부터의 리모트 수업이 조금 걱정이 된다.

 

준비한 내용들

12주) 강의 update

브런치 글 이미지 1

궁금해 하는 수학 문제 풀이 대신 언어 영역 문제가 예상보다 많이 높은 점수가 나왔고, 이는 객관식 시험의 한계일 수도, 우리네 고등 교육, 입시 교육의 한계일 수도 있겠다는 생각을 하게 되었다. 

 

https://www.reddit.com/r/singularity/comments/1gv8b8t/top_ai_key_figures_and_their_predicted_agi/https://www.reddit.com/r/singularity/comments/1gv8b8t/top_ai_key_figures_and_their_predicted_agi/

그리고 AGI 를 예견하는 여러 현자 or 이야기꾼들의 이야기. 여전히 AGI 가 무엇일까에 대한 생각들이 거리가 있겠지만, 개인적인 bias 는 노벨상을 수상하신 두 분의 의견에 있음. 그래도 노벨상인데… 

 

Lessons from  Google Search ( part 3 )

구글 검색과 관련해서 알고 있던 것들을 털어 놓는 마지막 이야기. 지금 보아도 놀라운 구글 스케일의 무지막지한 접근들부터, 지금의 deep-linking 을 이루게 한 App indexing 과제까지. 다른 자리에서면 거기에 맞는 나름의 서사가 있는 스토리인데, 수업 내용이랑 멀어질 수 있는 내용이겠다 싶어 짧게 마무리.

 

Search console 도 준비한 것들이 있었는데, 이는 강의장 컴퓨터에 계정을 다른 것들로 로그인하는 바람에 핀트를 많이 놓치게 되었고,  Acquisition - Nest - Subscription 으로 이어지는 약 30분 정도의 이야기 관련 내용들을 준비했으나 자료가 꼬여 다음으로 미루게 되었다. 

 

기말 과제 발표

통신 3사 AI 전략 - 최혁균,이왕희,이종한

국내 통신 3사의 AI 주제에 대한 전략. 아주 일목요연한 정리들. 최근에 KT 가 MS 랑 너무 붙으면서 B2B 고객들은 헷갈려 하고, 여전히 B2C 에서 사업을 잘 이어 나가고 싶어 하는 3사의 고군분투 이야기들

Q. 통신 회사(들)은, AI 를 이용해서 어떤 문제를 풀고 싶을까 ?

Q. 유선망 사업은 따로 운영되나 아니면 같이 포함되어 진행이 될까 ?

Q. 통신사들의 기본 value 는 회선을 늘리거나 안테나를 더 많이 설치하게 하는 데 있지 않은가 ?

Q. B2C 의 경우 4G -> 5G 로 가면서 추가적인 bandwidth가 주는 이득이 없어 여러 문제들이 있어 왔는데, 이 문제가 address 될 수 있을까 ? 그렇다면 그게 통신사의 영역일까 대용량 데이터를 필요로 하는 서비스( e.g. Netflix ) 의 역할일까 ?

Q. 많이 멀지 않은 과거에 Edge environment 등으로 꽤 홍보를 했더랬는데, 이는 서비스 업체와의 강한 연대가 있어야 해당이 되는 것이었을까 ? 

Q. KT가 MS 와 너무 가까워지면, 믿음과 kt-cloud 는 어떤 상황이 되는 걸까 ? 

 

논문 - 현실적인 오더북 시뮬레이션 하에서 멀티 에이전트 강화학습 - 박상우

기관이 대량주문을 하게 될 때 어떤 전략을 피는 것이 유용할 것인가 ? 에 대한 연구 논문. 아주 오래전 데이터를 가지고 지금을 예측하는 것에 대한 우려는 있지만, 꽤 설득이 되는 잘 정리된 논문 분석.

Q. 가격이 변동이 심할(?) 때 효력이 셀 텐데, 얼마나 짧은 단위의 주문이 필요할까요 ? 30초면 괜찮을까요 ?

Q. NASDAQ 만의 특수성이 있을까요 ? 예를 들면, 미국에서는 물리적인 거리를 줄이기 위해 거의 모든 증권 관련 회사나 서비스는 뉴욕 근처에 있습니다만..

Q. CSCO, IBM, INTC, MSFT, YHOO 등의 업종이 조금 쏠려 보이는데, 이게 주는 시사점은 없을까요 ? 

 

카드사 매입 데이터를 활용한 연체여부 예측과 신용관리방안 추천 - 신기원,최원준,최지영

카드사에서 실제 데이터들을 가지고 연체 고객을 다양한 방법으로 찾아 보고 예측해 보는 실습 결과. 전체 숫자가 많지만 10배 이상의 성능 차이에도 같은 정확도라면 그 방향으로도 유의미한 접근

Q. 오차행렬이 random forest 랑 XG boost 랑 차이가 꽤 나 보이는데, 전체 숫자는 FF 가 너무 많아서 차이가 안 나 보이는 걸까요 ? 오차 행렬의 숫자만 설명 부탁드릴께요.

Q. 한편으로는 알고리즘들 사이에 우열이 잘 보이지 않으니 자원을 아끼게 하는 결과물로도 괜찮아 보이네요..

Q. 연체자의 경우 특정 달에 연체가 시작되기 시작할텐데요… mark 된 이후의 소비들도 영향을 준다고 생각할 수 있을까요 ? 아니면 이후의 것은 제외해야 하는 걸까요 ?

Q. 선제적으로 action 을 취할 수 있는 거라고 하면 false alarm 도 어느 정도 감내할 수 있고, 보수적인 접근도 유의미하겠네요.

Q. 대개 한국인의 경우 카드를 여럿 사용하기에 전체 시장의 일부만으로 판단을 하게 되는 상황이 될텐데, 그에 따르는 부작용이나 해석은 없을까요 ? 예를 들면 현대카드가 점유율이 2등이던가 큰 부분을 차지하지만, 내역들만으로 광고를 운영한다거나 한다면 전체를 볼 수 없어 애로사항이 많았더랬습니다. 

 

루닛의 의료 AI 제품의 추천 시스템과 AI 개발을 위한 데이터 라벨링 과정 - 김서진, 심혜민

AI 의료 기업으로 분류되는 루닛 이야기. 레이블링에 들어가는 노동 혹은 비용을 최소화하려는 잘 정의된 제품 기획부터의 사이클. 추천이라는 기능은 조심스럽지만, 사례를 펼쳐 놓고 의사들에게 도움을 주는 1차적인 도구로써 기능은 훌륭하게 수행할 듯.

Q. 사전적 의미로 추천은 안해도 그만에 가까운 내용들이라는 점이 의료정보쪽의 엄격함과 살짝 거리가 있어 보이기는 합니다.

Q. 프라이버시의 경우 병원 밖을 나오지 못하거나 병원들 혹은 의료보험 체인을 벗어나지 못해 의외로 유의미한 모수를 모으는 데 애로사항들이 많다 들었습니다. 

Q. 다양한 표본들을 모으려는 노력들에 대해 이야기해주실 수 있으실까요 ? 

Q. 여전히 '특정 질병에 대한' 판단과 '모든 잠재적인 질병'에 대한 판단은 다른 이슈일 거 같은데요..

Q. 전문 의사들이 labeler 역할을 하게 되고, 교차 검증으로 부작용을 최소화하려는 부분이긴 한데, 수많은 데이터가 될 때 이를 scalable 하게 풀 수 있을까요 ? 의사의 레이블링을 일반인들이 하기 힘들다는 점이 가장 풀어야 할 부분인 거 같습니다만..


출처 : 브런치 매거진 KAIST DFMBA 2024

https://brunch.co.kr/@chaesang/94 ( 2024. 11. 22. )

댓글을 작성해보세요.

채널톡 아이콘