블로그

최신순
인기순
좋아요순

인공지능과 추천 시스템 강의 노트 - 2025. 9. 13. (2/16)

들어가며타이트해진 출석 체크와 작년 대비 추가된 중간과제와 기말과제 조건들 덕인지 꽤 많은 학생들이 다른 선택들을 하였고, 인원은 58명으로 정해졌다. 이제 조금 기대치가 조절되고 있는 셈이니 내년에도 이 과목을 내가 하고 있을 지는 모르지만, 학과를 위해서는 강의 평가도 좋은 점수가 나와야 할텐데 하는 걱정도 적지 않게 든다.공개된 데이터를 가지고, EDA 를 자유 형식으로 하라는 중간 과제가 서로 낯설어서 질문들이 많다. Kaggle , Dacon 등에서 보이는 ‘내가 봐도 문제 없는 데이터’를 가지고 직장 상사에게 보고하는 형태의 보고서를 쓴다는 생각으로 과제를 정의하고 있다. 데이터의 형식, 문제 정의 등에 대해 피드백을 주고 받을 생각으로, 각자 도메인에서 의미있는 해석들이 있으리라 기대가 된다.구름이 잔뜩 낀, 하지만 매력적인 서울 하늘 준비한 내용들2주) 강의 updateAI 강의 - 1강추천시스템 - 1Google(Playstore)에서 과제 런칭하기 - 1 이번 주에 있었던 일들로는 굵직굵직한 OpenAI 의 한국 행보와 구글 검색의 AI 모드 전면 배치 등이 있었다. 사상 최고를 경신하고 있는 코스피 자체도 관심 있게 챙겨야 하겠다. 나눈 이야기들약간의 역사적인 이야기가 들어 있는 인공지능 이야기와 추천 시스템의 입문에 대해 다루었다. 추천 시스템이라는 단어들도 오해가 많은 영역이라, 이 강의에서는 완성된 사용자 위주의 제품의 시각에서 접근과 그걸 가능하게 하는 방법론에 대해 이야기를 많이 하게 된다. 다음 시간부터는 각 내용들에 대해 요즘 시각에서 익숙한 이야기들을 담게 되겠다.유사 쇼핑몰의 개념으로 구글 플레이스토어 이야기를, 완제품의 시각에서 구글 검색 이야기를 내부자의 관점에서 많이 하게 될 것이라 ice-breaking 으로 구글 플레이스토어 이야기를 꽤 일찍부터 시간을 많이 할애하기로 했다. 지표들에 대해서까지 대략적으로 이야기를 하였는데, 아무래도 바깥에서 이야기하기에 한계들이 있는 영역이라 여러 번 감정 이입을 해 가며 정리를 해야 하겠다. ps.인프런에 올라가 있는 유료 강의들을 원하는 학생들에게는 무료로 제공하자 싶어 본의 아니게 인프런 광고를 조금 하게 되었다. 도움이 필요한 분들께 조금이라도 도움이 되면 하는 바램이다.

대학 교육 기타･인공지능･금융･추천

AI 들에게 물어보기 - 노래 가사

"글렌 메데이로스의 nothing's gonna change ..." 오며가며 추천에 떠서 유튜브 복고맨 을 보게 되며 80-90 음악들로 다시 refresh 되는 일들이 있었고, 그 중 몇몇 노래들은 당시 어설프지만 영어를 배우게 해 준 고마운 노래들이어서(?) AI 서비스들에게 가사를 물어 보았다. 여전히 얕은 기량이지만, 문장으로도 예뻤던 기억들도 있다.알아듣고 기뻐하던 가장 오래된 기억의 노래로 Glenn Mediros 의 Nothing's gonna change my love for you 에 대한 이야기들도 있었고, 며칠 전 저녁 먹는 식당에서 들리길래 이것저것 해 보았다. 깔려 있는 앱들이 다 한글 영어 음성 지원이 되고, 말로 해서 꽤 알아 듣는 모양새들이었지만, 이 글을 만들기 위해 데스크탑에서 다시 해 보고 정리. 때마침 저작권 이슈도 언급되기도 해서 ( “AI 추격조에 데이터 개방… 저작권료 차후 계산 파격 필요” [뉴스 투데이] ) 몇 개 해 봄. 이번부터는 네이버와 더불어 클로바x 도 참전... 많이 복잡해 졌는데, 개인적/주관적이지만 오늘의 기준사용자인 내가 '정확한 가사'를 볼 수 있는가 ? 출처는 믿을만 한가 ? 친절한가 ? 질문은 "글렌 메데이로스의 nothing's gonna change my life for you 가사 써 줘"결과는 구글 검색 > Liner > 네이버 = Bing > 클로버x > Perplexity > ChatGPT = Claude > WRTN > Gemini 구글 검색 ( 10 / 10 )Knowledge Panel 에 특화된 쿼리여서 공정성 시비가 있을 수 있음 인정.한 페이지 넘게 가득 할애하는 이전에 못 보던 용기까지.발매 년도 1987. 이것도 정답. 이 노래는 1986년에 녹음되어 1987년에 발매되었다 함. 원곡도 아니니 이정도는 인정.늠름한 출처까지.. Liner ( 8/10 )결과 페이지 포맷팅 감점. 노래 가사가 한 줄씩 한 페이지 너머 이렇게 itemized item 로 보이는 거는 많이 불편함. 맨 위 결과인 블로그 페이지는 찜찜하지만, 벅스가 보이면 인정, 랭킹 아쉬움.네이버 ( 6/10 )링크 클릭하면 되긴 함. 네이버 블로그들 Bing ( 6/10 )링크 클릭하면 되긴 함. 역시 여기도 블로그들 클로바x ( 5.5/10 ) 일단 안 된다고 함. 가끔씩(!) 블로그 링크 보여 줌.Perplexity ( 5/10 ) 못 가르쳐 주겠다면서 뭘 이렇게나 많이..?영어가 많다고 영어로 답을 ?링크들은 전부 unofficial links. ChatGPT ( 4/10 )못 가르쳐 주겠다는데.. 굳이 요약을...? 왜...? Claude ( 4/10 )못 가르쳐 주겠다는데.. 그래도 안내 해 줌.. WRTN ( 3/10 )못 가르쳐 주는데, 그 중 제일 불친절함. 맨 마지막 문장은 심지어 조롱 같음. Gemini ( 2/10 )가사를 틀리게 보여 줌. 그래서 최하위 점수.심지어 아래 출처 링크는 404. 조금은 진지하게... Gemini 는 구글 검색 안 쓰나 ? 총평AI 서비스의 최대 적은 저작권 ?? 정말 ? 저작권이라는 두리뭉실한 이름으로 여러 가지 의미로 쓰이지 싶은데... 구글 검색이 추구하는 방향으로 출처와 credit 을 authorship 형태로 존중하는 방향으로 진행되어야 하지 않을까 ? 각각 서비스들 MOE 등등 할 거면 구글 검색보다는 잘 하자 ?

대학 교육 기타･검색

인공지능과 추천 시스템 - 마치며 - 2024. 12.

들어가며2024년 2학기 KAIST 경영대학원에서 Digital Finance MBA 과정에서 개설된 ‘인공지능과 추천시스템' 강의를 마쳤다. 3학점 16주의 일정이 끝났고, 작년에 강의를 끝냈을 때에 느꼈던 아쉬움에 더해서 두번째 기회였음에 따라 오는 추가적인 아쉬움들이 든다. 금융의 영역과 문제 풀이의 본질인 공학의 테두리 안에서, 인공지능과 추천이라는 주제를 다른 트랙처럼 운용하려 했고, 제품과 서비스로서의 문제 정의와 풀어 나가려는 접근 등을 같이 고민하려 했다. 과목의 이름이 주는 방대함과 위압감은 생각 이상이었고, 변화하는 시대의 이슈들을 따라가고자 하니, 구현에 대한 공통적인 실습을 줄이는 방식으로 타협을 하게 되었다. 준비한 것들교재 같이 읽기 - 박태웅의 AI 강의교재 같이 읽기 - 추천 시스템 입문 코드 따라 하기 - MovieLens , 추천 알고리즘 - 기본 구현들, openAI news creation추석 맞이 클립 모아 보기stateof.ai 2023, 2024 같이 보기특강 - Google(Playstore)에서 과제 런칭하기특강 - Search Quality with Google 특강 - Lessons from Google Search특강 - Big Acquisitions / Nest / Subscriptions / US Life기말 발표 주제 선정, 발표 자료 리뷰, 발표 리뷰 준비했지만 못했던 것들교재 같이 읽기 - GPT-4 를 활용한 인공지능 앱 개발교재 같이 읽기 - 금융 전문가를 위한 머신러닝 알고리즘코드 따라 하기 - 추천 알고리즘 - 복잡한 구현들, Deep Learning 특강 - 인이지와 Digital Transformation with XAI Stat 들 77명의 수강생 ( 디지털금융MBA 46명, 정보경영 20명, 프로페셔널 MBA 6명, 카이스트MBA 3명,임팩트MBA 1명, 경영공학부 1명 ) 4번의 remote 수업, 2번의 online 수업44개의 기말 과제 1번의 간담회 형식의 치맥 작년과 달랐던 점들 직장을 다니면서 주경야독을 하는 학생들과 전업 학생들이 완전하게 둘로 갈려 있었음. 기말 과제들에 공을 들여 이야기를 했는데, 학생들이 다른 과제의 이야기들에 관심을 가지지 않았음. 아무 주제로 면담 신청을 열어 놓았는데, 아무도 신청을 하지 않았음. 띄엄띄엄 학생들을 볼 수밖에 없는 제약이 있기도 했지만, 학기를 진행하며 작년과 너무 다른 분위기들에 많이 흠칫하게 되었다. 침체되어 있는 업권의 불편한 분위기가 그대로 내려오고 있는 게 아닌가 하는 생각이다. 마무리하며강의 평가 결과로는 타 과목 대비 낮은 점수가 나왔는데, 특히 작년보다 그다지 나아지지 못했다는 아쉬움이 있다. 전업으로 하시는 다른 과목 교수님들보다 높이 나올 수 없다는 결과는 여전히 당연하다 생각하고 있고, 특히 이 과목은 학생들이 금융과 IT의 양 극단에 있어서 적절한 강의 대상을 정하기 어려웠을 거라는 책임교수님의 예상과도 일치하는 많이 놀랍지는 않은 결과였다. 작년의 경험에 조금의 노력을 더했지만, 부족함이 많이 지적되는 결과라 하겠고, 모두를 만족시키지 못한 것에 대한 욕심, 너무 살살(?) 했던 것에 대한 아쉬움, 미안함 등이 있지만, 이 자료들이 쌓여서 올해도 내년 강의에 잘 이용이 되면 하는 바램으로 올해는 여기 까지로 마무리하자 싶다.여러 물리적인 제약들에도 불구하고, 개인적으로는 너무 소중한 경험이었고, 다시 한 번 기회를 더 주신 책임교수님과 학과 사무실 분들, 완벽했던 수업조교 들께 감사한 마음을 전한다. 수업 시간을 함께 한 학생들께도 고마움을 전하고 앞으로도 좋은 영향을 끼치기를, 그리고 인연이 계속되기를 기대한다.

대학 교육 기타･인공지능･추천･강의

인공지능과 추천 시스템 강의 노트 - (6/16) - 2024. 10. 11.

들어가며노벨상으로 주변이 시끌벅적한 가운데, 가을의 여의도는 이제 단풍도 보이기 시작하고, 이맘때만 느낄 수 있는 아름다움이 시작된 듯하다. 지난 주의 건담과 뉴진스에 이어 오늘은 열기구가 보였다. 분당에서 여의도를 가는 길에 AI 강의 2025 책을 구입하러 책과 얽힘 에 들러 아래 이벤트를 참석해서 사인도 받았고, 브로마이드도 구할 수 있었다. 그리고 이는 오늘 퀴즈를 맞춘 학생에게 선물로 책과 함께 주었다. https://www.facebook.com/events/1614464549496226/?ref=newsfeed박태웅의 AI 강의 2025 싸인회 기말 과제는 아직 절반 정도만 셋팅이 되었다. 몇몇 메일들에 대해서는 주제를 명확하게 해 달라는 피드백을 주기도 하고, 논문 정리의 경우 미리 같이 훑어 보며 궁금한 점들을 미리 이야기하기도 하는데, 조금 더 이야기들을 들을 수 있으면 하는 바램이다. 그리고, 간담회를 8주 차에 운영하기로 허락을 받았고, 한두시간 이야기를 자유로이 나누기로 했는데, 이 때에도 다양한 이야기를 들을 수 있으면 하는 바램이다. 한 주간 서울의 가을 날씨를 제대로 대비하지 못해 감기를 꽤 앓았었는데, 수업 시간에 쉬어가는 목소리로 이야기를 하게 되어 학생들에게 미안하게 되었다... 준비한 내용들6주) 강의 update현재까지 노벨상 수상한 모든 사람이 내가 아는 사람이 되는 신기한 상황에 그 중 절반은 근무 기간이 겹치는 전 직장 동료라는 게 여전히 믿기지는 않는다. 저 상의 무게, 업적의 깊이, 살아온 이력 등이 어땠을까 가늠이 가지 않으면서도 여러 가지 생각이 들게 되는 한 주였다. 아울러 stateof ai 2024 년 내용이 release 되었다. ( https://www.stateof.ai/ ) 이후 수업에서 몇 번 다룰 내용들이라 여러 번 인용이 되겠지만, 작년의 예측들에 대해서는 일단 아래의 내용으로. 참고로 AI 가 만든 음악이 메이저에 올라올 거라는 9번째 예언의 해석에 대해서는 개인적으로 동의가 되진 않는다. 추천시스템 - 7. 평가추천시스템 - 5Google(Playstore)에서 과제 런칭하기.pptx 추천 시스템 순서 상으로는 5. 알고리즘이 먼저이지만, 이는 책 절반을 할애하게 되고, 7. 평가 부분은 이론적으로 먼저 훑고 가야 할 내용이라 이야기를 꽤 해야 했다. 아래는 대략적인 설명. 결국 셋 다 해야 한다는 이야기.. 교재는 무비렌즈 데이터들을 가지고 해 보는 것으로 이 중 오프라인 평가에 해당하고, 안에서도 아이템을 예측한 후에 판단을 어떻게 내릴 것인지에 따라 f2 score 혹은 RMSE 비교 등으로 여러 이야기를 하게 될 것이다.그리고, 추천 시스템 알고리즘 맨 앞 부분은 랜덤과 popular. 개인화든 아니든 어떤 로직이든 싸워서 우열을 가려야 하는 상대가 있다면 이 둘인데, 이들에 대해 코드로 EDA 하는 부분이 포함되어 있다. 이후 조금 복잡한 알고리즘의 경우는 각각 별도의 시간을 가지고 하나씩 해야 할 거 같은데, 수업 시간에 하나씩 30분씩 해서 진행해 보려 한다. 아무래도 노트북 코드를 가지고 훑는 모습이라 한계가 있을 거 같기도 한데, 지표들이 공감과 설명이 잘 되면 하는 바램이다. 구글 플레이스토어 - part 1이 발표 자료는 작년 강의 이후 조금 정리해서 구글 플레이스토어 한국 현지화 과제를 2년간 책임자로 있으면서 다루었던 내용들이 정리된 내용들로, 이제 거의 10년이 다 되어가는 기억과 기록들이지만, 두어번 시간에 나누어서 나누고 싶었던 내용이다. 실제 B2C 제품 팀을 운영하는 분들에게 해 줄 수 있는 이야기들이기에 최대한 감정 이입을 부탁하기는 했다.오늘은 첫 시간으로 내용들 중에서 개요와 당시의 제품이 지니고 있던 챌린지들, 그리고 평가들을 하기 위한지표들에 대한 이야기들을 나누었다. 쇼핑몰의 성격과 닮아 있지만, 1인당 1개의 구매 제한, preinstall 등의 사연들이 있는 제품에서 여러 이야기들을 나누기 위해 지표 이야기까지는 같이 다루고 싶었다. 아래는 학생들에게 낸 오늘의 퀴즈. Q) 당시 구글 플레이스토어에서는 Good Acquisition 을 정의했는데, 인스톨 후 Y일 이내에 X번 실행을 한 경우 이를 True 로 놓았었다. X 와 Y 를 구하시오.힌트 : Y 는 7의 배수 Q&AQ. 모델 밸리데이션 시 Train:Valid:Test 비율을 8:1:1을 사용하는 경우와 6:2:2로 나누는 경우는 어떤 차이가 있나요? 예를들어 8:1:1이 6:2:2 보다 과적합 문제가 더 커지는 건 아닌가요?A. 일반적으로 그 이슈가 맞습니다. 일반론적으로 많은 경우 training 수가 적으면 학습이 덜 되고, 과하게 많으면 overfitting 이슈가 생깁니다. 대개 training 이 안 되는 문제가 먼저 오게 되고, overfitting 이 뒤에 오는데요. Overfitting 의 경우 전체 데이터 수를 늘리면서 많이들 해결합니다. 20%를 테스트로 놓는 경우는 대개 샘플 수가 적을 때 많이들 그리 합니다. Q. 질문은 강력한 시그널이라는 말씀을 들으니 십여년 쯤 전 구글 직원분의 세미나가 생각납니다. 그분도 질문은 거짓말을 하지 않는다고 말씀하시면서 자신은 질문 쿼리 데이터를 바탕으로 투자시스템을 만들 계획이라는 이야기를 했었습니다. 구글이나 다른 기업들이 질문 데이터를 활용하는 방법들을 소개해주시면 감사하겠습니다.A. 정확하게는 질문 후의 반응의 행동까지가 한 셋트입니다. 질문이 연속될 경우 그것도 강한 연관 시그널이겠구요. 특히 통계로 접근할 때 쿼리창에 나오는 suggest 쿼리들은 통계적으로 안 쓸 이유가 없는 훌륭한 소스지요. 많은 경우 통계 혹은 로직이 random 과의 싸움이라 했을 때 같은 쿼리를 다른 사용짜가 우연히 같이 넣는다고 하면 아주 큰 일이 벌어지고 있는 것입니다. 네이버 검색도 마찬가지고 각종 쇼핑몰도 마찬가지이겠습니다. 구글 플레이스토어만 하더라도 모든 쿼리에 대해 거대한 표를 만들어 놓는다 치면 어떤 쿼리가 와도 정답을 줄 수 있겠습니다. 시스템 복잡도 이런 건 대개 뒤에 고민해도 늦지 않습니다. :) 출처 : 브런치 매거진 KAIST DFMBA 2024https://brunch.co.kr/@chaesang/83 ( 2024. 10. 11. )

대학 교육 기타･인공지능･추천･금융

인공지능과 추천 시스템 강의 노트 - (5/16) - 2024. 10. 4.

들어가며10월이 되면서 다시 찾은 서울은 더이상 무더위의 서울이 아니었고, 날씨는 언제 그랬냐는 듯 평범하였다. 한국에는 목요일 새벽에 도착하였고, 몇몇 적응들을 한 후 여의도로 출근도 평범했다. 여의도 전철역에는 뉴진스와 건담 관련 광고들이 펼쳐져 있었다. 기말 과제에 사인업을 20명 정도 하였다. 감을 잡기가 힘들었는지 작년 대비 학생들이 주제들을 이야기 못 해 주고 있는 상황인 거 같지만, 메일이 오면 일단 먼저 주제의 범위가 괜찮은지 같이 둘러 보며 피드백을 주고, 일정 조절을 같이 하고 있다. 이후 일정들을 체크해서 자유 간담회 시간을 잡을 예정이고, 이번 달 말 정도에 한 번 할 수 있으면 좋겠다는 생각이다. 준비한 내용들5주) 강의 update( 모든 이슈들은 openai 를 중심으로.. )추천시스템 - 3 추천시스템 - 4 추천 시스템 강의 3, 4장3장은 UI/UX 에 대한 이야기를, 4장은 추천 로직을 시스템으로서 접근하는 노력을 담았다. 하나의 제품이라 할 지라도 모두에게 모든 케이스를 만족시키는 결과를 하나의 로직이 만들어 낼 수 없을 것이고, 그러기에 제품의 여러 상태에 따라 다양한 내용들을 접목시키는 노력에 대해 이야기하고 있다. recommender로 불리기 전에는 information filtering 이라는 이름으로 널리 쓰이고 있었고, 이론적인 교과서적인 면에서 결국 시스템 구현은 아래 위키피디아에 나온 이 방법들을 기본으로 설명하고 있고, 하이브리드를 적용하는 것으로 접근한다. https://en.wikipedia.org/wiki/Collaborative_filtering제품의 구성 따라 아래의 예제들처럼 접근하시라.. 라는 잠정적인 결론. 개요 추천 - 내용 기반 필터링 알림 서비스 - 사용자-사용자 메모리 기반 협조 필터링 알림 서비스 - 모델 베이스 ( 데이터가 축적되면 ) 전자상거래 검색 - 내용 기반 필터링 전자상거래 홈페이지 - 구입 이력을 통한 추천 이후의 내용들은 각 서브 모듈을 어떻게 정의하고 비교할 것인지에 대한 내용들이어서 다음 시간으로 미루었다. 코딩과 수식이 난무한 시간이 될 것이고, 꽤 고민 거리들이 있게 될 거 같다.오늘의 퀴즈들오늘은 구글 검색 때 했던 몇가지 논의들 + 안팎으로 공개되었던 몇몇 숫자들에 대한 질문들.1. 구글의 검색 결과를 사용자가 클릭을 했을 때 click duration 이 짧으면 short click 이라 해서 이른바 낚임을 나타내는 나쁜 페이지를 나타내는 정보이고, long click 은 이후 페이지를 충분히 소비한 좋은 결과를 이야기하게 되는데, 이를 나누는 기준은 각각 몇 초일까 ?2. 구글이 knowledge panel 을 기존에 있던 광고 위에 올리고, 기존의 click mechanism 이 특히 모바일에서 틀어지게 되었는데, 주어진 쿼리에 스크롤이 얼마간 일어나지 않으면 비록 click 이 없더라도 쿼리에 대한 좋은 결과를 준 것으로 간주했는데, 이 때는 몇 초를 기준으로 삼았을까 ? Q&AQ. 사용자가 제품 안에서 하는 행동들을 기록해서 적으면 너무 방대하고 오차들이 많지 않나요 ?A. 이른바 event tracking 이라 불리는 영역이고 아주 오래전부터 상상 이상으로 많은 제품들이 이쪽에 있는데, Google Analytics / Firebase Event / Amplitude 등이 그 역할을 하고 있고, 그 데이터를 수집하려는 입장에서는 더 많은 정보들을 원하고 있을 것입니다. 오차들을 줄이려는 노력들을 많이 하고 있고, 통계적으로 의미 있는 일들을 모으고 있고, 사용자들의 이벤트들을 모아서 보통 세션이라는 개념으로 해서 분석을 많이들 합니다. Q. 유튜브에서 추천은 어떤 식으로 이루어 지나요 ?A. 지금의 유튜브는 위의 두 줄을 '통합 추천'의 개념으로 놓고, 그 아래 그룹들을 추천해 주는 방식을 쓰고 있습니다. 넷플릭스나 아마존 등에서도 비슷하고, 친절한 그룹 설명들이 있는데, 그 중에 여러 이유들을 가지고 모아서 위에 모아 주는 용감한 전략을 쓰고 있지요. Q. 구글검색 굿클릭 기준이 30초~2분(모바일은 3초?)인데, 30초라고 결정했던 요소들이 어떤 것이었는지 궁금합니다. (예를 들어, 지난 데이터들을 분석해보니, 30초 미만 머물렀던 클릭들은 다시 검색하거나 다른 링크로 들어가는 행동을 보였다던지)A. 검색 결과 - 클릭 - back to 검색 결과 - 다른 클릭 이 일어날 때 앞의 back to 검색 결과에 대해 많은 가중치를 두는 계산들을 했었습니다. 페이지 자체의 품질이라기보다는 주어진 쿼리와의 연관성에 대한 피드백이 되는 경우가 많아서 사용자가 계속 검색 페이지로 돌아오는 건 클릭 후 행동이 그다지 만족스럽지 않았다는 것을 나타낸다 했었구요.모바일 3초는 knowledge panel 이 주어진 쿼리에 대해 얼마나 유효한지에 대한 수치였습니다. 검색 페이지를 보여줬을 때 사용자가 3초간 보고 스크롤을 하지 않는다면 검색 결과가 만족스러운 것이다 라는 해석이었더랬습니다. Q. Cross-selling 파트에서 구매전/구매후 추천되는 아이템이 다르고 운영되는 팀도 다를 것라고 하셨는데, 그냥 생각하기엔, 같은 팀에서 운영하는 것이 더 효율적이고 시너지가 날 것 같은데, 그 두 시점에 따라 다른팀에 의해 운영되는 효과가 궁금합니다.A. 제품의 구성원 따라 다르겠지만, 구글 정도의 큰 회사인 경우 혹은 다른 쇼핑몰 들일지라도 같은 공간을 여러 팀들이 경쟁해서 무언가를 꾸미는 형태로 진행된다 보시면 될 것이구요. 공급자 눈에 비슷해 보여도 ‘똑같은' 로직이 다른 곳에 최고의 성적을 내는 경우가 드물기도 하고, 반대로 안팎의 사정으로 묶어서 운영하기도 하겠구요. 효율을 어디서 정의하느냐 따라 다른 일들이 벌어진다 하겠습니다. 개인적으로 사용자 입장에서 구매 버튼 누르는 시점 앞뒤로 똑같은 걸 사라고 자꾸 뭔가가 뜨면 싫어할 거 같긴 합니다. 실제로 사용자들은 그런 사소한 이유들로 많이들 떠납니다. Q. Credibility파트에서 ‘리뷰자체를 신뢰하게 만드는 법’에 첫 항이 ‘운영자들이 리뷰를 직접검수’ 였는데, 언뜻 생각하기로 그렇게 많은 리뷰를 어떻게 다 검수하지란 생각이 들어서요,, 필터를 해서 특정한 유형의 리뷰만 보는 모델을 사용해서 효율화를 하는지(왠지 이것도 한계가 많아서,, 다 직접 봐야하지 않나 싶은데) 어떻게 효과적인 방법으로 리뷰 검수를 할 수 있는지 궁금합니다. A. 일단 사람이 먼저 해야 이후에 기계한테 룰이든 머신러닝이든 시키지 않을까요 ? 기계의 도움을 받아 사람이 하고 보수적으로 처리한다 정도가 맞는 말일 거 같습니다. 참고로 구글은 spam fighting 을 20년 넘게 해 오던 회사이고, 거기에 따른 노하우들에서 시작합니다. 참고로 막 만들어진 서비스의 경우 리뷰 별로 안 많을 겁니다… :) 제품을 운영하는 입장에서는 ‘효율화'는 나중에 와야 합니다.출처 : 브런치 매거진 KAIST DFMBA 2024https://brunch.co.kr/@chaesang/81 ( 2024. 10. 4 )

대학 교육 기타･인공지능･추천･경영

AI 에게 물어보기 — “어떤 만화야 ?”

미국 어느 식당에서 밥 먹는 중에 화면에 보이는 만화...예전에 보던 도라 디 익스플로러 가 생각이 났고, AI 시대에도 여전히 2D 만화는 인기인가..? 특히 아이들한테..?당연히 처음 보는 화면이어서 도통 모르겠기에 AI 들에 물어 보았는데.. 다 다르게들 답변한다. 어떤 게 정답일까 ? Perplexity : CyberchaseGemini : Molly of DenaliChatGPT : not sure ; Hero elemantary ?Claude : Xavier Riddle and the Secret Museum 정답은 search by image 에서 보듯이 Molly of Denali.오늘의 생각 : 검색 = 인덱싱 !! 비슷한 이미지+정보를 찾아 내는 vector search 는 이럴 때 빛이 나는 듯..참고로 Lens 는 search by image 를 쓰지 않아서인지 아주 엉뚱한 답들이 나온다. 굳이 한글로 되어 있는 설정을 과하게 존중해서일까...

대학 교육 기타

인공지능과 추천 시스템 강의 노트 — 2025. 9. 27. (4/16)

들어가며 가을의 여의도에서는 매 주말 굵직한 일정들이 있는지, 이번 주는 불꽃놀이가 있다 했다. 아침 출근길부터 캠핑 장비 , 야유회 장비들을 들고 여의도로 오는 가족들이 유난히 많아 보이고, 수업이 끝나는 오후 4시부터는 교통 통제와 지하철역 무정차 등의 일들이 있다 하여, 오늘 수업은 중간에 쉬는 시간 없이 2시간 정도를 한 번에 이야기하는 강행군을 진행하게 되었다. 추석 연휴 사이에 있는 두 번의 온라인 강의에 대한 진행에 대해 이야기를 하고, 모이고 있는 중간, 기말 과제들의 내용들에 대한 이야기들을 정리하였다. 서로 이야기가 잘 통해 미리 제출해 준 학생들이 있는가 하면, 아직 내용이 전달이 잘 덜 된 학생들도 있는 듯한데, 시간을 조금 더 들여 이야기를 나누어야 하겠다 싶다. 준비한 내용들 4주) 강의 updateAI 강의 - 4강, 5강추천시스템 - 4. 추천 알고리즘 개요추천시스템 - 7. 평가나눈 이야기들 AI 쪽 이야기는 상대적으로 적었지만, 네이버 파이넨셜과 카카오톡 등의 굵직한 제품들과 관련된 뉴스들이 많이 나오고 있다. 국민 서비스들로 자리잡은 것들이기에 사연이 더 있다 하겠고 호불호 혹은 끼치는 영향이 클텐데, 예전보다 정보들이 쉽게 돌아다니기에 좋다 나쁘다의 의견들이 퍼지는 속도들도 상당하다 하겠다.이번 주에는 AI 에게 “롯데 자이언츠 몇 게임 남았어?” 라는 질문을 하였고, 당시 기준으로 정답은 4게임인데, 꼼꼼하게 날짜 계산해 가며 챙겨야 하는 어려운 질문인지 모든 AI 서비스들이 정답과는 다른 말들을 하였다. 9월 첫 주 기준으로 이야기를 하기도, 대충 얼버무리기도 하기도 하는데, 제품의 입장에서 authoritative contents 가 검색에 안 잡히는 게 그 원인인 듯하다. 상대적으로 미국은 espn 이나 mlb 사이트들이 최신으로 유지되는 것에 비해 그 내용들이 부족한 것이라 하겠다.AI 강의 부분은 책의 뒷부분을 나누었다. AI 가 전방위적으로 도입된 후에 순작용보다는 부작용 혹은 같이 풀어나가야 할 과제들을 여러 시각에서 정부 정책과 함께 고민하는 정도로 나누었고, 이 책을 같이 읽는 건 일단 여기까지로 정리를 했다. 이후에 AI 관련한 내용들은 계속 쏟아질 뉴스들을 따라잡는 것들과 10월 9일에 발표된다는 stateof AI 를 가지고 10월 이야기들을 마무리하게 될 거 같고, 과목 후반기에 필요한 내용들을 더 준비해야 하겠다.2025년 stateof AI report 는 10월 9일에 발표됨.추천 시스템 부분은 교재에서 4장 추천 알고리즘의 개요 와 7장 평가 챕터를 다루었다. 5장부터는 실제 구현이 포함되는, 코딩이 포함되는 내용일 것이라 지표들을 언급해 놓고 시작하는 것이 낫겠다고 생각했는데, 이 부분은 처음 보는 사람들에게는 한없이 어렵고, 쓰던 사람들한테는 별 고민 없이 쓰는 내용들이라 편차가 있겠다. 서비스의 시각, 완제품의 시각에서 접근을 한다고 하지만, 모든 의사판단의 기준에는 데이터가 있어야 하고, 오프라인에서 비교할 수 있는 이 지표들은 필수적으로 알아야 하고, 실제 업무에서 '왜?' 라는 질문을 하고 들을 수 있어야 하겠다. 아래는 한 장으로 요약된 추천 시스템 알고리즘. Collaborative Filtering in Recommender Systems 이후 MovieLens 를 가지고 하는 예제들은 그 자체로 의미가 있지만, 손을 좀 더 보아야 하겠다는 생각인데, 입코딩 혹은 따라서 해 보는 vibe coding 으로 추석 연휴 후에 수업 시간에 한 시간 정도는 따라 가 보아야 하겠고, EDA , random / popular 추천 정도까지만이라도 되면 좋겠는데, 내용을 좀 더 다듬어서 연습을 좀 더 해야 겠다는 생각이다. 환경이 어디까지 지원이 될 수 있을지 모르겠는데, 학교 컴퓨터에 cursor 를 설치할 수 있으면 좀 더 이것저것 해 볼 수 있지 싶다. ps. 다음 두 번의 온라인 녹화 수업까지 해서 이런저런 핑계로 수업 자체가 소홀하게 되는게 아닌가 반성을 잠깐 했다. 한 시간 이르게 끝내어 일산에 부모님 성묘를 다녀올 수 있었고, 이후 조금 더 집중해서 남은 시간들을 챙겨 보려 한다. 질문들Q. ChatGPT 는 왜 계산을 잘 못 하나요 ?A. 요즘에 조금 더 나아졌지만, 가장 큰 문제는 질문을 문자로 받아 들여서 그것을 도서관이나 문헌에서 찾으려 하는 방법에 가깝다 하겠습니다. LLM 에게 한 번 물어 봐서 최대한 그 결과를 이용하려는 방식에서 오는 한계일 텐데요. 요즘은 사용자 질문에 바로 응대하는 것보다 여러 번 LLM 혹은 서비스들에게 필요한 일들을 chain of thought 같은 식으로 질문과 대답들을 내부에서 처리한 후에 이 질문을 이해해서 계산기 혹은 계산 서비스에 필요한 값들을 parameter 로 전달해서 푸는 방식으로들 해결해 나가고 있습니다.

대학 교육 기타

MCP를 이용해서 LLM 서비스 만들기 — 예제와 함께

이 글은 제가 NIA [한국지능정보사회진흥원]의 < 디지털서비스 이슈리포트 > 2025년 9월호에 기고한 글입니다. 원본 글 '2025년 AI 현황 보고서 리뷰'를 이곳에서도 공유합니다.들어가며 - LLM 이후최근 몇 년간 대형 언어 모델(LLM)은 눈부신 발전을 이루며 AI의 패러다임을 바꿔 놓았다. GPT, 클로드, 제미나이와 같은 LLM들은 단순 질의응답을 넘어, 문서 요약, 코드 작성, 창작물 제작 등 복잡한 작업을 능숙하게 처리하고 있으며, 연구실을 넘어 실제 비즈니스와 서비스 현장에서도 핵심적인 역할을 수행한다.하지만 LLM 단독으로는 여전히 한계가 존재한다. 모델 자체는 방대한 학습 데이터를 기반으로 추론하지만, 실시간으로 변화하는 데이터 연동, 최신 정보 반영, 외부 시스템 API 호출과 같은 기능은 직접 수행할 수 없다. 예를 들어 현재 날씨 정보나 특정 기업의 실시간 재무 데이터를 분석하는 작업은 LLM 혼자서 처리하기 어려운데, 이러한 간극을 메우기 위해 새로운 기술적 접근이 필요하게 되었다.이번 글에서는 이에 소개되는 MCP(Model Context Protocol)를 이용해서 어떻게 LLM 기반의 채팅 서비스에 추가적인 기능들을 할 수 있는지 예제와 함께 살펴 보도록 하겠다. MCP의 역할과 확장성그림 1 MCP 이전과 이후의 LLM에서의 서비스 연동( https://www.descope.com/learn/post/mcp )LLM의 한계를 극복하기 위해 등장한 것이 바로 MCP이다. 2024년 앤스로픽에서 처음 소개된 MCP는 LLM이 외부 시스템, API, 데이터베이스 등과 안전하게 연결되도록 돕는 것을 목표로 시작했는데, 이후 오픈AI, 구글 등 다른 주요 AI 기업들이 이를 채택하면서, MCP는 LLM 생태계의 사실상 표준으로 자리 잡고 있다.MCP는 LLM을 독립적인 존재가 아닌, 다양한 기능을 가진 외부 시스템과 연동되는 하나의 핵심 모듈로 만들어 준다. 예를 들어, 날씨 정보를 제공하는 서비스를 구축할 때 LLM은 사용자의 질문을 이해하고, MCP는 이를 외부 날씨 API와 안전하게 연결하여 실시간 데이터를 가져온다. 이 과정에서 모델은 데이터 접근에 직접 관여하지 않으며, MCP가 데이터 전달과 결과 통합을 전담한다. 이러한 접근 방식은 다음과 같은 장점을 가진다.유연성: 다양한 외부 API나 도구를 LLM에 쉽게 연결할 수 있다.효율성: LLM이 불필요한 추론을 줄이고, 필요한 정보만 정확하게 요청하도록 한다.안정성: LLM의 환각(Hallucination) 현상을 줄이고, 신뢰할 수 있는 정보를 기반으로 응답을 생성하도록 돕는다.이러한 MCP는 기업이 특정 LLM에 종속되는 이슈를 완화하면서 서비스의 확장성 및 유연성을 극대화하는 솔루션을 가능하게 한다. MCP를 활용한 서비스 구현: 날씨 서비스MCP의 작동 원리를 이해하기 위해 실제 코드들로 날씨 서비스를 구현해 본다. 이 서비스는 LLM이 사용자의 요청을 분석하여 실제 날씨 정보를 제공하는 외부 API를 호출하고, 그 결과를 바탕으로 응답을 생성한다. 도구(Tool) 정의와 핸들러 구현파이썬으로 구현하는 예제에서는 MCP 프레임워크를 사용한다. 이를 사용하면, 도구의 메타데이터와 실제 로직을 분리하여 관리할 수 있는데, 여기서 도구 메타데이터는 LLM에게 전달되는 정보로, 도구의 이름과 설명, 필요한 매개변수를 정의한다. 자세하게 적을 수록 정확한 때 도구가 불리고, LLM이 이후에 입력 변수들을 채우는 데 쓰인다.그림 2. 날씨 도구의 메타데이터 정의실제 외부 API(OpenWeatherMap)를 호출하여 데이터를 가져오는 함수를 작성한다. 이 함수는 LLM이 직접 호출하는 것이 아니라, 조건이 만족되었을 때 MCP 서버가 호출한다.그림 3. Open Weathermap 을 호출하는 날씨 도구의 구현 예제 McpServer에 도구 등록 및 실행McpServer는 도구의 메타데이터와 핸들러를 연결하고, 사용자 요청부터 최종 응답까지의 전체 과정을 관리하는 역할을 한다.그림 4. McpServer 등록 및 실행 예 각 LLM별 통합 예제McpServer는 내부적으로 각 LLM 공급자의 API에 맞춰 Tool 객체와 핸들러를 변환하는 어댑터 패턴을 사용한다. 개발자는 아래와 같은 내부 구현을 신경 쓸 필요 없이, 동일한 register_tool() 인터페이스를 사용하면 된다. OpenAI LLMOpenAI는 tools 매개변수를 사용해 함수 호출 정보를 받는다. McpServer는 등록된 도구 메타데이터를 오픈AI의 JSON 스키마 형식으로 변환하여 요청에 포함한다.그림 5. 오픈AI에서 호출하는 McpServer 등록 및 실행 예 Anthropic API (Tool Use)앤스로픽은 'Tool Use' 기능을 통해 유사한 스키마를 사용한다. McpServer는 Tool 객체를 클로드 API의 tools 매개변수에 맞는 형식으로 변환한다.그림 6. 앤스로픽에서 호출하는 McpServer 등록 및 실행 예 Gemini API (Function Calling)제미나이는 'Function Calling' 기능을 지원한다. McpServer는 Tool 객체를 gemini.GenerativeModel의 tools 매개변수에 전달할 수 있는 FunctionDeclaration 객체로 변환한다.그림 7. Google Gemini API에서 호출하는 McpServer 등록 및 실행 예 주의할 점들LLM과 MCP를 활용하여 서비스를 개발할 때에는 몇 가지 중요한 고려 사항이 있다. 이 점들을 간과하면 예측하지 못한 오류나 보안 문제가 발생할 수 있다. 아래의 주의사항들을 잘 따르면, LLM과 MCP를 활용한 서비스의 안정성, 신뢰성, 그리고 사용자 만족도를 크게 높일 수 있다.명확한 설명: LLM이 사용자의 의도를 정확히 파악하고 올바른 도구를 선택하도록, 각 도구(함수, API)에 대한 설명(description)을 명확하고 구체적으로 작성해야 한다. 이 설명은 단순히 기능 요약에 그치지 않고, 도구의 목적, 사용 시기, 필요한 변수(arguments)와 그 형식, 그리고 예상되는 반환값까지 상세히 포함해야 한다. .보안 및 제어: LLM이 호출할 수 있는 함수는 신뢰할 수 있는 것으로 제한해야 하며, 접근 제어와 인증을 철저히 해야 한다. 특히, 금융 거래나 개인 정보 접근과 관련된 민감한 함수는 더욱 엄격하게 관리해야 한다. 또한, 외부에 공개된 공용 MCP나 API를 사용할 때는 해당 서비스의 보안 정책과 데이터 처리 방식을 충분히 검토해야 하는 등, LLM이 악의적인 프롬프트에 의해 민감한 함수를 호출하거나, 민감한 정보를 외부에 노출하지 않도록 사용자의 입력과 LLM의 출력에 대한 검증 로직을 반드시 구현해야 한다.오류 처리: 외부 API 호출은 네트워크 문제, 서버 오류 등으로 인해 실패할 수 있으므로, 이에 대한 오류 처리 로직을 견고하게 구현하는 것이 매우 중요하다. LLM에게 단순히 "API 호출 실패"라고 전달하는 것만으로는 부족하다. API 응답 코드(예: 404, 500)에 따라 구체적인 오류 메시지를 생성하고, 이를 LLM에게 전달해 사용자에게 더 유용한 피드백을 제공하도록 해야 한다. 예를 들어, "해당 지역의 날씨 정보를 찾을 수 없습니다." 또는 "일시적인 서버 오류가 발생했습니다. 잠시 후 다시 시도해 주세요."와 같은 안내를 LLM이 생성하도록 유도하는 것이 좋다.지연 시간(Latency): MCP는 외부 API 호출을 통해 응답을 생성하므로, 단순 텍스트 생성보다 응답 시간이 길어질 수 있다. 여러 개의 API를 순차적으로 호출하거나, 복잡한 연산을 수행할 경우 지연 시간이 더욱 늘어난다. 따라서 사용자 경험(UX)을 고려하여 적절한 로딩 메시지를 표시하거나, 비동기 처리를 통해 지연 시간을 최소화하는 설계가 필요하다.비용 관리: 외부 API 사용에는 비용이 발생하는 경우가 많다. LLM이 불필요하게 많은 API를 호출하거나, 반복적인 요청을 보내지 않도록 효율적인 도구 선택과 사용 로직을 설계해야 한다. API 호출 횟수나 비용을 모니터링하고, 특정 임계값을 초과할 경우 경고를 보내거나 호출을 제한하는 시스템을 구축하는 것도 중요하다. 맺으며 - 이후 전망MCP는 LLM을 단순한 텍스트 생성기를 넘어, 현실 세계와 상호작용하는 강력한 자동화 에이전트로 진화시키는 핵심 기술이다. 이 기술은 LLM의 언어 이해 능력에 실시간 데이터 연동, 외부 시스템 제어 같은 실제적인 '행동'을 부여한다. 예를 들어, 사용자의 요청을 받아 회사의 재무 데이터를 분석하고, 특정 조건에 따라 보고서를 자동으로 생성하거나, 복잡한 비즈니스 프로세스를 단계적으로 처리하는 것이 가능해진다.이러한 변화는 비즈니스 자동화, 고객 서비스, 데이터 분석 등 다양한 분야에서 LLM의 능력을 극대화하며, 인간과 기계의 상호작용을 훨씬 더 자연스럽고 효율적으로 만든다. 특히, 이전에 사용되던 RAG(Retrieval-Augmented Generation, 검색 증강 생성) 방식이 MCP에 통합되고 있다는 점은 주목할 만하다. RAG는 외부 지식을 검색해 LLM의 답변 정확도를 높이는 기술로, 초기에는 별도의 프레임워크로 구현되었지만, 이제는 MCP의 핵심적인 기능 중 하나로 자연스럽게 흡수되고 있다. MCP는 단순히 API를 호출하는 것을 넘어, RAG처럼 방대한 데이터베이스에서 필요한 정보를 찾아 LLM에 제공하는 기능까지 포괄하며, LLM이 더 넓은 맥락에서 정확한 정보를 활용하도록 돕는다.결국 MCP는 LLM 기반 애플리케이션의 가능성을 무한히 확장하며, 우리가 직면하게 될 다음 세대 소프트웨어의 근간이 될 것이다. 이 기술 트렌드를 이해하고 활용하는 것이 미래의 경쟁력을 확보하는 중요한 열쇠가 될 것이다.

대학 교육 기타･mcp･기고

인공지능과 추천 시스템 강의 노트 - 2025. 9. 6. (1/16)

들어가며올해부터는 IFC 16, 17층을 서울 파이낸셜 허브에서 쓰고, 이 곳의 여의도 교육장을 빌려서 강의가 진행되고 있다. 작년과 달라진 환경이지만, 이게 여의치 않았을 경우 홍릉에서 수업이 진행될 뻔 했다고 하는데, 대기하는 공간이 조금 불편해 지긴 했지만, 수업 하는 환경은 그대로 진행하게 되었다. 다만 토요일이라 IFC 로 출입하는 에스컬레이터가 동작을 하지 않는 정도의 사소한 불편함은 감수해야 하겠다.토요일 개강에 일정 조율이 복잡한 사정이 있어서 새벽 4시에 인천공항에 도착을 하였고, 성남에 가서 짐 풀고 정신을 차린 후 오전에 다시 여의도까지 이동을 하였다. 수업이 한 시부터이니 끼니 걱정도, 주말 주변의 식당 사정 등도 조사가 필요했고, 토요일 오전의 여의도는, 특히 출근하는 곳으로서 여의도는 꽤나 독특한 느낌이다.변경 기간 전에 신청한 DFMBA 학생은 38명 정도였는데, 변경 기간에 학생 수가 89명까지 늘어났다. 쉽다고 소문이 난 건지, 토요일 오후가 진입 장벽을 오히려 낮춘 건지, 한 번 들어 보자 생각한 학생들이 있는 건지 등의 생각들이 들었지만, 출석 체크를 조금 더 빡빡하게 하고, 중간 과제가 추가되었다는 이야기들로 인원들이 조절되면 한다. 준비한 내용들1주) 강의 소개 - 인공지능과 추천시스템 2025년 2학기1주) 금융 - 시작하며1주) 인공 지능 - 시작하며1주) 추천 시스템 - 시작하며 나눈 이야기들예년처럼 일단 첫번째 주에는 내 이야기를 하는 것으로 시작하였다. 다른 전문 교수님들께서 전하지 못하는 현업에서의 일들에서의 이야기들을 전하는 게 이 과목의 목표이기도 했고, 작년과 같은 마음으로 변경을 해야 하겠다는 학생들이 있으면 그 기회를 주는 게 맞다고도 생각해서 첫 시간은 내가 했던 역할들, 맡았던 과제들, 풀었던 문제들에 대해 큰 틀에서 이야기를 나누었다. 2025년을 맞이하면서 업계에서 일어나는 여전히 새롭고 많은 내용들을 다듬으며 새로 붙여 보고 있다.한 학기 내내 힘 닿는 대로 세 가지 키워드들 ‘금융', ‘인공 지능', ‘추천 시스템' 에 대해 이야기를 나누는데, 워낙 여러 의미로 쓰이는 단어들인지라 그 차이들, 각각의 영역에서 쌓아 올린 그 무게들에 대해 먼저 이야기들을 했다. 특히 세 키워드 중 나날이 더 유명해 지는 인공지능에 쏠리는 관심들을 어떻게 정리해 나갈 것인가, 어떤 이야기들을 나누어야 할 것인가는 여전히 고민 거리이다.마지막으로 꽤 오랜 시간을 할애해서 각 주별 수업의 구성, 중간 과제와 기말 과제 소개, 조교들과 오피스 아워를 통한 조절 등 한 학기를 준비하는 내용들을 나누었다. 링크드인 연락처를 조금 더 자주 나누고 있는데, 서로 불안한 지금과 어떻게든 새로운 일들이 벌어질 내년을 맞이하며 새로운 인연들이 닿기를 바라는 마음이 많다. ps.수업 후에는 스타필드에서 AWS 와 메가존클라우드가 같이 진행하는 해커쏜 결과 발표를 참관,응원,지원하러 다녀 왔다. 코딩 어시스턴트 영역으로 Q developer, 재미난 아이디어들이 playable 데모로 보이는 등 여러 생각들이 드는 조금 긴 하루였다.

대학 교육 기타

인공지능과 추천 시스템 강의 노트 — 2025. 9. 20. (3/16)

들어가며오늘도 이슬비가 내리는 흐린 가을날이었지만, 여의도에서는 아침부터 핑크빛 달리기 이벤트로 매우 많은 사람들이 북적이고 있었다. 한국에서는 여러 모로 달리기가 유행이라는데, 이제라도 한 수 배워 보아야 겠다는 생각이 드는 토요일 아침 출근길이었다.몇몇 학생들이 중간 과제용 데이터들을 제안하기도 했고, 나도 시간을 들여서 몇몇 데이터들을 같이 들여다 보았다. Kaggle 이 상대적으로 자유롭게 쓰이고 있는 반면 dacon 은 대회에 참여하는 사람들이 아니면 보기 힘든 벽들이 있어서 이전 자료들로 공부하기에 제약이 꽤 있어 보인다. 그리고 분석할 데이터들 자체로는 공통적으로는 필드의 수가 이정도면 충분할까 싶은 데이터들이 상당수여서 의외의 발견을 하기가 꽤 어렵겠다는 생각이다.다만, 다른 한편으로는 밑도 끝도 없는 EDA 이기에, 분석을 실제로 해 보기 전에는 충분한지 부족한지는 실제 리포트를 써 보기 전에 미리 결론내릴 정도는 아니겠어서, 결과가 마음에 들지 않더라도 채점에 나쁜 영향을 주지 않도록 해야 겠다는 생각이다. 과제로서 가이드를 주기로는 회사에서 상사에게 혹은 조직장에게 어떤 결정을 하기에 도움이 될만한 자료를 만드는 것을 목표로 해 달라고 하고 있고, 데이터에서 끄집어 낼 내용들이 없으면 없다고 이야기를 해 달라고 했는데, 이건 다른 면에서 리포트를 만드는 사람들의 시각에서는 쉽지 않은 판단이겠다 싶다. 준비한 내용들3주) 강의 updateAI 강의 — 2강AI 강의 — 3강추천시스템 — 2추천시스템 — 3 나눈 이야기들지난 주에 나온 페이스북의 스마트안경에 대해, 그리고 살짝 실패한 데모 시연에 대해 이야기를 나누었다. 안경 자체는 꽤 잘 나왔는데, 유독 갈은 배를 찾는 AI 서비스와 이를 wifi 탓으로 돌린 시연자, 이후 유사 DDOS 라고 이야기한 CTO 까지.. 기술 회사가 맞나 싶은 우려와 걱정이 들게 한 내용들이었다. 데모장 환경에서 테스트해보고 하는 건 10년전이나 지금이나 다 진지하게 해야 하는 거 아닌가 ? 안 되면 녹화를 하든지…AI 강의 교재에서는 이 책에서 전하고자 하는 지식 혹은 뉴스들이 커버되었다. ChatGPT 즈음부터 시작된 여러 플레이어들의 등장에 관련된 이야기들을 독서 모임 하듯 같이 읽었고, 여기에 2024–2025년에 새로이 추가되는 내용들도 같이 이야기 나누었다. 지금 기준으로는 벌써 충분히 오래 전의 이야기들을 나누는 셈이어서 어떤 주제들을 얼마나 깊이들 다루고 있어야 하는가 등이 챌린지로 남게 되는 거 같다.추천 시스템 교재에서는 프로젝트로서 추천시스템을 만들거나 개선하고 싶을 때 고려할 내용들을 아우르며 이야기 나누었다. 교재에서는 넓은 의미의 추천으로 과제를 구현해 가는 일반적인 방법이 소개되었고, UI/UX를 이야기하면서는 그 안에서 다양한 주제들 — 사용자 중심의 프로젝트 vs 서비스 제공자 중심의 프로젝트 이야기들과 AARRR 이야기들까자 대략적으로 다루었다. 아래는 이 책에서 제일 좋아하는 요약인 “사용자의 목적에 적합한 UI/UX 사례”.이번 주부터 각종 AI 서비스들에게 여러 질문들을 하면서 얼마나 대답들을 잘 하고 있는지 혹은 잘 하게 하기 위해서 어떻게 질문해야 하는지를 양념처럼 해 보고 있는데, 먼저 “달리기 뻐꾸기” 같은 키워드스러운 단어들의 설명은 전통적인 검색 엔진들이 더 잘 하고 있고, 한글 검색 커버리지가 적어 보이는 몇몇 서비스들은 뻐꾸기에 대한 일반적인 설명들을 하곤 한다.수업 내용 중에 25마리 말 문제가 나온다. 25마리 말 중 가장 빠른 3마리를 찾는데 몇 번의 경주가 필요한가? 말들은 매 경주마다 체력의 저하 없이 같은 속도를 내고, 오직 상대적인 순위들만 가지고 가장 빠른 말들을 찾으라.. 는 꽤 유명한 문제인데, 모든 AI 들이 이 문제는 마치 정답을 본 듯이 잘 풀지만, 문제를 7마리로 바꾸었을 경우 여전히 서로 다른 답들을 보여 주고 있다. 참고로 여기서 정답은 한 경주당 2마리를 제외하는 방식으로 하면 2번의 경주면 되는데, 고쳐 주려 해도 몇몇은 매우 대드는 모습을 보여 주곤 한다. 어려운 일을 시킬 때 교차 검증이 필요하거나 뭘 시켜야 할 지 말아야 할 지 고민하는 등 AI 와 더불어 살기에 더 어려운 일들도 분명 생긴다.7마리 말 경주에 대해 잘못 대답한 AI 서비스들. 질문들Q. 작은 서비스를 만들어 운영할 때에도 이미지의 소유와 관련된 저작권 문제가 신경이 쓰이는데, AI 서비스들은 이들 저작권 문제들은 어떻게 해결하려고들 할까 ?A. 이 문제는 양상도 다양하고 해법들도 여럿이라 법정에서 많은 해결과 조정을 비롯해서 다양한 접근이 이루어지고 있다. 미국은 변호사가 엔지니어보다 역시 나은 직업인 듯… 아래는 예제들.구글 검색으로 대변되는 웹의 세상에는 구글이 site 나 contents 의 authority를 존중하는 형태와, 뉴스 사이트들과의 협업 프로그램들로 진행해 왔음.서비스 제공 회사는 어떻게든 출처를 제품 상으로는 표시하려 함.OpenAI 와 Reddit 은 2024년 5월부터 partnership을 맺고 있음. 하지만, 제휴가 되었지만, 이는 Reddit 사용자들의 동의가 있던 게 아니어서 또다른 논란이 되고 있음.뉴욕타임즈는 Anthropic 과 소송에서 1.5B USD 배상을 받았고, OpenAI 와는 진행 중.

대학 교육 기타･인공지능･추천･금융

2025년 2학기-인공지능과 추천 시스템 강의 준비

KAIST 경영대학원 Digital Finance MBA 들어가며 2023, 2024년에 이어 올해에도 KAIST 경영대학원의 Digital Finance MBA 과정에 같은 과목의 강의를 하게 되었다. 같은 과목을 세번째 하면 익숙해 질만도 한데, 주제가 주제인지라 여전히 어떤 시간을 어떤 내용을 이야기하면서 지내야 할 지 어렵다. 반 년 사이에 수많은 일들이 있었고, 각종 새로운 정보들이 뉴스, 블로그, 유튜브의 형태로 넘쳐나고, 해 봐서 아는 것보다 들어 봐서 알 거 같은 이야기들이 훨씬 많은 세상이 되어 가고 있다.이번은 재임용의 수속을 밟는 거라 지난 학기의 강의 평가 점수가 변수로 작용했다. 전문적인 교수님들보다 낮은 평가 점수는 한편으로는 당연한데, 학과의 평균을 깎고 있는 상황이라 이에 대한 보완책을 심사 때 요청을 받았고, 그 방안으로 1) 수업은 토요일 낮에 , 2) 온라인 수업 최소화 , 3) 더 많은 숙제, 4) 출석 체크의 강화 등을 action item 으로 제안하게 되었다.먼저, 장소는 작년과 같이 여의도 IFC 빌딩 17층. 작년까지 KAIST 가 전체 층을 썼지만, 이번 학기부터는 서울 국제 금융 오피스 내에 강의실을 대여해서 쓰는 형태이고, 공용 대기실 등으로 작년 대비 살짝 불편해진 상황이 되었다. 여기가 여의치 않으면 홍릉으로 다시 간다고 하는데, 그래도 지하철에서 가까운 여기가 나은 게 아닌가 싶고, 여러 새로운 일들이 벌어질 내년은 어떨까 싶긴 하다.시간은 토요일 오후 1시-4시, 16주 수업에 추석 연휴 2주, 2번의 금요일 수업 등의 난이도가 있게 될 거 같다. 임용은 2025년 8월 말부터 1년간. 매번 마지막이 될 지 모른다는 생각이지만, 1주일에 반나절을 선생님으로 지내 보겠다고 하는 개인적인 목표를 유지하며 달성하고 싶고, 나머지 주중의 일상 시간을 같이 보내고 있는 회사 관계자 분들께 폐가 가지 않도록 하면서 한국과 미국을 오가려면 긴장을 더 하고 열심히 살아야 겠다는 다짐을 해 본다.그 사이에 지난 졸업생들 중 일부가 취직 후 감사 인사를 건네 주기도 했고, 교수 자격으로 써 준 유학용 추천서가 도움이 되기도 하는 등의 기쁜 일들도 있었더랬다. 매번 좋은 인연들만 만날 수야 있겠냐마는, 직장인들의 업무 바깥 시간 내어 하는 도전에 조그마한 도움이 되면 하고, 다른 한편으로는 새로운 걸 거꾸로 배우고 싶은 개인적인 욕심이 살짝 채워지면 한다. 아울러 어려운 만남에 좋은 인연이 만들어 지면 하는 행운도 바래 본다. 토요일을 거의 풀로 할애를 하게 될 거 같아서 가을에 당일 등산 일정들에는 영향을 줄 수 있을 거 같은 건 아쉽다 하겠다. 작년과 달라지는 올해 계획들중간 과제로 Kaggle / Dacon 을 이용한 EDA 리포트를 제출하게 할 예정이다.기말 과제 발표는 최종적으로 10-15분 정도의 녹화 영상을 제출하고 그걸 수업 시간에 틀어 발표하도록 한다.출석 체크를 수업 중과 수업 끝의 두 번을 하도록 하고, 그에 맞는 점수 배점을 적용한다.모두 작년 학생들 피드백으로 받은 내용들에 대한 보완 제안이고, 학생들이 조금 더 진지하게 받아 주면 하는 바램이다. 정원 60명에 일단 디지털 금융 MBA 학생들이 36명이 지원했지만, 이후에 변경 기간에 아주 많은 학생들이 조인해서 첫 수업 전에는 90명 정도의 인원이 신청하는 것으로 안내가 되었다. 지난 학기에 학생들 사이에 만만하다고 소문이 난 것인지… 작년 대비해서 빡빡해진 내용들로 첫 수업 때 바뀌는 내용들을 듣고 몇 명이 빠져 나가지 않을까 하는 바램도 있는데, 왠지 그건 그것대로 서운할 수도 있겠다..새로 나올 state-of AI 등을 위한 시간, 구글과 플레이스토어 제품의 심화 설명 등을 위한 특강을 위한 시간 등으로 제품과 사용자 이야기들을 조금 더 알차게 채워 보리라는 생각이다. 올해도 이 매거진을 이용해서 자료들을 모을 계획이고, 기록으로 남아 필요한 분들께 도움이 되면 한다.

대학 교육 기타･강의･금융

AI에게 물어 보기 - "어느 영화 장면이지?"

어느 영화 장면이지 ? 보던 뉴스 피드에 아래와 같은 뉴스가 잡혔다.흐릿한 눈으로 보기에 소녀시대 서현 같아 보이긴 하는데, 요즘엔 역주행들도 뜨고 한다니 무슨 영화일까 궁금했고, 오랫만에 AI 들에게 물어보았다. 이미지만 캡쳐했고, 질문은 '어느 영화 장면이지?'AI 들에게 물어보는 것도 오랫만이라 다들 많이 변했을 거고, 유료 무료 헷갈리는 부분들도 있을테지만, 사용자로서 나는 기존 검색에 물어 봐야 할까? 이미지 + 어떤 prompt를 써야 할까 여럿 고민이 되는 순간이었다.오늘 사용한 이미지 https://www.wikitree.co.kr/articles/1070066 오늘의 결과구글 ( Lens ) > 구글 검색 > 하이퍼 클로버 = ChatGPT = claude = perplexity = wrtn.ai > Gemini = Liner구글 렌즈 ( 10/10 )구글 렌즈 검색 결과언젠가부터 렌즈는 엔터 버튼이 없어졌다. 대신 추가적인 입력을 받으려는 화면을 구글 이미지로 검색 결과를 보여 준다. 더 물어볼 거 없이 정답이 나왔고, 신문기사에 인용되는 등의 유명한 그림에 대해서는 search URLs by image 가 아주 잘 작동한다. 이미지 분석이고 뭐고 간에 이 이미지를 가지고 있는 문서들을 모아 오면서 거기서 정답을 찾았음이리라. 구글 검색 ( 8/10 )search by image 를 바로 부르고 있지만, 신문 기사들의 아슬아슬함 때문인지 영화 제목이 보이진 않는다.가까스로 #거룩한 밤 이 아래에 태그로 보여 아하.. 싶은 정도. 아무 거나 클릭해서 읽어 봤으면 제목을 알았겠지 ?? 하이퍼 클로버 = ChatGPT = claude = perplexity = wrtn.ai ( 5/10 ) 모릅니다.. 라며 이야기들 함. 클로바 결과ChatGPT 결과 claude 결과 퍼플렉시티 결과 wrtn.ai 결과 Gemini (2.0)다른 영화를 가르쳐 줌. 서현이 나온 예전 영화라서 흠칫 했었음. 아예 어이없는 영화를 보여준 아래의 결과와 나름 고민해서 그래도 서현은 맞췄군 하며 비교 우위 인정. Gemini 결과 Liner ( 1.0 )아무 데나 기생충이라고 하면 안 됨. getliner 결과 ps.뤼튼아... 나는 '최상님'은 아님...

대학 교육 기타

DATA+AI 서밋 2025 - 데이터브릭스 데이터와 AI의 미래를 그리다.

이 글은 제가 NIA [한국지능정보사회진흥원]의 < 디지털서비스 이슈리포트 > 2025년 7월호에 기고한 글입니다. 원본 글 ‘2025년 AI 현황 보고서 리뷰’를 이곳 브런치에서도 공유합니다. 이 글은 제가 가진 여러 개의 아이덴티티 중에서 “메가존 클라우드 기술 자문 엔지니어”의 역할에 충실하며 작성한 글입니다.들어가며 : 데이터 시대의 새로운 지평 – 데이터브릭스의 부상지난 호에서 클라우드 데이터 웨어하우스의 선두 주자 스노우플레이크(Snowflake)를 분석한 데 이어, 이번 달에는 데이터 레이크와 데이터 웨어하우스의 장점을 결합한 '레이크하우스 아키텍처'의 선구자인 데이터브릭스를 조명한다. 데이터브릭스는 단순한 데이터 분석 도구를 넘어, 데이터와 AI의 융합을 선도하는 '데이터 인텔리전스 플랫폼'으로서 기업의 디지털 혁신을 가속화하고 있다. 특히 올해 Data + AI 서밋 2025를 비롯한 다양한 혁신적인 발표를 통해 그 입지를 더욱 공고히 하고 있다.데이터브릭스는 방대한 양의 정형 및 비정형 데이터를 효율적으로 저장, 처리, 분석하고, 나아가 머신러닝 및 AI 워크로드까지 지원하는 엔드-투-엔드 통합 플랫폼이다. 특히 오픈 소스 기술에 대한 깊은 기여와 이를 기반으로 한 혁신은 데이터브릭스를 현대 데이터 환경의 핵심 플레이어로 만들고 있다.이러한 맥락에서, 스노우플레이크와 데이터브릭스를 연속적으로 다루며 비교하는데,.스노우플레이크가 클라우드 데이터 웨어하우스의 강력한 주자로서 SQL 기반 분석과 비즈니스 인텔리전스(BI)에 특화된 반면, 데이터브릭스는 레이크하우스 아키텍처를 통해 데이터와 AI의 통합이라는 더 넓은 비전을 제시한다. 이는 시장의 관심이 단순 데이터 저장 및 분석을 넘어 AI와의 시너지를 추구하는 방향으로 진화하고 있음을 반영하며, 각 플랫폼이 현대 데이터 환경에서 어떤 고유한 가치를 제공하는지 이해하는 데 필수적이다. 데이터브릭스: 통합된 데이터 인텔리전스 플랫폼의 핵심레이크하우스 패러다임데이터브릭스의 핵심은 '레이크하우스(Lakehouse)' 아키텍처이다(그림 1). 이 아키텍처는 데이터 레이크의 유연성(다양한 데이터 형식 지원, 저비용 스토리지)과 데이터 웨어하우스의 구조 및 성능(ACID 트랜잭션, 스키마 강제 적용, 데이터 품질, BI/SQL 성능)을 결합한 것이다. 이를 통해 기업은 정형 및 비정형 데이터를 모두 처리하고 분석하며, 머신러닝 워크로드까지 단일 소스에서 지원할 수 있다. 그리고, 데이터브릭스는 아파치 스파크(Apache Spark), 델타레이크(Delta Lake), MLflow 등 핵심 오픈 소스 프로젝트를 기반으로 이 레이크하우스를 구현하며, 데이터의 신뢰성과 성능을 보장한다.그림 1 레이크하우스 레퍼런스 구조 주요 기능 및 강점데이터브릭스 플랫폼은 다양한 데이터 및 AI 워크로드를 지원하는 포괄적인 기능을 제공한다. ETL 및 데이터 엔지니어링: 데이터브릭스는 아파치 스파크(Apache Spark)의 강력한 대규모 데이터 처리 능력과 델타레이크의 안정적인 데이터 레이크 기능을 결합하여 탁월한 ETL(Extract, Transform, Load) 경험을 제공한다. 사용자는 SQL, 파이썬, Scala를 사용하여 ETL 로직을 구성할 수 있으며, 몇 번의 클릭만으로 스케줄링된 작업 배포를 조율할 수 있다. 오토로더(Auto Loader)는 클라우드 객체 스토리지 및 데이터 레이크에서 데이터를 레이크하우스로 효율적으로 증분 로딩하는 도구이며, 레이크플로우 선언형 파이프라인(Lakeflow Declarative Pipelines)은 데이터셋 간의 종속성을 지능적으로 관리하고 프로덕션 인프라를 자동으로 배포 및 확장하여 ETL 로직을 더욱 간소화하며 적시에 정확한 데이터 전달을 보장한다. 머신러닝, AI 및 데이터 과학: 데이터브릭스 머신러닝은 MLflow를 통한 모델 수명 주기 관리, 허깅페이스 트랜스포머(Hugging Face Transformers)와 같은 다양한 ML 라이브러리 지원 등 데이터 과학자와 ML 엔지니어의 요구에 맞는 포괄적인 도구들을 제공한다. 특히 대규모 언어 모델(LLM)과 생성형 AI에 대한 깊은 통합이 주목할 만한데, 사용자는 자체 데이터로 LLM을 커스터마이징하고, 오픈AI 모델 같은 파트너 솔루션을 워크플로우에 통합할 수 있다. 또한, 데이터 분석가도 AI 함수(Functions)를 통해 오픈AI 등 LLM 모델에 직접 접근하여 데이터 파이프라인 및 워크플로우 내에서 AI를 적용할 수 있다. 관리형 오픈 소스 통합: 데이터브릭스는 오픈 소스 커뮤니티에 대한 강력한 의지를 가지고 있으며, 델타레이크, 델타셰어링(Delta Sharing), MLflow, 아파치 스파크, 리대시(Redash), 유니티 카탈로그(Unity Catalog)와 같은 핵심 오픈 소스 프로젝트의 업데이트 및 통합을 데이터브릭스 런타임 릴리스를 통해 관리한다. 데이터브릭스 vs. 스노우플레이크:데이터브릭스와 스노우플레이크는 현대 데이터 관리 및 분석 시장에서 각기 다른 아키텍처 철학과 강점을 가지고 경쟁하고 있다.아키텍처 철학 비교데이터브릭스(레이크하우스): 데이터 레이크를 기반으로 데이터 웨어하우스의 기능을 통합하여, 정형/비정형 데이터, ETL, BI, ML/AI를 단일 플랫폼에서 처리하는 데 중점을 둔다. 이는 유연성과 확장성, 그리고 특히 AI/ML 워크로드에 최적화된 환경을 제공한다.스노우플레이크(클라우드 데이터 웨어하우스): 스토리지, 연산, 서비스 계층이 완벽하게 분리된 독점적인 클라우드 네이티브 아키텍처를 통해 SQL 기반의 데이터 웨어하우징 및 비즈니스 인텔리전스(BI) 분석에 최적화된 성능과 관리 용이성을 제공한다. 스노우플레이크는 하드웨어 선택, 설치, 구성 또는 관리가 필요 없는 '거의 제로에 가까운 관리' 플랫폼으로 설계되었다. 주요 기능 및 사용 사례 비교두 플랫폼은 각자의 강한 영역에서 차별화된 기능을 제공한다.데이터 웨어하우징 및 BI: 스노우플레이크는 SQL 쿼리 및 BI 애플리케이션에서 탁월한 성능을 제공하며, '자동 스케일링', '제로-카피 클로닝', '타임 트래블', '데이터 공유' 등의 독점적 기능으로 데이터 분석가에게 편리함을 제공한다. 데이터브릭스는 레이크하우스 아키텍처를 통해 데이터 웨어하우스 기능을 수행할 수 있지만, 주로 빅데이터 처리 및 복잡한 데이터 엔지니어링에 강점을 가진다.머신러닝 및 AI: 데이터브릭스는 MLflow, 데이터브릭스 런타임, 에이전트 브릭스(Agent Bricks), 딥스피드(DeepSpeed) 등 포괄적인 ML/AI 도구와 프레임워크를 이용하여 데이터 과학자 및 ML 엔지니어에게 강력한 환경을 제공한다. 스노우플레이크는 인-데이터베이스 머신러닝을 지원하며 파이썬 UDFs 및 저장 프로시저를 지원하지만, 데이터브릭스만큼 ML/AI 생태계가 깊이 통합되어 있지는 않다.오픈 소스 및 개방성: 데이터브릭스는 델타레이크, 아파치 아이스버그 등 오픈 소스 표준에 대한 강력한 지지를 통해 데이터 형식에 대한 벤더 종속성을 최소화한다. 반대로 스노우플레이크는 독점적인 아키텍처를 가지며, 데이터 객체는 SQL 쿼리 작업을 통해서만 직접 접근 가능하다.멀티-클라우드 전략: 데이터브릭스는 AWS, 애저, GCP 전반에 걸쳐 원활하게 작동하며, 통합 제어 플레인을 통해 벤더 종속성을 피할 수 있는 유연성을 제공한다. 스노우플레이크 또한 클라우드 기반이지만, 데이터브릭스처럼 오픈 소스 기반의 멀티-클라우드 유연성을 강조하지는 않는다. 데이터브릭스의 2025년 혁신: 데이터와 AI의 경계를 허물다데이터브릭스는 2025년 한 해 동안, 특히 2025년 6월 9일부터 12일까지 샌프란시스코 모스콘 센터에서 개최된 Data + AI 서밋 2025에서 데이터 관리, 분석, AI 개발 및 배포 전반에 걸쳐 수많은 혁신적인 기능을 발표하며 '데이터 인텔리전스 플랫폼'으로서의 입지를 더욱 공고히 했다. 강화된 거버넌스 및 데이터 검색데이터브릭스는 유니티 카탈로그를 중심으로 데이터 거버넌스와 검색 기능을 대폭 강화했다. 아파치 아이스버그(Apache Iceberg) 상호 운용성 강화: 데이터브릭스는 유니티 카탈로그가 아파치 아이스버그 REST API를 완벽하게 지원한다고 발표했다. 이는 데이터 형식 종속성을 제거하고, 델타레이크와 아이스버그 간의 호환성 문제를 해결하며, 이전에 없던 상호 운용성을 제공한다. 비즈니스 사용자로의 거버넌스 확장: 유니티 카탈로그 지표(Metrics): 중앙에서 정의되고 인증된 비즈니스 지표를 지원하여, 파편화된 지표 정의로 인한 보고 불일치와 불신 문제를 해결한다. 이 기능은 AI/BI 대시보드, SQL, 레이크플로우(Lakeflow) 작업 등 모든 곳에서 재사용 가능한 시맨틱 레이어를 제공하며, 감사 및 계보 추적 기능이 기본으로 제공되어 향후 타블로(Tableau) 같은 주요 BI 도구 및 몬테카를로(Monte Carlo)와 같은 관측 가능성 도구와의 통합도 가능하게 한다. 디스커버(Discover) 경험: 비즈니스 도메인별(예: 영업, 마케팅, 재무)로 정리된 인증된 데이터 제품의 큐레이션된 내부 마켓플레이스를 제공하여, 사용자가 고가치 데이터 및 AI 자산을 쉽게 발견할 수 있도록 돕는다. 데이터 품질, 사용 패턴, 관계, 인증 상태를 강조하는 지능형 신호와 데이터브릭스 어시스턴트를 통한 자연어 질문 기능도 포함된다. 고급 거버넌스 기능: 속성 기반 접근 제어 (ABAC): 태그를 사용하여 카탈로그, 스키마, 테이블 수준에서 유연한 접근 정책을 정의할 수 있으며, 행 및 열 수준 보안에 적용된다. 태그 정책: 태그 생성, 할당, 사용 방식에 대한 거버넌스 계층을 강제하여 데이터 분류 및 비용 할당에 일관성을 보장한다. 데이터 분류: 유니티 카탈로그 내 민감 데이터를 지능적으로 감지하고 태그를 자동으로 지정하여 수동 작업을 최소화하고 ABAC와 연동하여 민감 데이터를 자동으로 보호한다. 외부 데이터 계보 통합: 데이트브릭스 외부에서 실행되는 워크로드(예: 첫 마일 ETL, 마지막 마일 BI)의 외부 계보 메타데이터를 유니티 카탈로그에 추가하여 엔드-투-엔드 계보 뷰를 제공한다. 그림 2 유니티 카탈로그의 통합 거버넌스 구조 이러한 유니티 카탈로그의 발전은 데이터 거버넌스가 더 이상 규제 준수를 위한 단순한 부담이 아니라, 데이터 자산의 신뢰도를 높이고, 비즈니스 사용자가 필요한 데이터를 더 쉽고 안전하게 찾아 활용하며, 궁극적으로 데이터 기반 의사결정의 속도와 정확성을 높이는 핵심적인 비즈니스 가치로 진화하고 있음을 보여준다. 특히 AI 기반 자동화는 거버넌스 오버헤드를 줄이면서 효율성을 극대화하는 방향으로 나아가고 있다. 데이터 접근 및 분석의 민주화데이터브릭스는 비즈니스 사용자들이 데이터에 더 쉽게 접근하고 활용할 수 있도록 지원하는 기능들을 선보였다. 레이크베이스(Lakebase) 아키텍처: 서버리스, 완전 관리형 Postgres 호환 OLTP 데이터베이스를 레이크하우스에 통합했다. 이 아키텍처는 ACID 준수, 10ms 미만의 낮은 지연 시간, 브랜칭, 시점 복구, 독립적인 컴퓨트 스케일링을 제공하여 트랜잭션 및 분석 워크로드를 통합하고 ETL 오버헤드 없이 실시간 하이브리드 애플리케이션을 가능하게 한다. 지니(Genie) AI/BI 및 딥리서치(Deep Research): 대화형 분석을 제공하는 지니 서비스가 사용 가능하고, 딥 리서치는 맥락 기억을 통한 다중 턴 추론으로 심층 분석을 가능하게 한다. 이는 비즈니스 사용자가 정적 대시보드를 넘어 설명 가능한 대화형 분석을 통해 더 깊은 통찰력을 얻도록 돕는다. 데이터브릭스 원(Databricks One): 클러스터나 노트북이 필요 없이, 대시보드, 지니, 앱에 접근하기 위한 간소화된 통합 UI를 제공한다. 이러한 기능들은 데이터 전문가가 아닌 일반 비즈니스 사용자도 데이터에 직접 질문하고, 대화형으로 분석하며, 복잡한 ETL 없이도 실시간 데이터를 활용할 수 있도록 한다. 비즈니스 사용자가 데이터와 AI에 더 쉽게 접근하고 활용할 수 있게 됨으로써, 기업 전체의 데이터 리터러시가 향상되고, 데이터 기반 의사결정 주기가 단축되며, 혁신 아이디어가 더 빠르게 실행될 수 있는 환경이 조성되는데, 이는 궁극적으로 기업의 경쟁력 강화로 이어질 수 있다. 그림 3 데이터브릭스 지니 화면 데이터 운영 및 마이그레이션 가속화데이터브릭스는 데이터 운영의 효율성을 높이고 기존 데이터 웨어하우스에서 레이크하우스로의 전환을 가속화하는 데 중점을 두었다. 레이크플로우 디자이너(Lakeflow Designer): AI 기반의 노코드 ETL 빌더로, 드래그 앤 드롭 및 자연어 인터페이스를 통해 레이크플로우 선언형 파이프라인을 생성한다. 이는 분석가와 엔지니어 간의 ETL 핸드오프를 간소화하여 프로토타이핑 속도를 높이고 거버넌스를 개선하며 파이프라인 개발 시간을 단축한다. 그림 4 레이크플로우 디자이너 화면레이크플로우 마이그레이션 프레임워크(Lakebridge Migration Framework): 블레이드브릿지(Bladebridge) 인수를 통해 확보한 무료 오픈 소스 툴킷으로, 데이터 웨어하우스 마이그레이션 워크플로우의 최대 80%를 자동화한다(프로파일링, SQL 변환, 검증 포함). 이는 복잡하고 비용이 많이 드는 마이그레이션 부담을 줄여 레이크하우스로의 전환을 가속화한다. 예측 최적화(Predictive Optimization) 및 자동 리퀴드 클러스터링(Automatic Liquid Clustering): 쿼리 패턴을 분석하여 최적의 클러스터링 키를 자동으로 선택하고 테이블을 클러스터링하여 쿼리 성능을 최대 10배 향상시키고 비용을 절감한다. 특히 자동화와 AI 기반 최적화는 수동 개입의 필요성을 최소화하여 데이터브릭스가 단순히 기능 확장을 넘어, 고객의 총 소유 비용(TCO)을 절감하고 운영 효율성을 극대화하는 데 중점을 두고 있음을 보여준다. 복잡한 데이터 환경에서 발생하는 비효율성을 제거함으로써, 기업은 더 많은 자원을 혁신적인 프로젝트에 투입할 수 있게 되며, 이는 장기적으로 데이터브릭스 플랫폼의 경제적 가치를 높이는 요인이 된다. AI 개발 및 배포의 진화데이터브릭스는 생성형 AI 시대에 발맞춰 AI 개발 및 배포 환경을 크게 발전시켰다. 에이전트 브릭스(Agent Bricks): 프로덕션 수준의 AI 에이전트 생성을 간소화하는 새로운 프레임워크로, 노코드 작업 정의, 내장된 평가 생성, 프롬프트 튜닝, 파인튜닝, 보상 모델 등 자동화된 최적화 기술을 제공한다. 이를 통해 고품질의 비용 효율적인 에이전트를 신속하게 배포할 수 있으며, Flo Health와 같은 고객은 정확도를 두 배로 높이면서 LLM 비용을 최대 10배 절감했다고 보고했다. PDF 문서 처리 기능도 추가되어 마크다운으로 변환해서 에이전트 브릭스에서 활용할 수 있게 되었다. 서버리스 GPU 연산: 서버리스 컴퓨팅의 일부로, 커스텀 단일 및 멀티 노드 딥러닝 워크로드에 특화되어 있다. 사용자는 최신 프레임워크를 사용하여 모델을 훈련하고 파인튜닝할 수 있어 효율성, 성능, 품질을 극대화한다. 새로운 AI 함수들(Functions): ai_parse_document() 함수를 통해 비정형 문서에서 구조화된 콘텐츠를 추출하는 등, SQL 데이터 분석가도 LLM 모델에 직접 접근할 수 있는 기능을 제공한다. LLM 모델 확장: 클로드 소넷 4, 클로드 오푸스, 라마 4 등 최신 LLM 모델들이 모자이크 AI 모델 서빙(Mosaic AI Model Serving) 및 파운데이션 모델 API를 통해 지원된다. 벡터 검색(Vector Search) 및 AI 게이트웨이(Gateway): 벡터 검색 인덱스를 사용하여 AI 플레이그라운드에서 도구 호출 생성형 AI 에이전트를 프로토타이핑하고, AI 게이트웨이가 커스텀 모델 서빙 엔드포인트를 지원하는 등 AI 개발 생태계를 확장했다. 이러한 광범위한 AI 관련 발표는 데이터브릭스가 레이크하우스 기반의 데이터 인텔리전스 플랫폼 비전을 통해, 기업이 생성형 AI를 실제 비즈니스에 적용하고 확장하는 데 필요한 엔드-투-엔드 인프라와 도구를 제공하려는 강력한 의지를 보여준다. 데이터브릭스는 데이터 관리와 분석을 넘어, AI 모델의 개발, 배포, 거버넌스까지 아우르는 통합 플랫폼으로서 생성형 AI 시대의 핵심 인프라 제공자로 자리매김하려 하고 있으며, 이는 스노우플레이크가 아직 따라잡지 못한 영역에서 데이터브릭스의 강점을 보여 준다. 맺으며: 데이터와 AI의 미래를 향한 데이터브릭스의 비전데이터브릭스는 레이크하우스 아키텍처를 기반으로 데이터 엔지니어링, 분석, 머신러닝, 그리고 생성형 AI까지 아우르는 통합 '데이터 인텔리전스 플랫폼'으로 진화하고 있음을 2025년의 여러 혁신을 통해 명확히 보여주고 있다. 오픈 소스에 대한 강력한 지지와 비즈니스 사용자 중심의 접근 방식은 이러한 비전을 현실화하는 핵심 동력으로 작용하고 있다.데이터 플랫폼 시장은 통합과 전문화라는 이중 트렌드를 동시에 보이고 있다. 스노우플레이크가 클라우드 데이터 웨어하우징 및 BI 분야에서 여전히 강력한 강점을 유지하는 전문화된 길을 걷는 반면, 데이터브릭스는 복잡한 데이터 엔지니어링, AI/ML 워크로드, 그리고 이제는 트랜잭션 데이터까지 포괄하는 통합 플랫폼으로서의 입지를 굳히고 있는데, 이는 기업들이 '단일 통합 플랫폼'을 선호할지, 아니면 '각 분야 최고의 전문 솔루션'을 조합할지에 대한 전략적 고민이 심해 지는 것을 의미한다.데이터브릭스는 전자의 길을 강력하게 추진하며, 특히 AI/ML 워크로드에 대한 통합적 접근을 통해 차별화를 꾀하고 있다. 2025년 발표된 유니티 카탈로그의 거버넌스 확장, 레이크베이스를 통한 OLTP 통합, 지니 AI/BI를 통한 비즈니스 사용자 민주화, 그리고 에이전트 브릭스를 통한 AI 에이전트 개발 간소화는 모두 이러한 통합 비전의 구체적인 구현 사례로서, 데이터와 AI의 융합이 가속화되는 미래 데이터 환경에서 데이터브릭스는 엔터프라이즈 AI의 핵심 인프라 제공자로서 중요한 역할을 수행할 것으로 전망된다. 기업은 자사의 특정 니즈와 워크로드 특성을 면밀히 분석하여, 두 플랫폼 중 어떤 것이 더 적합한지, 혹은 상호 보완적으로 활용될 수 있는지에 대한 심층적인 고려가 필요할 것이다.

대학 교육 기타･데이터브릭스･기술동향

스노우플레이크 서밋 2025 - 클라우드 데이터 산업을 재정의하다.

이 글은 제가 NIA [한국지능정보사회진흥원]의 < 디지털서비스 이슈리포트 > 2025년 6월호에 기고한 글입니다. 원본 글 '2025년 AI 현황 보고서 리뷰'를 이곳 브런치에서도 공유합니다. 이 글은 제가 가진 여러 개의 아이덴티티 중에서 "메가존 클라우드 기술 자문 엔지니어"의 역할에 충실하며 작성한 글입니다.들어가며지난달, 클라우드 데이터 업계의 두 거인 스노우플레이크(Snowflake)와 데이터브릭스(Databricks)는 각각 연례 글로벌 행사를 성공적으로 개최하며 데이터 및 AI 기술의 최신 트렌드와 혁신을 선보였다. 이 두 서비스는 현재 가장 널리 사용되는 데이터 웨어하우징 도구로 자주 비교되곤 한다.’ 본 글에서는 이 중 스노우플레이크와 관련된 내용을 심층적으로 분석할 예정이다.스노우플레이크 서밋 2025는 2025년 6월 2일부터 5일까지 샌프란시스코 모스콘 센터에서 개최한 연례 행사다. 200개 이상의 파트너사와 20,000명 이상의 참석자가 모인 이 행사는 클라우드 데이터 및 AI 분야의 주요 행사로 확고히 자리매김했다. 데이터 리더, 엔지니어, AI 연구원들이 한자리에 모여 데이터, AI, 클라우드 혁신에 대한 통찰력을 공유하고, 응용 사례, 확장 가능 아키텍처, 협업 솔루션 등에 중점을 둔 세션을 제공했다. 특히, 키노트에서 스노우플레이크 CEO 스리다르 라마스와미(Sridhar Ramaswamy)와 오픈AI 샘 알트만의 대담은 이번 서밋이 AI 시대의 데이터 전략에 있어 중대한 전환점임을 시사한다.그림 1 사라 구오(Sarah Guo)가 진행한 대담 스노우플레이크 소개스노우플레이크는 오늘날 기업들이 데이터에서 최대 가치를 찾을 수 있도록 지원하는 클라우드 기반 데이터 플랫폼이다. 이전에는 데이터 관리 및 활용에 있어 다음과 같은 문제들에 직면해 있었다.파편화된 데이터 환경 및 사일로 : 기업 데이터가 온프레미스 데이터베이스, 다양한 클라우드 서비스, 스프레드시트, 문서 등 여러 시스템에 분산되어 있어 통합된 시각을 얻기 어려웠다. 이는 데이터 사일로를 형성하여 비효율적인 의사 결정으로 이어졌다.복잡하고 비효율적인 데이터 파이프라인 : 데이터 수집, 변환, 로딩(ETL) 과정이 수동적이거나 복잡한 스크립트에 의존하여 시간 소모적이고 오류가 많았다. 특히 실시간 데이터 처리가 어려워 즉각적인 통찰을 얻기 힘들었다.기술 분석가 부족 및 데이터 접근성 한계 : 특정 기술 스택에 대한 전문 지식이 없으면 사용자가 직접 데이터에 접근하고 분석하기가 어려웠고, 이는 데이터 분석 전문가에 대한 의존도를 높여 데이터 활용의 민주화를 저해했다.높은 운영 부담 및 비용 비효율성 : 하드웨어 및 인프라를 설치, 구성, 유지보수하는 데 지속적인 관리가 필요했고, 확장이 비효율적이어서 과도한 비용이 발생하거나 성능 병목 현상이 일어났다.데이터 거버넌스 및 보안의 복잡성 : 민감 데이터의 식별, 분류, 접근 제어, 규제 준수 등이 수동으로 파편화되어 이루어지고 있었다.스노우플레이크는 클라우드 기반의 독자적인 아키텍처를 통해 이러한 문제점들을 해결하고 다음과 같은 방법으로 기업에 혁신적인 가치를 제공한다.통합된 데이터 클라우드 : 구조화된 데이터, 반정형 데이터, 비정형 데이터를 모두 지원하며, 거의 모든 데이터 소스에서 데이터를 통합할 수 있다. 이를 통해 기업은 단일 플랫폼에서 모든 데이터를 활용할 수 있다.간소화된 데이터 파이프라인 및 실시간 처리 : 오픈플로우(Openflow)는 데이터 추출 및 로딩 과정을 스노우플레이크 내에서 직접 처리하여 파이프라인 관리를 최소화 한다.데이터 활용의 민주화 : 비기술 사용자들도 코드 작성 없이 기업 데이터를 사용할 수 있게 하고, 접근성을 높여 직원들이 데이터의 잠재력을 최대한 활용할 수 있도록 돕는다.강화된 거버넌스 및 보안 : 민감 데이터를 자동으로 태그하고 라벨을 전파하며, 모델 수준의 역할 기반 접근 제어(RBAC)를 구현하여 AI 모델 접근을 통제한다.운영 효율성 및 비용 최적화 : 스노우플레이크는 완전 관리형 서비스로, 하드웨어 및 소프트웨어 관리 부담을 없애 준다. 리소스 크기 조정 및 공유를 자동화하여 예측 가능한 비용 관리를 가능하게 한다.개방성 및 유연성 : 아파치 아이스버그(Apache Iceberg) 및 포스트그레스(Postgres)와 같은 개방형 표준 및 기술을 통합하여 다양한 클라우드 환경과 도구를 자유롭게 결합할 수 있다.이러한 변화를 통해 스노우플레이크는 데이터 작업을 "더 간단하고, 저렴하며, 안전하게" 만들고 있다.스노우플레이크의 아키텍처는 기존의 공유 디스크(shared-disk) 및 공유 없음(shared-nothing) 데이터베이스 아키텍처의 장점을 결합한 하이브리드 형태이다. 공유 디스크 아키텍처와 유사하게, 스노우플레이크는 플랫폼 내의 모든 컴퓨팅 노드에서 접근 가능한, 영구적인 데이터를 위한 중앙 데이터 저장소를 사용한다. 하지만 공유 없음 아키텍처와 유사하게, 스노우플레이크는 MPP(대규모 병렬 처리) 컴퓨팅 클러스터를 사용하여 쿼리를 처리하며, 이 클러스터의 각 노드는 전체 데이터 세트의 일부를 로컬에 저장한다. 이러한 접근 방식은 공유 디스크 아키텍처의 데이터 관리 단순성을 제공하면서, 동시에 공유 없음 아키텍처의 성능 및 스케일 아웃(scale-out) 이점을 제공한다.그림 2. 스노우플레이크의 구조그림 2에서 볼 수 있듯이 스노우플레이크는 데이터베이스 스토리지, 쿼리 처리기, 클라우드 서비스의 세 계층으로 구성되어 있다. 퍼블릭 클라우드와 온프레미스 환경 모두에서 구동되며, 웹 UI, SQL 명령어, 다양한 프로그래밍 커넥터, 그리고 외부 도구들과 연동된다. 스노우플레이크 서밋 2025 주요 발표이번 스노우플레이크 서밋 2025에서는 혁신적인 신규 서비스와 기능들이 대거 발표되었다. 특히 AI 중심의 데이터 플랫폼 표준 제시, 데이터 거버넌스 및 보안 패러다임 변화 주도, 그리고 데이터 통합 및 상호 운용성의 새로운 지평 개척이라는 세가지 핵심 영역에서 두드러진 진보를 보였다. 각 영역별 주요 내용을 아래에서 자세히 살펴본다. AI 중심의 데이터 플랫폼 표준 제시스노우플레이크는 AI를 데이터 플랫폼의 핵심으로 통합하며 새료운 표준을 제시했다.스노우플레이크 인텔리전스: 비기술 사용자들도 자연어를 통해 기업 데이터와 대화하고 통찰을 얻을 수 있도록 돕는 새로운 자연어 인터페이스다. 앤스로픽이나 오픈AI의 최신 LLM을 스노우플레이크 보안 경계 내에서 활용하며, 내부적으로 코텍스 에이전트(Cortex Agents)를 통해 작업을 계획하고 분석, 검색 등의 보조 도구를 사용해 응답을 생성한다.데이터 사이언스 에이전트: 데이터 과학자를 위한 AI 코파일럿으로, 머신러닝 모델 개발 작업을 자동화하여 생산성을 높인다. 코드 생성, 파이프라인 제안, 실험 가속화 등을 지원하며, 머신러닝 워크플로우를 간소화하고 반복 프로세스를 빠르게 진행하며 작업 시간을 절약한다.그림 3. 스노우플레이크 인텔리전스와 데이터 사이언스 에이전트 데이터 거버넌스 및 보안의 패러다임 변화스노우플레이크는 데이터 거버넌스와 보안 분야에서도 혁신적인 개선을 이뤘다.개선된 호라이존 카탈로그(Horizon Catalog): 민감 데이터를 자동으로 태그하고 라벨을 생성하며, 코파일럿을 통해 “어떤 테이블에 PII(개인식별 정보)가 누락되었나요?” 와 같은 질문에 답변할 수 있도록 지원한다. 이는 수동 태깅의 시간 소모 문제를 해결하고, 태그 누락에 대한 가시성을 제공하며, AI 모델에 대한 일관되지 않은 접근 제어 문제를 해소하여 데이터 보안 및 규제 준수를 강화한다.포맷 유지 암호(FPE): 전화번호, 이메일, 고객 ID와 같이 특정 데이터 형식에 의존하는 시스템에 중요하며, 원래 구조를 변경하지 않고 민감 데이터를 보호하는 방법이다. FPE는 외부 데이터 공유 시 가독성을 유지하고 세분화된 접근 제어를 가능하게 하며, 다중 테넌트 SaaS 환경에서 테넌트 격리를 유지하는 데 도움을 준다.데이터 활동 모니터링: 잠재적으로 높은 위험이 있는 이상 징후를 감지하고 상세한 가시성을 제공한다.불변 스냅샷: 변경 불가능한 시점 복사본을 유지하여 랜섬웨어와 같은 위협에 대한 추가적인 보험 역할을 한다. 데이터 통합 및 상호 운용성의 새로운 지평스노우플레이크는 데이터 통합 및 상호 운용성을 강화하는 데 주력했다.오픈플로우(Openflow): 배치, 스트리밍, 그리고 구조화 및 비정형 데이터를 아우르는 다양한 워크플로우를 한 곳에서 지원하는 통합 프레임워크다. 아파치(Apache) NiFi를 기반으로 구축된 관리형 통합 서비스로, 사실상 모든 데이터 소스에서 모든 대상으로 데이터를 연결하고 이동할 수 있도록 설계되었다. 쉐어포인트, 슬랙, 구글 드라이브 등 여러 멀티모달 데이터 소스에 직접 연결되어 데이터 수집을 간소화하며, 고객은 오픈플로우를 스노우플레이크 관리 인프라 또는 자체 클라우드(BYOC) 내에 배포할 수 있어 운영 부담을 크게 줄일 수 있다. 이는 복잡하게 파편화된 데이터 스택과 수동적인 데이터 수집 작업을 없애 데이터 이동을 간편하게 하고, 궁극적으로 AI 기반 혁신을 신속하게 배포할 수 있도록 돕는다.그림 4. 스노우플레이크 오픈플로우 에코시스템개방형 레이크하우스 아키텍처에 지원 강화: 데이터 통합 및 상호 운용성을 더욱 확대한다. 아파치 아이스버그 통합 및 성능 향상은 VARIANT 지원 및 읽기 시 병합(Merge-on-Read) 기능을 통해 형식 격차를 줄이고 쿼리 속도를 높인다.이를 통해 고객은 고성능 엔진으로 거의 모든 아이스버그 테이블을 활성화하고, 더 많은 데이터에서 더 깊은 통찰을 얻을 수 있다. 이러한 움직임은 고객에게 저장 형식이나 엔진에 대한 '선택의 자유'를 제공하여 각 워크로드에 가장 적합한 도구를 사용할 수 있도록 한다.스노우플레이크 포스트그레스: 크런치 데이터(Crunchy Data) 인수를 통해 선보이는 서비스로 엔터프라이즈급 PostgreSQL을 플랫폼에 통합했다. 분석 워크로드와 트랜잭션 워크로드를 단일 플랫폼에서 처리할 수 있게 함으로써, 기존의 운영 데이터베이스와 분석 웨어하우스 간의 사일로를 허물고 데이터 파이프라인을 간소화한다.스노우플레이크 마켓플레이스 확장: 파트너 생태계의 중요성이 증가하고 있음을 명확히 보여준다. 에이전틱 앱과 코텍스 익스텐션(Cortex Knowledge Extensions)과 같은 사전 구축된 솔루션의 도입은 기업이 모든 워크플로우를 처음부터 개발하는 대신, 검증된 솔루션을 활용하여 AI 이니셔티브를 가속화할 수 있도록 '구축' 대 '구매' 결정을 돕는다. 이는 스노우플레이크 플랫폼 내에서 서드파티 AI 도우미를 직접 설치할 수 있게 함으로써, 데이터 이동 없이도 풍부한 기능과 전문 지식을 활용할 수 있는 환경을 조성한다.그림 5. 스노우플레이크 마켓 화면 맺으며이번 연례 행사를 통해 스노우플레이크는 단순한 클라우드 데이터 웨어하우스를 넘어, AI 시대의 핵심 데이터 플랫폼으로 진화하고 있음을 명확히 보여주었다. 개발자와 기업이 스노우플레이크 위에서 앱을 구축하고, AI를 활용하며, 워크플로우를 실행할 수 있는 완성형 생태계를 지향하며 클라우드 데이터 산업의 판을 주도하려는 야심을 드러냈다.이를 이용하는 고객으로서의 기업은 새로운 기술을 단순히 도입하는 것을 넘어, 강력한 데이터 기반을 구축하는 데 집중해야 한다. 이는 명확한 데이터 모델, 데이터 품질 및 접근성에 대한 명확한 소유권, 그리고 새로운 유연성 속에서 거버넌스를 확장하는 방법을 고민하는 것을 포함한다. AI 에이전트와 같은 새로운 기능은 데이터가 신뢰할 수 있을 때 비로소 진정한 가치를 발휘할 수 있으므로, 기업은 시맨틱 뷰를 통해 핵심 비즈니스 지표에 대한 공유된 의미를 확립하고, 민감 데이터 태그 지정을 활성화하며 , 메타데이터를 통해 AI의 신뢰성을 확보하는 데 투자해야 한다.다음 글에서는 데이터브릭스의 최근 행보와 클라우드 데이터 산업에 미치는 영향에 대해 정리할 예정이다.

대학 교육 기타

2025 구글 I/O와 JAX 업데이트

이 글은 제가 NIA [한국지능정보사회진흥원]의 < 디지털서비스 이슈리포트 > 2025년 5월호에 기고한 글입니다. 원본 글 '2025년 AI 현황 보고서 리뷰'를 이곳 브런치에서도 공유합니다.들어가며매년 5월에 열리는 구글 I/O는 기술 혁신의 최전선을 조망하고, 구글의 미래 비전을 공유하는 자리이다. 2025년 행사 역시 예외는 아니었고, 전 세계 개발자들을 위한 다양한 업데이트가 발표되었다. AI 시대를 맞아 새롭게 선보인 제품과 서비스는 여러 매체에서 폭넓게 다뤄졌지만, 이 글에서는 JAX를 중심으로 AI 개발자들이 특히 주목할 만한 소식들을 정리해 본다.관련 세션으로는 ‘JAX의 실제 적용(JAX in Action)’, ‘케라스 3에서 model.fit(...)으로 JAX 모델 학습하기(Train your JAX models using model.fit(...) in Keras 3)’, ‘JAX로 트랜스포머 만들기(Build a Transformer with JAX)’ 등이 공개되었으며, JAX에 대한 더 자세한 정보는 https://jax.dev/에서 확인할 수 있다.JAX 소개JAX는 구글에서 개발한 고성능 수치 계산 라이브러리로, NumPy 스타일의 코드를 사용하면서도 자동 미분과 하드웨어 가속(GPU/TPU)을 손쉽게 활용할 수 있도록 설계되었다. 머신러닝과 과학 계산 등 고성능 계산이 필요한 분야에서 각광받아 왔으며, 최근 대규모 훈련 등 효율적인 자원 사용이 중요해 지면서 사용이 늘고 있다.JAX 는 "Just After eXecution"의 줄임말로, 함수형 프로그래밍 패러다임을 바탕으로 설계되어 연구자와 개발자들이 복잡한 수치 계산을 효율적으로 수행할 수 있도록 돕는다. JAX의 주요 특징들은 다음과 같다.NumPy와 유사한 인터페이스: 데이터 분석에서 가장 널리 쓰이는 NumPy와 거의 동일한 문법과 기능을 제공한다. 따라서 기존 NumPy 코드에 익숙한 개발자들도 쉽게 JAX로 전환하여 하드웨어 가속의 이점을 누릴 수 있다.자동 미분 (Automatic Differentiation) : 복잡한 함수의 기울기를 자동으로 계산할 수 있다. 순방향과 역방향 자동 미분을 모두 지원하며, 고차 미분도 가능하다. 이는 딥러닝에서 역전파(back propagation) 구현에 필수적이며, 효율적인 최적화를 가능하게 한다.JIT (Just-In-Time) 컴파일: 파이썬 언어의 데코레이터를 사용하여 함수를 XLA(Accelerated Linear Algebra) 컴파일러로 컴파일할 수 있다. 이는 코드 실행 시점에서 최적화된 기계어 코드로 변환하여 연산 속도를 대폭 향상시키고, CPU와 GPU에서 상당한 성능 향상을 얻을 수 있다.벡터화 및 병렬화 : 간단한 함수를 이용해서 스칼라 함수를 벡터 함수로 자동 변환할 수 있다. 이는 배치 처리나 몬테카를로 시뮬레이션 등에서 코드를 간결하게 유지하면서도 높은 성능을 달성하게 해 주며, 병렬 계산을 통해 분산 학습이나 대규모 계산에서도 높은 성능을 가능하게 한다.함수형 프로그래밍 패러다임 : 순수 함수(pure functions)와 불변 배열(immutable arrays) 사용을 권장하는 함수형 프로그래밍 모델을 따른다. 이는 코드의 예측 가능성을 높여 테스트, 디버깅, 병렬화 및 최적화를 용이하게 한다.아래는 구글 코랩에서 엔비디아 T4 칩에 연결해 성능을 비교한 결과로, 간단한 병렬 연산의 경우 1000배 이상의 성능 차이를 볼 수 있다.그림 1. JAX 병렬 연산의 속도 비교그림 2. JIT를 사용한 JAX 병렬 연산의 속도 비교구글이 지원하는 생태계 : JAX 와 케라스(Keras)구글은 개발자들이 다양한 수준과 목적에 맞춰 AI 개발을 할 수 있도록 체계적인 생태계를 구축하고 지원해 왔다. 하드웨어 레이어에서는 자체 제작한 TPU를 포함해 CPU, GPU를 아우르는 광범위한 지원을 제공하며, 그 위에는 JAX, 텐서플로우와 같은 저수준 프레임워크를 지원한다. 특히 JAX는 구글의 TPU와 최적화된 연동을 통해 대규모 연구 프로젝트에서 진가를 발휘한다.고수준 프레임워크로는 사용하기 쉬운 API를 제공하는 케라스가 핵심 역할을 한다. 또한 특정 도메인에 특화된 라이브러리들인 KerasTuner(하이퍼파라미터 튜닝), KerasHub(사전 훈련된 모델), Keras Recommenders(추천 시스템) 등이 개발자들의 구체적인 요구사항을 충족한다. 이러한 계층적 구조는 연구자들이 저수준의 세밀한 제어가 필요할 때는 JAX를 활용하고, 빠른 프로토타이핑이나 프로덕션 배포가 목적일 때는 Keras를 선택할 수 있는 유연성을 제공한다.그림 3. Keras와 JAX를 포함하는 구글이 지원하는 생태계JAX의 저수준 성능 제어 : 이스케이프 해치(Escape Hatch)와 팔라스(Pallas)JAX는 강력한 자동 미분과 JIT 컴파일 기능을 제공하며 대부분의 머신러닝 워크로드에 충분한 성능을 제공한다. 하지만 때로는 극도로 최적화된 성능이 필요하거나, 특정 하드웨어의 저수준 기능을 직접 제어해야 하는 경우가 생기는데, 이를 위해 JAX 는 '이스케이프 해치(Escape Hatch)'를 위한 계층을 지원한다.그림 4. JAX에서 성능과 유연성을 지원하는 이스케이프 해치 계층간단한 함수를 이용하는 것, 그리고 JIT와 XLA를 이용하는 것보다 더 하드웨어에 가까운 계층이 팔라스(Pallas)라는 커널 언어다. 이는 JAX 생태계의 새로운 구성 요소로, GPU와 TPU에서 고성능 커스텀 커널을 작성할 수 있게 해주는 도구다. 기존에는 쿠다(CUDA)나 트리톤(Triton) 같은 저수준 언어를 배워야 했던 커널 프로그래밍을, JAX의 친숙한 문법으로 할 수 있게 만들어 준다.이 팔라스의 핵심 아이디어는 “블록 수준 프로그래밍”이다. 전체 벡터 혹은 텐서를 한 번에 처리하는 대신, 메모리에 맞는 작은 블록들로 나누어 처리함으로써 메모리 계층 구조를 효율적으로 활용할 수 있게 한다. 이는 특히 대규모 행렬 연산이나 트랜스포머의 어텐션 메커니즘 같은 메모리 집약적인 연산에서 큰 성능 향상을 가져올 수 있다. 게다가 GPU의 공유 메모리나 TPU의 벡터 처리 유닛 등을 직접 제어할 수도 있어, 이론적 성능의 한계에 근접한 최적화가 가능하다. 이는 연구자와 개발자들이 하드웨어 성능의 한계를 탐험할 수 있는 새로운 가능성을 열어 주었다.그림 5. 팔라스로 작성한 커스텀 행렬 곱셈 함수 예제 JAX를 활용한 논문 동향2025년 3월 PapersWithCode 집계에 따르면, 최근에 발행된 논문에서 JAX 는 3%-4% 정도의 점유율을 보인다. 주로 대규모 언어 모델을 포함한 복잡한 연구 분야에서 효율적인 활용성을 인정받으며 사용되고 있다. 2021년의 1%대에 머물렀던 것과 비교하면 최근 들어 빠르게 점유율을 높이며 텐서플로우 영역을 대체하는 추세다.그림 6. AI 논문에 인용된 프레임워크 점유율참고로 중국 연구의 약진과 함께 화웨이의 마인드스포어(MindSpore)가 7% 정도의 점유율로 파이토치 다음으로 널리 쓰이고 있다.맺으며AI 기술의 발전 속도가 더욱 빨라지는 이 시대에, JAX는 고성능 컴퓨팅의 한계를 뛰어넘어 혁신적인 AI 모델을 구현하는 데 필수적인 도구로 자리매김하고 있다. 파이토치의 강력한 경쟁 프레임워크로서 JAX가 제시하는 유연하고 강력한 생태계는 앞으로도 수많은 AI 연구와 실제 애플리케이션에서 핵심적인 역할을 할 것이다.

대학 교육 기타

클라우드 기반 스마트팩토리 - 이슈들

이 글은 제가 NIA [한국지능정보사회진흥원]의 < 디지털서비스 이슈리포트 > 2025년 3월호에 기고한 글입니다. 원본 글 '2025년 AI 현황 보고서 리뷰'를 이곳 브런치에서도 공유합니다.들어가며지난 두 편의 클라우드 기반 스마트팩토리에 대한 소개에 이어 이번 회에서는 현장에서 실제로 부딪히는 문제들을 정보통신의 관점에서 몇몇 사례를 들어 이야기 해 보겠다. 아래 내용들은 필자가 함께 하는 인이지를 비롯한 여러 회사들이 제조 공정 관련한 과제들을 수행하면서 만난 문제들과 이들을 해결하려는 방법들에 대한 내용들이다. 제조 산업에서도 스마트팩토리라는 키워드를 중심으로 여러 혁신의 노력들이 모이고 있고, 클라우드를 이용한 기술은 효율성과 유연성을 극대화하는 데 중요한 역할을 하며, 정보통신 업계에서의 노하우들을 다양하게 적용하면서 그 영향력을 넓혀 가고 있다. 특히 클라우드를 이용한 방법을 통해서는 다음과 같은 이득을 기대할 수 있다. 데이터 기반 의사 결정 유연성과 확장성 비용 효율성 디지털 전환(DX)의 가속화 이는 일반적으로 쓰이는 의미의 IT 시스템 도입과 이전으로 인한 이득과 같은 맥락이지만, 스마트팩토리는 현장의 물리적인 변화와 공정의 특성들을 고려할 때 단순한 IT 시스템 이전과는 다른 추가적인 복잡한 문제들이 발생한다. 물리적 한계와 엔트로피 문제 실시간 운영과 신뢰성 문제 데이터 관리의 어려움 디지털 전환과 문제 해결 가능성 이번 회에서는 이 추가적인 내용들에 대해 조금 더 구체적으로 살펴보겠다. 물리적 한계와 엔트로피 문제기존의 데이터센터 중심의 IT 환경과는 달리, 스마트팩토리는 물리적 환경과 밀접하게 연결되어 있으며, 다양한 기계적 요소와 데이터가 실시간으로 상호작용하는데, 이는 예상치 못한 물리적 한계와 엔트로피 문제를 야기할 수 있다.스마트팩토리는 제조 현장의 특성 상 생산 라인의 변화, 기계 설비의 교체, 센서 추가 등 물리적 변화가 빈번하게 발생한다. 이러한 변화는 데이터 흐름과 시스템 아키텍처에 직접적인 영향을 미치며, 클라우드 환경과의 통합을 복잡하게 만든다. 예를 들어, 새로운 센서를 추가할 때마다 데이터 수집 및 처리 시스템을 재설정해야 하고, 생산 라인 변경 시 데이터 분석 모델을 수정해야 하는 등. 이러한 물리적 변화에 유연하게 대응하지 못하면 시스템의 효율성이 저하되고 운영 비용이 증가할 수 있다.또한 스마트팩토리는 다양한 기계와 센서, IT 시스템이 복잡하게 연결된 시스템이다. 전선으로 연결되어 빛의 속도로 연결되는 환경이 아니라 어느 곳에서 어떤 연료를 투입하면, 몇미터 떨어진 곳의 온도가 몇 분 후에 어떻게 변하는 등의 주변의 상황들이 통제되지 않는 상황이 생기고, 대기의 온도, 습도 등에 따라 예기치 않은 변화들이 생기기도 한다. 시간이 지남에 따라 장치가 마모되거나 유지보수의 부담이 늘어나는 등 열역학 제2법칙인 엔트로피 증가의 법칙과 유사한 현상이 일어나게 되는데, 이로 인해 시스템의 안정성이 저하되고 오류 발생 가능성이 높아지며, 이는 생산 효율성 저하와 직결된다.실제로 디지털 전환을 도입하려는 많은 제조 현장의 경우 온도와 습도 등의 환경이 많은 영향을 미치기 때문에, 온프레미스 시스템을 구성하기 위해서도 오차 없이 사용 가능한 장비들의 사용이 필요하고, 여기에 특히 클라우드 환경을 도입할 경우, 온프레미스 시스템과의 연동, 데이터 동기화, 네트워크 안정성 등 추가적인 유지보수 요소가 발생하는데, 클라우드 도입의 이점을 제대로 누리기 위해 이들로 인한 복잡성을 효과적으로 관리해야 한다. 이후 데이터가 모여서 분석을 하는 경우, 도면이나 공정 같은 현장의 지식이 없이 센서 데이터만으로는 분석의 한계가 생긴다. 시멘트나 철강 등의 공정을 생각한다면 물리적으로 수십 미터 떨어져 있는 데이터들이며, 센서들 사이에 어떤 간섭이 있는지, 바람은 잘 통하는지, 하루에 몇 번씩 청소를 하는지 등의 내용들이 고려되어야 현장의 문제에 접근할 수 있게 된다. 마찬가지로 용해로 시계열 온도 예측 같은 경우, 900도 온도를 맞추기 위해서 850도인 현재 상황에서 용해물질에 어떤 재료를 얼마만큼 넣으면 몇 분 후에 온도가 올라가는지 등 데이터로 모아 놓기에 어려움이 많고, 산업공학, 기계공학, 화학공학 등의 정보들이 도메인 지식들을 익힌 후에 더 나은 분석을 할 수 있는 경우가 많다. 실시간 운영과 신뢰성 문제스마트팩토리는 고도의 자동화와 데이터 기반 운영을 통해 생산성을 극대화하는 것을 목표로 하는데, 이러한 목표를 달성하기 위해서는 실시간 운영과 시스템의 높은 신뢰성이 필수적이다. 하지만 스마트팩토리 환경은 다양한 변수와 복잡성으로 인해 실시간 운영과 신뢰성을 확보하는 데 어려움을 겪을 수 있다.스마트팩토리는 24시간, 365일 가동되는 경우가 많은데, 이는 생산 효율성을 극대화하고 시장 수요에 신속하게 대응하기 위한 필수적인 조건이다. 따라서 예기치 않은 시스템 다운타임은 생산 차질, 납기 지연, 고객 신뢰도 하락 등 심각한 문제를 야기할 수 있다. 특히, 실시간 데이터 처리와 제어가 중요한 생산 라인에서는 단 몇 분의 다운타임도 재가동하는 비용을 포함한 큰 손실로 이어질 수 있다. 따라서 스마트팩토리는 시스템의 안정성을 최우선으로 고려해야 하며, 다운타임 발생 시 신속하게 복구할 수 있는 체계를 구축해야 한다. 예를 들면 용해로 재시작 재가동 등의 일들은 일반 컴퓨터 재부팅보다 훨씬 더 준비해야 할 게 많으므로 이런 점이 고려가 되어야 한다. 또한 시스템의 신뢰성을 높이기 위해서는 이중화 시스템 구축이 필수적이고, 환경에 따라서 데이터 백업, 네트워크 이중화, 서버 이중화 등 다양한 방법을 통해 시스템 장애에 대비해야 한다. 자원들이 유기적으로 연결되어 있는 클라우드 환경에서는 상대적으로 이중화 혹은 다중화 지원이 용이하지만, 온프레미스 환경에서는 이를 지원하기 위해 네트워크 장비나 실제 서버들의 추가적인 설치와 운영이 필요하다. 온프레미스에 저장되어 있는 데이터를 클라우드에 저장하고 운영하는 것은 추가적인 네트워크 연결을 도입하는 것이기에 이로 인한 위험도 있게 되므로, 실시간 데이터 처리 및 중요 데이터는 온프레미스에 저장하고, 분석 및 장기 데이터는 클라우드에 저장하는 하이브리드 모델을 많이 고려한다. 이러한 하이브리드 모델은 데이터 처리 속도와 안정성을 동시에 확보할 수 있으며, 엣지 컴퓨팅을 활용하여 실시간성이 요구되는 데이터의 경우 추가적인 데이터 이동을 절약함으로써 현장에서 필요한 데이터 처리 속도를 향상시킬 수 있다. 그림 1. 고가용 시스템 네트워크 구조 예제스마트팩토리는 수많은 스마트 센서를 통해 데이터를 수집하고 분석하는데, 클라우드 기반 스마트 센서는 네트워크 연결이 필수적이므로, 안정적인 네트워크 환경을 구축해야 한다. 주변의 환경에 영향을 받기에 유무선 네트워크 장애는 센서 데이터 수집 및 전송에 문제를 일으킬 수 있고, 스마트 센서는 민감한 생산 데이터를 수집하므로, 데이터 보안을 강화해야 한다. 각각의 센서 혹은 시스템이 노출되는 형태이므로 데이터 암호화, 접근 제어, 보안 프로토콜 적용 등을 통해 데이터 유출 및 해킹을 방지해야 하고, 마지막으로 수많은 스마트 센서를 효율적으로 관리하고 유지보수해야 하는데, 원격 관리, 자동 업데이트, 센서 상태 모니터링 시스템 등을 통해 센서 관리 효율성을 높여야 한다. 데이터 관리의 어려움: 저장과 조회의 균형스마트팩토리는 생산 과정에서 발생하는 방대한 양의 데이터를 효율적으로 관리하는 것이 핵심이다. 현장에서 일어나는 모든 데이터가 관리 대상이기에 데이터의 양이 기하급수적으로 증가함에 따라 저장과 조회에 대한 어려움이 발생하고, 효율적인 데이터 관리 전략이 필수적이다.스마트팩토리에서 생성되는 데이터는 실시간 데이터와 장기 분석용 데이터로 나눌 수 있다. 실시간 데이터는 생산 라인 제어, 품질 검사 등 즉각적인 응답이 필요한 데이터이며, 온프레미스에 저장하는 것이 유리한 반면, 장기 분석용 데이터는 생산 공정 최적화, 설비 예지 보전 등에 활용되며, 클라우드 스토리지를 활용하는 것이 좋다. 클라우드는 이 확장성에 대해 확실한 강점이 있어, 이후 효율적으로 저장하고 처리할 수 있다. 전사적 자원관리(ERP: Enterprise Resource Planning)의 내용과 같이 현장 바깥의 정보들과 같이 사용하는 경우 훨씬 유용하게 쓰일 수 있다.스마트팩토리에서 생성되는 데이터는 많게는 초당 수백, 수천 건의 고화질 대용량 데이터들이 이용되기도 하는데, 이를 다루기 위해서 데이터 처리 성능이 중요하다. 데이터를 모으는 시스템과 읽는 시스템이 자원을 공유하기에 그 사이에서 오는 문제가 생기기도 한다. 실제 조회가 필요할 경우 제대로 운영하기 위해 알맞은 데이터베이스를 선택하고, 인덱스 설정, 쿼리 최적화 등을 통해 대응해야 하는데, 데이터를 이동시키는 데 드는 자원이 원래 시스템을 운영하는 데 방해가 되지 않아야 하고, 본래 시스템이 주어진 역할에 지장이 없도록 운영해야 한다.데이터 양이 증가함에 따라 저장 비용이 기하급수적으로 증가할 수 있다. 예를 들어 이미지를 통한 불량 탐지의 경우 불량률이 적어질 수록 중복된 정상 이미지들이 불필요하게 쌓이는 상황이 생기기도 하고, 모든 것들을 저장해야 한다고 하면 데이터 백업 등에도 추가적인 노력과 비용을 들여야 한다. 대용량 데이터를 실시간으로 처리하는 것은 클라우드 환경에서도 기술적으로 어려운데, 온프레미스에서도 분산 처리 시스템, 인메모리 데이터베이스, 엣지 컴퓨팅 등 다양한 방법들을 도입해야 한다.이처럼 스마트팩토리의 데이터 관리는 저장 위치 결정, 읽기/쓰기 성능 최적화, 저장 비용 및 처리 성능 한계 극복 등 다양한 어려움을 내포하는데, 이러한 문제를 해결하기 위해 먼저 현장을 이해한 후에 데이터의 특성과 사용 목적에 맞는 데이터 관리 전략을 수립하고, 최신 기술을 적극적으로 활용해야 한다. 디지털 전환과 문제 해결 가능성디지털 전환은 스마트팩토리의 생산성과 효율성을 향상시키기 위한 핵심 전략으로, 클라우드는 디지털 전환의 중요한 요소로 작용하며, 데이터를 중앙에서 실시간으로 분석할 수 있도록 지원한다. 이를 통해 공정 최적화와 이상 탐지가 가능하며, 공장 운영의 자동화를 가속화할 수 있다. 다양한 장점에도 불구하고, 현장의 문제를 풀어 낼 수 있는가 라는 문제에 많은 고민들이 있다.온도를 재는 아날로그 센서의 경우 고온고압의 환경을 센서가 버티지 못하는 경우도 있고, 최근의 화두인 탄소 수치의 경우 가상의 새로운 장치들이 필요하다. 제품의 완성도는 화면으로 100% 잡히지 않는 경우도 많고, 농도는 샘플링에 의존할 수밖에 없고, 물성은 완제품으로부터만 얻을 수 있는 경우가 대부분이다. 각각의 사례들이 데이터로 디지털화 되었다고 해도 세상의 물리와 화학은 이진 수학으로 떨어지지 않는 부분도 많고, 통계와 예측은 신뢰구간과의 끊임없는 싸움이다.앞의 여러 이슈들을 겪은 후 데이터가 모인 후에는, 실제 문제를 정의하고 풀어 나가는 마지막 단계에 오게 되고, 이 경우 인력 문제로 귀결이 된다. 이미 제조 현장은 소수의 인원이 오랜 세월의 노하우로 운영을 하고 있고, 그 문제를 데이터로 풀려 하는 인력들과 거리가 있어 많은 현장에서 디지털 전환을 했음에도 실질적인 이득을 얻기 힘들다는 현실과 닿아 있다. 이 거리가 좁혀진 후에는 시계열 예측 혹은 설명 가능 인공지능 등이 추가적인 가치를 창출해 낼 수 있겠으며, 필자가 속한 인이지를 비롯해 많은 인공지능 관련 업체들이 기존의 제조산업 업체들과 문제를 정의하고 풀어 나가고 있다.그림 2. 인이지의 산업용 공정 효율 최적화 솔루션 예제 맺으며클라우드 기반 스마트팩토리는 분명 제조업의 혁신을 가속화하고 생산성을 극대화할 수 있는 강력한 도구이지만, 앞서 살펴본 바와 같이, 물리적 한계, 실시간 운영의 신뢰성, 데이터 관리의 어려움 등 해결해야 할 과제들이 산적해 있다. 이러한 문제들을 극복하기 위해서는 단순히 기술을 도입하는 것을 넘어, 현장의 특성을 깊이 이해하고, 데이터 기반의 의사 결정을 통해 지속적인 개선을 추구하는 노력이 필요하다.또한, 스마트팩토리를 포함한 디지털 전환은 기술적인 변화뿐만 아니라, 조직 문화와 인력의 변화를 수반한다. 현장의 경험과 지식을 데이터 분석 및 활용 능력과 결합하여 시너지를 창출하는 것이 중요하겠으며, 클라우드 기반 스마트팩토리가 진정한 가치를 발휘하기 위해서는 기술, 사람, 그리고 조직의 조화로운 발전이 필수적이라 하겠고, 이 요소들이 다 고려되었을 때 비로소 디지털 전환이 되었다 할 수 있겠다.

대학 교육 기타

클라우드 기반 스마트팩토리 - 용어들

이 글은 제가 NIA [한국지능정보사회진흥원]의 < 디지털서비스 이슈리포트 > 2025년 2월호에 기고한 글입니다. 원본 글 '2025년 AI 현황 보고서 리뷰'를 이곳 브런치에서도 공유합니다.들어가며지난 회에 이어, 이번 회에는 스마트팩토리를 정보통신의 관점에서 접근하는 과정에서 맞이하게 되는 여러 용어들에 대해 정리해 보겠다. 대부분 필자가 과제들을 접하면서 처음 접한 용어들이고, 모든 것들을 다루지는 못하겠지만, 각각 다양한 역사와 의미들이 있어 정리한다. 정보통신 영역에서 인터넷 서비스들 혹은 플랫폼 산업들에서 경험이 있는 분들께서 스마트팩토리 관련 프로젝트들을 접할 때 간략한 도움이 되면 하는 바램이다.전통적 의미의 제조, 공장 영역은 정보통신이 보급되기 훨씬 전부터 다양한 노력들이 있어 왔었고, 최근까지도 디지털 변환(digital transformation)이라는 화두 아래에 여러 가지 시도들이 있어 왔다. 몇몇 용어는 30년전에 이미 쓰고 있던 것들도 있고, 최신 경향에 맞는 새로운 용어들도 섞여 쓰이고 있다. 마치 TCP/IP가 1970년대에 만들어진 TCP/IP, 1989년에 만들어진 HTTP가 아직도 쓰이지만, 각종 API 들은 2000년에 만들어진 JSON 방식으로 소통되고, 2006년에 소개된 아마존의 EC2를 기본으로 각종 클라우드 서비스가 운영되고 있는 것과 닮아 있다 하겠다. 통합 관리 시스템제조 혹은 공정은 공장 현장을 포함한 회사 전체에서 진행되는 프로젝트의 일부로 간주가 되게 되며, 실제 운영을 하는 것을 기준으로 이전, 이후에 여러 가지 종류의 시스템이 도입해 사용하고 있다. 이는 ANSI/ISA-95 에서 표준으로 정리하고 있으며, 아래 그림 1과 같은 형태로 관련 사항을 설명할 수 있다. 자동화 피라미드(Automation Pyramid) 라고 부른다.그림 1. 자동화 피라미드 전사적 자원 관리(ERP, Enterprise Resource Planning)ERP 시스템은 기업이 인사, 회계, 생산, 물류, 재고 관리 등 다양한 비즈니스 프로세스를 하나의 통합된 시스템에서 관리할 수 있도록 도와주는 소프트웨어 솔루션을 이야기한다. 이는 기업 내 여러 부서에서 생성되는 데이터를 중앙에서 통합하여 실시간으로 공유할 수 있게 하며, 이를 통해 업무 효율성을 높이고 의사 결정 과정을 개선할 수 있다. 또한, 수작업을 줄이고 프로세스를 자동화하여 운영 비용을 절감할 수 있으며, 기업의 성장과 확장에도 유연하게 대응할 수 있도록 지원하고, 이들이 스마트팩토리 시스템에서 참조하는 중요한 데이터에 해당한다. 대표적인 ERP 솔루션으로는 SAP, 오라클 ERP, 마이크로소프트 다이나믹스 등이 있으며, 기업의 규모와 필요에 따라 맞춤형으로 도입하여 사용한다. 제품 수명 주기 관리(PLM, Product Lifecycle Management)PLM은 제품의 아이디어 단계부터 설계, 개발, 생산, 유통, 유지보수, 폐기에 이르기까지 전 과정의 데이터를 체계적으로 관리하는 시스템을 이야기한다. 이는 제품 관련 정보를 중앙에서 통합 관리하여 개발 시간 단축, 비용 절감, 품질 향상, 규제 준수 등을 지원하고, 협업을 강화하여 효율적인 제품 개발을 가능하게 하며. 제품과 관련된 모든 정보를 중앙 집중화하여 관리함으로 효율을 높이는 것을 목표로 한다. 특히, CAD(컴퓨터 지원 설계), PDM(제품 데이터 관리) 등의 기술과 연계하여 설계 변경 사항을 추적하고 제품의 이력을 체계적으로 관리할 수 있어, 제조업, 자동차, 항공, 전자 산업 등에서 널리 활용된다. 제조 실행 시스템(MES, Manufacturing Execution System)MES는 생산 현장에서 발생하는 모든 활동을 실시간으로 관리하고 제어하는 시스템을 이야기한다. 구체적으로, 작업 일정 관리, 작업 지시, 품질 관리, 생산 실적 집계, 설비 관리 등 다양한 기능을 수행하여 생산 효율성을 극대화하는 것을 목표로 하며 아래의 특징과 목표를 가진다. 실시간 데이터 수집 및 분석: 생산 현장의 데이터를 실시간으로 수집하고 분석하여 문제 발생 시 즉각적인 대응을 가능하게 한다. 작업 지시 및 관리: 작업자에게 필요한 정보를 제공하고 작업 진행 상황을 추적하여 생산성을 향상시킨다. 품질 관리 강화: 생산 과정에서 발생하는 품질 관련 데이터를 수집하고 분석하여 불량률을 감소시키고 제품 품질을 향상시킨다. 생산 효율성 향상: 생산 설비의 가동률을 높이고 생산 시간을 단축하여 생산 효율성을 극대화한다. 추적 및 이력 관리: 생산 과정에서 발생하는 모든 데이터를 기록하고 추적하여 문제 발생 시 원인 분석 및 재발 방지에 활용한다. 앞의 ERP 등과 연계되어 수행이 되고, 대개 정보통신 관점에서 스마트팩토리를 접할 때 제일 먼저 만나는 용어이기도 하다. 생산 감시 제어 및 데이터 수집 시스템(SCADA, Supervisory Control and Data Acquisition)SCADA는 산업 환경에서 다양한 장비와 시스템을 모니터링하고 제어하는 데 사용되는 소프트웨어 및 하드웨어 시스템을 이야기한다. 이는 주로 대규모 생산 공정, 전력망, 수처리 시설 등에서 실시간 데이터를 수집하고, 이를 통해 장비의 상태, 생산 과정, 환경 조건 등을 감시하는데, 원격으로 모니터링하며 시스템을 제어하고, 이상 징후를 감지하며, 경고 및 알림을 제공하여 운영자가 신속하게 대응할 수 있도록 한다. 또한, 이 과정에서 수집된 데이터들은 이후 분석하여 성능을 최적화하고, 장비 고장을 예방하며, 생산 효율성을 향상시킬 수 있는 곳에 이용한다. SCADA는 넓은 지역에 분산된 시스템을 사용하기 위해 만들어진 시스템으로 PLC(Programmable Logic Controller), RTU(Remote Terminal Unit) 등의 장비와 연결되어 실시간 데이터 흐름을 관리하며, 산업 자동화와 운영의 핵심 역할을 수행한다. 공급망 관리(SCM, Supply Chain Management) / 창고 관리 시스템(WMS, Warehouse Management System)SCM은 원자재의 조달, 생산, 유통, 소비자에게 제품을 전달하는 전반적인 공급망 과정을 관리하는 시스템으로, 이 시스템의 목표는 공급망의 각 단계를 최적화하고, 원활한 흐름을 유지하여 비용을 절감하고 서비스 품질을 향상시키는 것으로, 이를 위해 생산 계획, 재고 관리, 물류 등 다양한 활동을 계획하고 조정한다.반면, WMS는 창고 내에서의 물류 흐름을 최적화하고 관리하는 시스템으로, 제품의 입고, 보관, 출고, 재고 상태 등을 실시간으로 추적하고 제어한다. WMS는 창고 공간의 효율적 사용과 정확한 재고 관리를 지원하며, 제품의 이동 경로와 상태를 실시간으로 파악하여 작업 효율성을 높인다.SCM과 WMS는 서로 밀접하게 연관되어 있으며, 함께 작동하여 전체 물류와 공급망 효율성을 극대화하는 데 중요한 역할을 한다. SCM이 공급망의 큰 그림을 관리한다면, WMS는 창고 내에서 물류 활동이 원활하게 이루어지도록 세부적으로 관리한다. SCM을 통해 물류 경로와 공급 계획이 최적화되면, WMS는 창고에서의 입출고 및 재고 관리를 개선하여 실시간으로 정확한 데이터를 제공하고, 이 데이터를 기반으로 SCM 시스템이 보다 효과적으로 공급망을 조정할 수 있도록 한다. 이를 통해 기업은 전체 물류 비용을 절감하고, 서비스 품질을 높이며, 재고를 효율적으로 관리할 수 있다. 산업용 통신 프로토콜산업용 통신 프로토콜을 이용해서는 크게 데이터 수집, 데이터 교환, 장치 제어 등을 수행할 수 있고, 네트워크 연결 상태, 각각 장치들의 지원 여부, 혹은 현장의 디지털 변환 상태 따라 다양한 상태가 지원된다. 오랜 시간을 거치며 표준을 만들어 연결하려는 노력을 많이들 해 왔지만, 여전히 다양한 솔루션들이 오랜 역사들과 함께 이용되고 있다. 모드버스(Modbus)모드버스(Modbus)는 1979년 모디콘(Modicon, 현재 슈나이더 일렉트릭)에서 개발한 직렬 통신 프로토콜로, 산업 자동화 분야에서 널리 사용된다. 간단한 구조와 쉬운 구현, 낮은 비용으로 인해 다양한 산업용 장치 간의 통신에 활용되며, 특히 PLC(Programmable Logic Controller)와 함께 사용하기 위해 개발했다. 특정 PLC를 제어하기 위해 특정 레지스터에 특정 값을 쓰는 형태로 대개 처음 접하게 된다.모드버스는 마스터-슬레이브(Master-Slave) 방식으로 작동하며, 마스터 장치가 슬레이브 장치에 요청을 보내고 슬레이브 장치가 응답하는 형태로 통신한다. 다양한 버전이 존재하며, 대표적으로 직렬 통신 기반의 모드버스 RTU/ASCII와 이더넷 기반의 모드버스 TCP/IP가 있다. 개방형 프로토콜이며 로열티가 없어 산업 환경에서 폭넓게 사용된다.아래 그림 2. 는 같은 기능을 다른 프로토콜로 구현한 예제로, “주소 2번 PLC의 00033번부터 12개의 코일을 읽어오고, 00040번과 00042번 코일은 '활성화', 나머지는 '비활성화' 상태로 응답받음”이 풀어져 있다. 그림 2. 모드버스 프로토콜 예제 필드버스(Fieldbus)필드버스는 산업 자동화 시스템에서 장치들 간의 데이터 통신을 위한 디지털 네트워크 프로토콜이다. 전통적인 아날로그 방식의 연결 대신, 필드버스는 디지털 통신을 사용하여 센서, 액추에이터, 제어 장치 등 다양한 장치들을 네트워크로 연결하는데, 이를 통해 실시간 데이터 전송과 제어가 가능하며, 복잡한 배선 작업을 줄여 효율적인 시스템 구성이 가능하다. 주로 메타 프로토콜로 접하게 되고, 실제로는 각기 다른 산업 환경에 맞춰 설계된 프로피버스(PROFIBUS), 디바이스넷(DeviceNet), 파운데이션 필드버스(Foundation Fieldbus)등을 사용하게 된다. 아래 그림 3에서처럼 다양한 프로토콜이 있으며, 고속의 데이터 전송, 높은 신뢰성, 확장성 등을 제공하여 자동화 시스템의 성능을 향상시키는 데 중요한 역할을 한다. 그림 3. 다양한 필드버스 프로토콜들 파워링크(Powerlink)파워링크는 고속 이더넷 기반의 실시간 통신 프로토콜이다. 주로 이더넷 파워링크(Ethernet Powerlink)라고 부르며, 장비 간의 실시간 데이터 통신을 지원하는 데 초점을 맞춘 프로토콜이다. 데이터 전송 지연을 최소화하고, 높은 우선순위의 데이터를 실시간으로 처리할 수 있는 기능을 제공하며, 이를 통해 PLC, 센서, 액추에이터 등 다양한 장치들이 서로 실시간으로 데이터를 교환하고, 분산 제어 시스템을 구성할 수 있다. 기존 이더넷 기술을 활용하면서도 실시간 처리와 고속 통신을 지원하는 점에서 유용하다. OPC(Open Platform Communications)OPC는 산업 자동화 분야에서 다양한 장치와 소프트웨어 간의 데이터 교환을 표준화하기 위한 기술로 주로 SCADA 시스템, PLC, DCS(분산 제어 시스템, Distributed Control System)와 같은 다양한 제어 시스템 간에 데이터를 교환하는 데 사용된다. 마이크로소프트의 OLE(Object Linking and Embedding) 기술을 기반으로 하여, 제조업체들이 서로 다른 하드웨어 및 소프트웨어 환경에서 호환되는 시스템을 구축할 수 있도록 지원한다. 현장에 이미 설치되어 있는 컴퓨터들이 윈도우즈로 되어 있을 경우 만날 확률이 많이 높아진다. OPC는 크게 OPC 클래식(Classic)과 OPC UA(Unified Architecture)로 나뉘는데, OPC 클래식은 주로 윈도우즈 환경에서 COM/DCOM 기술을 기반으로 작동하며, OPC UA는 플랫폼 독립적인 서비스 지향 아키텍처로 더 높은 보안성과 확장성을 제공한다. 연관된 다양한 오픈소스들을 접할 수 있고, 최근의 스마트 팩토리 및 산업용 IoT 환경에서 핵심적인 역할을 하고 있으며, 다양한 산업 분야에서 데이터 통합 및 상호 운용성을 향상시키는 데 기여하고 있다.MQTT(Message Queuing Telemetry Transport)MQTT는 주로 사물 인터넷(IoT) 환경에서 사용되는 경량 메시징 프로토콜이고, 자원이 제한적인 환경, 예를 들어 대역폭이 좁거나 전력 소비를 최소화해야 하는 상황에서 효율적으로 작동하도록 설계되어 있다. 데이터를 전송하는 목적을 가진 센서들을 고려한 가장 널리 쓰이는 프로토콜이다.MQTT는 발행/구독 모델을 사용하여 데이터를 주고 받는다. 발행자(publisher)가 특정 주제(topic)에 메시지를 게시하면, 구독자(subscriber)가 해당 주제를 구독하여 메시지를 수신하는 형식으로, 각종 클라우드용 솔루션들이 적극적으로 구현하고 있고, 이른 이용해서 다수의 장치가 효율적으로 통신할 수 있도록 하며, 낮은 전력 소비와 높은 신뢰성을 특징으로 한다. 따라서 IoT 센서 데이터 수집, 원격 제어, 스마트 홈 등 다양한 분야에서 널리 사용되고 있고, 최근에 각종 스마트센서들에서 이용하는 프로토콜이기도 하다.아래 그림 4는 두 개의 클라이언트가 브로커를 통해 각자 필요한 메시지를 구독하고 발행하는 예제를 나타낸다. 주요 클라우드 서비스들은 안정적으로 메시지 중계 서비스를 가지고 있고, 이를 이용해서 데이터를 흐르게 할 수 있다. 그림 4. MQTT 데이터 흐름 예제 맺으며클라우드 환경에 새로이 처음부터 구현한다고 하면 최신 프로토콜들과 시스템을 쓰면 수월하겠지만, 현업에서는 대개 기존의 것들이 운영되고 있는 사유들이 있고, 대개 보수적인 시각으로 점진적으로 도입 등이 이루어지게 된다. 다음 호에서는 실전에서 맞닥뜨리는 문제들을 사례들과 함께 이야기 나누어 보도록 하겠다.

대학 교육 기타

AI에게 물어 보기 - 빅터 웸반야마 다쳤어 ?

열심히까지는 아니라도 종종 하이라이트 위주로 NBA 를 즐겨 보는데, 작년부터 응원하던 어린 선수 하나가 올스타 시즌 이후 안 보이길래 궁금했다. Victor Wembanyama 라는 선수이고, 물론 하이라이트 위주이지만, 이전에 못보던 신기한 농구를 보여 줘서 응원하면서 보긴 했는데.. AI 들에게 무슨 일 있었나 물어봄. "빅터 웸반야마 다쳤어?" 오늘의 채점 포인트. - Bing 검색 대신 Bing copilot.- 미국 뉴스를 한글로 물어 본 것임.- 한글로도 그렇지만 영어 이름이 스펠링이 만만치 않음. 그래서 영어로도 제대로 못 물어 보고 nickname 으로 물어 봄. "is victor wemby hurt?"- 일단 기대는 단답형 yes / no , 궁금한 건 어떤 병 ? 언제까지 농구 팀은 ? - 결과 페이지에 reference 들이 요즘 뉴스들이 잘 올라오는지.- 모두 무료 플랜 사용 중. - 부록으로는 어제 모바일에서 볼 때랑 다르네..? 요약 먼저 copilot = Clova > Liner > Perplexity > google > Gemini > Chatgpt > Naver > wrtn = Claude영어로 물어보면 답을 더 잘들 해 준다. authority 있는 한글 문서들이 잡히면 좋겠다. copilot ( 10/10 )예상치 못한 깔끔한 답.유튜브나 블로그가 아닌 뉴스 링크들이 참조된 점도 인정.영어도 군더더기 없음.참고로 'unfortunately' 한 마디 들어가 있어서 훨씬 부드러운 느낌. 이건 위 한글 답변도 마찬가지. '부상은 아니지만' 이라는 문구는 따뜻함이 느껴짐.. Clova ( 10 / 10 )깔끔한 답변. 오늘의 공동 1등참고로 아래는 하루 전 결과. 어제 이 글을 썼으면 최하위 ( 0/10 ). 다른 사람을 지칭하는 치명적 오류. 하루만에 달라지다니 개선인지 어딘가가 튄 건지... 아직 사용자 입장에서 마음 놓고 쓰기에 아슬아슬함. Liner ( 9.5 / 10 )reference 들 잘 모았음.굳이 묻지 않은 병에 대해 너무 가르치려 들어서 약간의 감점. 영어로는 팀 임팩트가 그래도 위에 나옴. Perplexity ( 9 / 10 )정답들을 잘 보여 주지만, 모든 링크들이 다 뉴스는 아님. 사족들..이미지들은 전부 irrelevant 한 것임. 자리만 잡아 먹는 eye-catching 이 과함. 그래도 정답 위주의 설명이라 감점은 조금만.한글 질문에 "?"를 붙인 거 같은데, 여기서는 빠져 있음. 옥의 티. 이건 감점 안 함.영어 질문에는 영어 문서들을 찾아서 한글로 번역해서 보여줌. 구글 다닐 때 제대로 구현하고 싶었던 CLIR 의 절반이 여기서 되는 듯. 역시 LLM. Google( 7.5/10 )한글은 그럭저럭.. 쭈욱 훑어 보니 그런가 싶은 정도.유튜브가 없으면 어쩔 뻔 했으며, 일단 저건 믿어도 되나 ? 싶음.영어는 조금 더 나음. 불필요한 내용 없고, 뉴욕 타임즈가 올라왔으니 인정. Gemini ( 7 / 10 )한글로 물어 보니 모른다고 함영어로 물어 본 건 완변한 정답.ChatGPT ( 6 / 10 )한글 결과는 잘못된 뉴스. 모른다고 하는 것보다 더 나쁨.출처는 클릭도 안 됨. 그런데, 영어는 모범 답안. Naver ( 5/10 )네이버 블로그에서 적당히 추출. 두번째 글 하나만 연관 있어 차분히 둘러 보면 그런갑다 정도..? 굳이 영어로 해 보진 않음. claude ( 2/10 )모른다고 깔끔한 사과. 2024년 10월까지로 제한 있음. 영어라고 다르지 않음. wrtn ( 2/10 )깔끔하게 모른다고 하면서 참고 자료들 엉망으로 붙어 있음. 지면 광고인가 ? 화면의 절반 이상이 불필요한 것으로 차 있지만, 추가 감점을 하진 않았음. 영어도 마찬가지. 질문을 알아듣기는 하는 거 같은데... https://brunch.co.kr/@chaesang/110

대학 교육 기타

혼자 해 보는 서비스 분석 - AI에게 물어 보기 - 아이브의 신곡에 들어가는 ...

샘플링은 어떤 곡이야 ? 요새 든 사소한 버릇 / 준직업병 증상 중 하나로.. 내가 이미 알고 있는 것을 AI 나 검색 엔진들도 알고 있는지 확인하는 버릇이 생겼다. AI들이 이미 내가 모르는 것을 많이 알고 있어서 그걸 복수하려는 알량한 자존심 정도로 해 두자.한국에 오면 K-pop 음악들이 조금 더 잘 들리고, 최근에 자주 들리는 음악으로 아이브의 신곡으로 ATTITUDE ( https://www.youtube.com/watch?v=38xYeot-ciM ) 건강한 아이들이 춤추고 노래하는 걸 보는 건 에너제틱해서 그 자체로도 좋고, 가끔씩 아이들과 대화 소재로도 좋아서 열심히 따라잡는데, 이 노래는 듣는 내내 80년대 후반 팝송으로 영어를 배운 내 기억 속에서 노래 하나가 떠올라서 AI 들에게 테스트. 이미 35년 전의 노래라니.. 쩝... 질문은 "아이브의 신곡에 들어가는 샘플링은 어떤 곡이야 ?"채점 포인트들은 1. 단답형이니 정답을 알려 주는가 ? Suzanne Vega's "Tom's diner"2. 여러 히트곡이 있을 진데, 신곡이 이 노래를 이야기해 주는가 ?3. 불필요한 것들을 보여 주는가 ? 오늘의 순위는Gemini > ClovaX > GetLiner > ChatGPT = Perplexity = Google > Naver > wrtn > Claude Gemini ( 10/10 )원하는 정보에 군더더기 없는 답변 ClovaX ( 9.5/10 )답변은 깔끔하나 '디너'가 아니라 '다이너'. 옥의 티 감점. GetLiner ( 8/10 ) 위의 답은 정답이나, 중간에 After Like 이야기. 이건 2년 넘은 노래 이야기라 감점. ChatGPT ( 7/10 ) After Like, Supernova Love 등의 불필요한 내용들. 예전 노래로 논란이 있었는지 내가 궁금해 해야 해 ? Perplexity ( 7/10 )설명은 맞는데, 클릭할 만한 reference 들이 관련 없는 내용들. 이렇게 꾸미기도 쉽지 않았을 텐데... 답변만 보면 꽤 ChatGPT 랑 닮아 있는 거 같음. Google ( 7/10 )질문이 기존 검색에 친절하진 않지만, 클릭할 것들이 질문에 대한 답에 매우 근접하고, 다른 노래들이 없음. Youtube boosting 이 없었으면 더 높은 점수가 되었을 거고, 첫번째 웹 링크는 잘 검색된 결과여서 다른 AI 엔진들이 이걸 끌어 올리는가 아닌가로 품질이 결정되었을 듯. Naver ( 6/10 )블로그에서 영끌해서 올린 결과. 하나는 다른 노래 이야기라 구글 대비 감점. wrtn ( 4/10 )틀린 노래. 어거지 답변. '또한'을 붙인다고 답변이 되지 않음. 어거지 답변에 대한 추가 감점.reference 들로 충분한 거 같은데 랭킹이 틀어져 아마도 잘못된 답이 나왔고, 한편, 유튜브 썸네일을 이미지 검색 결과 ? 이건 선 넘은 거 아닌가 ? Claude ( 2/10 )솔직한 답변이지만, 요즘이 어떤 세상인데 뭐랄까 성의가 없달까 ? 잠깐.. 난 아이브를 물어봤는데, 왜 Aespa ? 이건 선 넘은 거 아닌가 ?

대학 교육 기타

혼자 해 보는 서비스 분석 - Deepseek 얼마나 많이 쓰길래 ?

흥하다 해서... 얼마나 ??? 여러 가지 의미로 세상을 떠들썩하게 하고 있는 딥씨크(Deepseek) 이야기 간단히 해 본다. ChatGPT 이후에 나온 단일 서비스로 가장 시끄러운 건 맞다 싶고. 여러 사람들이 이야기를 섞으면서 과하다 싶을 정도의 정보량들… 어떻게 만들었을까 궁금하긴 하지만, 내가 저런 것까지 알아야 할까 싶은 것들까지... 외부인 입장에서 함부로 이야기하기엔 조심스러운데, 구글 검색 열심히 몇 번 써 봤다고 구글 검색 전문가라 하는 거 아닌가 하는... 밖에서 볼 수 있는 자료들로 간단하지만, 최선을 다 해 본다. 일단 미국 앱스토어 1등이라는 뉴스가 오랫동안 자꾸 언급되면서 일어나는 불편함에서 시작한다. (e.g. 중국 AI 딥시크, 챗GPT 제치고 미국 앱스토어 1위···증시 충격 ) 요즘에는 이제 made in China 등의 이슈도 있어 조금 시들하다 하는데, 그래서 얼마나..?? 라는 질문으로 시작.앱 순위먼저 오늘 자(2/12/2025) 미국 앱스토어 차트와 Playstore 순위. 생산성 범주만. 초기의 급한 유명세는 빠지기 시작하고 있는 듯하고.. 살짝 주춤한 정도..? 엇그제부터 2-3등 하고 있는 거 같음. 참고로 한국 안드로이드에서는 순위에 안 보임.차트 순위는 비밀에 해당하는 거니까… 미국에서 ChatGPT를 잡았다.. 까지는 이제는 옛 뉴스 혹은 오버.Similarweb 무료 버전 일단 (잠재적) 경쟁자들부터.. 지난 28일간 daily usage. 그런데... 생각보다 gemini 가 이렇게 잘 하고 있다고..?선두권 나라들에서도 모두 gemini 가 매우 우세. 여기에 deepseek 추가하면.잠깐.. 보정이 필요하다. 14일 정도가 포함된 거니 x2 하면 950M . 중국을 빼고, 나머지 나라들을 x2 한다 치면… 미국에서도 Gemini의 2배 , 이외의 나라에서는 훨씬 더 큰 점유율.이제 ChatGPT 에 도전해 보자.같은 공식 적용하면… 갈 길은 많이 높다. US, UK 역시 !! 간단한 요약ChatGPT 의 벽은 높다. 미국에서 hype 은 먼저 빠지는 듯. 다음 달에 보자..그래도 단숨에 2등이라니… !! https://brunch.co.kr/@chaesang/108

대학 교육 기타

클라우드 기반 스마트팩토리 - 입문 ( 디지털서비스 이슈리포트 2025-1호 )

이 글은 제가 NIA [한국지능정보사회진흥원]의 < 디지털서비스 이슈리포트 > 2025년 1월호에 기고한 글입니다. 원본 글 '2025년 AI 현황 보고서 리뷰'를 이곳 브런치에서도 공유합니다. 들어가며 스마트팩토리(smart factory)는 첨단 정보통신기술(ICT)을 활용하여 제조 공정 전반을 자동화하고 최적화하는 제조 환경을 말한다. 기존의 전통적 공장이 인간의 노동력을 중심으로 운영되었다면, 스마트팩토리는 사물인터넷(IoT), 로봇공학, 빅데이터, 인공지능 등을 결합하여 공정의 효율성을 극대화한다. 이는 단순한 자동화된 공장을 넘어선 개념으로 실시간으로 생산 현황을 모니터링하고 최적의 의사결정을 내리는 것을 목표로 하며, 이를 통해 불량률 감소, 에너지 효율화, 생산 원가 절감 등 다양한 효과를 얻을 수 있으며, 나아가서는 다품종 소량생산과 같은 유연한 제조 환경에도 효과적으로 대응할 수 있게 된다.클라우드 기술은 스마트팩토리를 구현하는 데 있어 필수적인 요소로 자리잡고 있다. 방대한 양의 생산 데이터를 저장하고 분석하기 위해서는 강력한 컴퓨팅 자원과 많은 저장 공간이 필요하며, 클라우드는 이러한 요구를 충족시킬 수 있는 최적의 솔루션으로 다음의 특징들을 가진다. 데이터 저장 및 분석: 생산 현장에서 발생하는 방대한 양의 데이터를 클라우드에 저장하고, 빅데이터 분석 기술을 활용하여 유용한 정보를 추출한다.AI 활용: 클라우드 기반 AI 서비스를 활용하여 예지 보전, 품질 예측 등 고급 분석을 수행한다. 유연한 확장성: 필요에 따라 컴퓨팅 자원을 유연하게 확장하거나 축소할 수 있어 비용 효율적인 시스템 운영이 가능하다.협업 환경 구축: 다양한 사용자가 클라우드 기반 플랫폼을 통해 실시간으로 협업하며 생산 과정을 관리할 수 있다. 클라우드는 스마트팩토리의 핵심적인 역할을 수행할 수 있으며, 제조업의 디지털 전환을 가속화하는 데 기여하고 있다. 본 글에서는 스마트팩토리를 위한 입문으로 운영의 핵심 요소들과 클라우드 기반 솔루션들을 소개한다. 주로 IoT 관련 서비스 제품들이 표준화되어 이용된다. 스마트팩토리 운영의 핵심 요소 1. 데이터 수집 및 관리데이터를 어떻게 다루는가가 스마트팩토리의 핵심으로, 데이터의 실시간 수집과 통합 관리가 필수적이다. 이를 위해 생산 설비, 작업자, 원자재, 제품 등 공장 내 모든 요소로부터 발생하는 데이터를 신뢰성 있게 수집하고 통합하는 체계가 갖춰져야 한다. 산업용 IoT 센서, 스마트 디바이스, 통신 네트워크 등의 인프라가 체계적으로 구축되어야 하며, 이렇게 수집된 데이터는 표준화된 형태로 저장되고 관리되어야 한다. 데이터 정제와 처리 기술이 필수적이고, 이 데이터들은 해당 기업의 핵심 자산이기에 철저한 보안 체계를 갖추는 것도 중요하다. 2. 실시간 모니터링 및 예측 분석스마트팩토리는 단순히 데이터를 수집하는 데 그치지 않고, 이를 기반으로 실시간 모니터링과 예측 분석을 수행한다. 이를 통해 공정 중 발생할 수 있는 문제를 조기에 감지하고, 장비의 이상 상태나 품질 결함을 미리 예측하여 신속히 대응할 수 있다. 의미 있는 인사이트를 도출하고 미래를 예측할 수 있어야 하고, 빅데이터 분석 기술과 AI 기술을 활용하여 설비 고장 예측, 품질 예측, 수요 예측 등을 수행할 수 있으며, 이를 통해 선제적인 의사결정이 가능해 진다. 3. 제어 및 생산 공정 최적화수집된 데이터를 바탕으로 생산 현장의 상황을 파악하고, 문제가 발생했을 때 신속하게 대응할 수 있는 체계가 필요하다. 유기적으로 연동된 MES(Manufacturing Execution System)나 SCADA(Supervisory Control And Data Acquisition) 같은 제조 실행 시스템이 구축되어야 하며, 이는 불필요한 다운타임을 줄이고, 생산성을 향상시키는 데 큰 역할을 한다.더 나아가서는 유연하고 적응력 있는 생산 체계를 통해 공정 효율성을 높인다. 공정 최적화를 통해 고객의 요구사항에 맞춘 대량 맞춤형 생산과 같은 새로운 제조 패러다임을 가능하게 하고, AI와 머신러닝 기술을 활용하여 다양한 생산 공정 최적화를 이룰 수 있다. 4. 협업 및 연결성스마트팩토리는 다양한 장비와 시스템이 서로 원활히 통신할 수 있도록 높은 수준의 연결성을 요구한다. 위의 유기적으로 연동된 데이터에 더해 전사적 자원 관리(ERP) 시스템, 공급망 관리(SCM) 시스템 등과의 통합은 공장의 전반적인 운영 효율을 높이고, 부서 간 협업을 강화한다. AWS 의 IoT 서비스AWS 에서는 IoT 관련해서 다양한 솔루션을 이용할 수 있는데, 스마트팩토리를 구현하는 방법으로 먼저 엣지 디바이스에서 정보들을 관리하는 솔루션들을 아래 그림 1의 솔루션들을 이용할 수 있다.그림 1. AWS IoT 디바이스 솔루션들이들을 클라우드에 연결하는 방식으로 아래 그림 2.의 솔루션들을 이용할 수 있다.,그림 2. AWS IoT 클라우드 연결 솔루션들마지막으로, 관리자 혹은 사용자의 시각에서 이 데이터들을 운영하기 위해 아래 그림 3. 의 솔루션들을 사용할 수 있다. 이후에는 모여진 데이터들은 AWS 의 일반적인 서비스들과 도구들을 이용해서 사용할 수 있다.그림 3. AWS IoT 분석 솔루션들아래 그림 4는 AWS IoT 그린그래스, AWS IoT 코어, AWS IoT 디바이스 디펜더, AWS Iot 디바이스 매니지먼트를 이용해서 연결되어 운영되는 사례의 구조를 나타낸다. 그림 4. 일반적인 AWS IoT 연결 예제 애저(Azure)의 IoT 서비스마이크로소프트의 애저에서도 IoT를 위한 제품들이 준비되어 있고, 아래 그림 5와 같은 레퍼런스를 볼 수 있다. 엣지 디바이스에서 모이는 데이터들이 애저 IoT 허브(Hub) 를 통해서 클라우드에 모이게 되고, 데이터의 성격에 따라 스트림 데이터를 위한 서비스 혹은 메시지를 위한 서비스 등으로 나누어 저장되고, 관리된다. 이후에도 역시 일반적인 서비스들과 도구들을 이용해서 사용할 수 있다.그림 5. 일반적인 애저 IoT 연결 구조 구글 클라우드 플랫폼(GCP)의 IoT 서비스구글 클라우드 플랫폼도 IoT 관련해서는 유사한 방식을 지원한다. 아래 그림 6은 산업계에서 널리 쓰이는 메시징 표준인 MQTT 방식의 메시지를 이용해서 엣지 디바이스들로부터 메시지들을 클라우드에 전송하는 예제를 나타낸 그림이다.그림 6. GCP에서 IoT 제품 연결 예제 맺으며지금까지 스마트팩토리를 고려하며 주요 클라우드업체의 IoT 서비스들을 간단히 훑어 보았다. 특별한 서비스를 이용하지 않고, 엣지 디바이스 용 솔루션을 따로 고려하지 않더라도 일반적인 방식으로 클라우드에 연결해서 처리하는 경우들도 있고, 일반적인 공장들은 맞춤형으로 구현해야 하는 부분들이 많아서 클라우드 솔루션들을 바로 적용하기 힘든 경우가 대부분이다.스마트팩토리를 새로 도입하거나 기존의 온프레미스 환경에서 클라우드로 고려할 경우 여러 가지를 고려해야 하지만, 사물 인터넷 서비스들을 이용해서 클라우드 기반으로 구축할 경우 아래의 장점들이 있다. 빠른 구축: 기존 IT 인프라 구축에 비해 빠르고 간편하게 스마트팩토리를 구축할 수 있다. 높은 확장성: 사업 규모가 변화하더라도 유연하게 시스템을 확장하거나 축소할 수 있다. 낮은 초기 투자 비용: 하드웨어 구매 비용을 절감하고, 필요한 만큼의 자원만 사용하여 비용 효율성을 높일 수 있다. 다음 회에는 여러 방식으로 스마트팩토리에 접근하는 과정에서 맞이하는 이슈에 대해 사례를 나누어 보겠다.

대학 교육 기타

인공지능과 추천 시스템 - 기말 과제 자료 모음 - 2024. 12.

한 학기 동안 기말 과제로 아래의 방식으로 학생들에게 발표를 내어 주었다. 대부분 회사 업무와 병행하기에 각각의 일정이 있을 것이라 생각해서 16번의 수업 중 편한 시간에 발표하기를 기대했고, 자유 주제이지만 과목의 취지와 맞게 금융 / 공학 / AI 가 포함된 키워드를 가지고 이야기 나누기를 바랬고, 한 학기가 지나며 다양한 이야기들을 모아 주었다. 각 주제들이 정해질 때 발표 내용의 방향과 문제점들에 대해 피드백을 주고, 발표 자료를 1주 전에 리뷰해서 피드백을 주는 방식으로 운영하였다. 개인적으로 시간 배분에 애를 꽤 먹었지만, 매 번 강의 내용을 준비한다 생각했고, 각각 내용들이 깊어지는 데 조금의 기여를 할 수 있었던 거 같다. 실제 발표하는 일정들에 대해서는 작년의 사례들과 비교해서 실제 발표는 강의실의 시설을 이용하는 것이 음향 상태가 보장이 되어 좋았다.여러 번 주의를 주었음에도 현장 발표의 경우 시간 조절이 힘들었다.사전 녹화를 하는 경우 조금 더 짜임새 있는 운영이 가능했었다. 제목만으로는 발표 시의 디테일들이 전해지지 못하는 아쉬움이 있지만, 몇몇 특수한 과제를 제외하고는 public 하게 접근이 가능한 내용들로 모이기를 이야기했고, 혹시 관심 있는 주제가 있거나 해당 내용들에 대해 follow-up 이 필요할 경우 필자에게 연락 주시기를 바란다. Reducing AI Footprint: Multimodality for TikTok Viral Prediction - 김가온한국어 기반 금융 분야 BERT 기반 LLM 비교AI를 활용한 기업 신용평가 - 홍다은,이영훈,김윤아생성형 AI시대의 Mobile 플랫폼 추천 시스템 - 김성민,이재훈,이종연콴다(교육에서의 AI 활용 방안) - 강혜정,김민수,김민지FASHION CURATION OMNI CHANNEL STRATEGY OFFLINE FOCUSED SERVICE - 신경철Assimilating the Recommendation eXperience - 김세환디지털마케팅플랫폼(DMP)을 통한 상품 추천 사례 소개 - 김지연, 전진솔, 심윤찬인공지능을 활용한 기업 재무등급 자동산정 시스템 - 방준영, 김동혁, 임도형추천시스템을 활용한 맞춤 이동수단 추천 서비스 - 나문정, 이혜진AI로_투자하는_국내외_ETF_비교 - 이하준, 황신형통신 3사 AI 전략 - 최혁균,이왕희,이종한논문 - 현실적인 오더북 시뮬레이션 하에서 멀티 에이전트 강화학습 - 박상우카드사 매입 데이터를 활용한 연체여부 예측과 신용관리방안 추천 - 신기원,최원준,최지영루닛의 의료 AI 제품의 추천 시스템과 AI 개발을 위한 데이터 라벨링 과정 - 김서진, 심혜민AICC의 현황과 도메인별 적용 사례-김영근,유주희인공지능과 추천 시스템을 활용한 개인화 패션 플랫폼 - 김소라,홍희윤,손새암CNN기반 주가 예측 논문 스터디-신민석증권사 주식매매 시스템 비교 분석-윤유동추천을 위한 컨텐츠 피처 도출 관점에서 분석한 Spotify 프로덕트 - 강예슬논문분석 - LLM과 추천 시스템을 결합한 대화형 추천 에이전트 분석 - 임혜원ChatGPT를 활용한 영어학습과 활용서비스-진승환,송민지Inside copilot - 인프라 이야기 - 박찬욱, 성민지Cursor IDE 차세대 AI 기반 코딩 환경의 시작-강범준논문 분석 - Dynamic hedging of KOSPI200 barrier options using machine learning based price and delta predictions-이지훈금융사에서 쓰는 AICC(AI Contact Center)의 문제점과 개선방안 - 김민정, 박정환, 정한라당신을 위한 맞춤 부동산 경매 - 추천 시스템으로 만드는 사용자 경험 - 이송희메타버스 기반의 로보어드바이저 자산관리 서비스-김수현Intraday Prediction for the Korean Futures Market: Meta-model Stacking of Attention-based CNNs and Reinforcement Learning-이동원Job Recommendation Chatbot-박현진,이이담,홍성근Direct Indexing, 초개인화 시대의 새로운 투자 패러다임-차혜민금융기관의 AI를 활용한 디지털 전환 소개-김영진카카오뱅크 ‘오늘의 mini 일기’ 서비스-김민석온라인 쇼핑 큐레이팅 모델의 한계 분석과 해결방안 제시-박종훈XBRL 공시 솔루션 - 최근일"Attention Is All You Need" - The Dawn of a New Era in AI : Before & Beyond-김동호,노대일,임윤호기업정보 텍스트를 활용한 산업분류체계 개발-박신식,장우제GPT를 활용한 가상화폐 투자 정보 요약 서비스-강상훈,권기빈,신서윤기업 매출/매입 내역을 활용한 온라인 제조 B2B 플랫폼 기획-정상원외국인을 위한 라이프스타일 맞춤형 부동산 추천 서비스 기획-이동수음악 추천 시스템의 편향성 문제 해결방안-이효태사례연구 : 기업용 AI 시장-송한상논문 리뷰-“Multimodal Optimal Transport Knowledge Distillation for Cross-domain Recommendation”-서현희ERP 기반 AI 서비스 분석-김지웅,김성기,박성진

대학 교육 기타･인공지능･추천･강의

인공지능과 추천 시스템 강의 노트 - (16/16) - 2024. 12. 20.

들어가며계엄, 탄핵 정국의 중심에 있는 여의도는 매일 여러 업데이트가 있는 등 어수선하지만, 막상 마지막 수업은 괜히 온라인으로 했나 싶을 정도로 조금 허무한 상황이었다. 탄핵 의결 후 당장이라도 여러 일이 일어날 거 같은 상황이었지만, 아무 일 없이 시간이 지나가고, 다행히 다친 사람들도 없지만, 그렇다고 뭔가 해결이 되고 있는 거 같지도 않은... 결과적으로 학생들과 얼굴을 한 달 동안 못 본 채 끝내게 되는 상황이 되어 버렸다. 작년에는 수업 후에 1:1 신청도 꽤 했었고, 다른 이야기거리들이 많았는데, 올해는 딱 수업과 학점 매기는 이후에는 아무 interaction이 없게 되는 게 여러 모로 아쉬움이 있다. 16주) 강의 update구글의 동영상 생성 서비스인 veo 가 Sora 를 비롯한 다른 엔진들을 데차게 저격하는 것으로 건재함을 알렸고, OpenAI 는 12개의 서비스를 런치하는 중 자동 응답 전화 시스템인 1-800-ChatGPT 를 런치함으로써 미국에서 더욱 저변을 넓혀 가고 있다. 저물어 가는 서비스를 이용해서 새로운 사용자들을 모을 수 있을까에 대한 개인적인 호기심이 크다. 기말 과제들 "Attention Is All You Need" - The Dawn of a New Era in AI : Before & Beyond-김동호,노대일,임윤호이제는 교과서처럼 되어 버린 역사적인 논문에 대해 조금 깊은 분석과 산업 전반에 미친 영향들에 대해 정리한 내용들. 이후 Transformer 와 infrastructure / resource 들의 전쟁터가 되어 버렸지만, 약간은 교과서 혹은 역사서에 해당하는 이야기들과 조금 고전적인 language model 에서부터의 분석들 정리. C. 2018년의 GPT 1 과 이후의 GPT 들은 많이 다르니 구분을 해 주세요.Q. 특히 GPT-3 이후에 변화들의 중심이 되었는데, 구글의 open source로의 release 가 영향을 준 것일까요 ?Q. 이후 학계는 LLama 의 open 이 더 큰 영향을 준 건 아닐까요 ? 기업정보 텍스트를 활용한 산업분류체계 개발-박신식,장우제기업 정보를 산업 분류 체계로 나눔에 있어 여러 생기는 문제들을 clustering 으로 풀고자 한 접근들.실제 여러 embedding 과 clustering 기법들을 시도해 보며 유의미한 분류를 찾아 나가는 노력들. Q. 기존의 문제는 taxonomy 의 문제인지, 실제 분류 방법의 문제인지 ? Q. 하나의 기업이 여러 곳에 들어가고 싶은 경우는 어떻게 하면 좋을까요 ?Q. 기존의 분류 방법들과 비교되는 사례가 있을까요 ?Q. 키워드는 해당 group 에서 추출된 건가요 ?Q. 총 기업 수가 국내 2,300 , 해외 23,000 , 총 25,200 인가요 ? 나중에 숫자 더해보면 좀 안 맞는 거 같은데요..C. 수집된 데이터에 대해 한 번 훑어 주시겠어요 ? 기업별 정보가 균등(?)하게 들어 있는지,Q. 2개의 layer 로 ? 3,989 는 어디로 ? 기타로 놓게 될까요 ? '기타' 가 어떻게 쓰이면 좋을까요 ?Q. 건설 1516 vs 광고 30 차이가 많이 나는데, 분류해서 적용해 보기에 괜찮을까요 ? GPT를 활용한 가상화폐 투자 정보 요약 서비스-강상훈,권기빈,신서윤.pptx투자 정보들을 모아서 요약해 주는 봇 서비스를 만듦. 가상화폐라는 조금 아슬아슬한 영역의 주제이지만, 일반적인 로직으로도 쓰임직한 요약 서비스로 유의미한 방법론. 서비스를 만들고, 사용자 인터뷰를 통해 피벗을 준비하는 잘 정의된 사이클을 만들어 가고 있었음. Q. '실시간' 에 대해서는 어떤 가정을 하고 있나요 ? 새로운 뉴스가 온 것을 알아채는 로직이 있는지 ? 그 시점 기준으로 얼마나 window 를 넓게 가져야 하는지..?Q. p4 의 서로 다른 유저의 니즈를 하나로 담는 건 과한 욕심이 아닐까요 ?Q. 하나의 content 를 만들고 나면 그게 telegram 이나 Youtube shorts 등의 다양한 폼으로 표현된다고 하면, 거래량 top 5 는 어지간하면 안 바뀌는 거 아닌가요 ?Q. 생성된 content 가 얼마나 만족스러운가..? 를 정량적으로 풀 수 있어야 할텐데요... 몇몇 버그 처럼 보이는 것을 조절한다고 하지만 어디선가 복붙해 온 another copied contents 로 읽히는 건 아닐까 ? 사용자 인터뷰 정도가 만족도를 알 수 있는 1차적인 방법이겠지만... 이후에 prompt 를 바꾸어 나갈 때 어떻게 track 할 수 있을까요 ? 기업 매출/매입 내역을 활용한 온라인 제조 B2B 플랫폼 기획-정상원.pptx기업들끼리 주고 받는, 특히 제조업 쪽에서 오가는 B2B 거래 정보를 바탕으로 플랫폼을 만들고자 하는 내용들. 온라인 쇼핑몰 만큼의 사연이 있겠냐마는, 제조업에서 필요한 부품이나 자재들의 수요 공급이 제한적이었다는 점을 개선하고자 하는 노력들. Q. '제조' 라고 도메인을 꽤 충분히 좁혔지만, B2C 를 참조하는지라 눈높이가 쿠팡 정도에 와 있는데, 비교될 수 있을까요 ? Q. 이 도메인에 1300만개의 기업이 있는 건가요..? 다른 숫자여야 할 거 같은데요.. Q. 기업의 정보는 상대적으로 쉽지만, 제품의 정보는 어떨까요 ? p7 에서의 문제가 address 되나요 ? Q. 플랫폼으로 자리잡으려면 공급자와의 관계들도 중요할텐데, 예를 들자면 수수료 같은 문제들은 어떻게 풀 수 있을까요 ? 외국인을 위한 라이프스타일 맞춤형 부동산 추천 서비스 기획-이동수.pptx조금은 특이한 한국에 사는 외국인들을 위한 부동산 시장에 대한 접근들. 극초반의 스타트업이 뾰족한 고객군을 대상으로 문제를 풀어 나가려고 함. 잠재적인 고객의 입장에서 알게모르게 응원을 하게 됨. ( https://www.getnews.co.kr/news/articleView.html?idxno=702128 ) Q. 출장, 단기임대의 경우 지역 따라서 몇몇 매력적인 서비스, 심지어 에어비엔비 등이 겹치는 거 같은데..Q. 서비스의 마지막은 중개사무소와 연결인가요 ? 아니면 부가적인 게 있나요 ? 언어 문제는 사용자쪽과 공급자쪽도 풀어야 할 문제가 있는 게 아닐까요 ?C. 국제학교와 각 나라 별 마트 정보 이외에는 '외국인' specific 한 것보다는 '실거주 공통'에 해당되겠네요.Q. 실 서비스를 생각한다면 p11 의 타사 크롤링은 아슬아슬한데요.. 이건 제대로 하려면 업체들로부터 공급받게 되는 걸까요 ? 음악 추천 시스템의 편향성 문제 해결방안-이효태.pptx음악 추천 시스템이 ‘편향되어 불편하다’ 라는 문제 정의에서 시작한 제안들. 개인적으로는 가정에 적극적인 동의가 되지는 않지만, 최대한 빙의를 해 봄. 예를 들면 Kpop 듣는 중에 임영웅의 노래가 나온다면..? 이라는 부분에 대해서 어떤 접근들을 할 것인가 같은 문제들이라면..? 아래는 같이 고민했으면 하는 내용들. Q. 고민하는 신선도와 다양성 지표는 그 자체로 의미가 있다 하겠지만, 그게 Spotify 사례들의 목적함수였다는 이야기는 없지 않나요 ? Q. 마찬가지로 사용자가 보기에 단지 섞여 보이는 것이 사용성을 증가시켰다는 것에 대한 연결도 비약이 아닐까요 ? Q. 신인 아티스트의 곡 노출에 해당하는 건 공급자 중심의 접근이 아닐까요 ? 이게 사용자에게도 도움이 된다는 연결이 있을까요 ? 사례연구 : 기업용 AI 시장-송한상.pdf여러 기업들에서 다양한 노력들로 AI 를 현업에 적용해 나온 사례들에 대한 연구들. 풀고 싶은 문제와 해결 방법 등을 나열해 온 노력들을 정리했음. 대기업들 위주로 아이템들이 선정된 건 조금 아쉬운 부분이지만, 대표적인 사례들이 레퍼런스로 자리잡으면 하는 작은 바램. C. 사례들을 이야기하고 정리하는 건 좋은 내용인데, 제목이 꽤 어색하네요.. 조금 더 나은 이름이 없을까요 ? '사례 연구:' 로 시작해도 좋겠습니다.Q. 기업들이 각자 문제를 정의하고 푸는 데 AI 를 사용하는 것들은 좋은 사례들인데, 정부 정책이랑은 연관성을 억지로 찾기 힘들지 않을까요 ? C. 개인적으로 MLOps 는 새로운 직군을 정의하고 싶어 하는 사람들의 말장난이라는 꽤 삐딱한 시각을 가지고 있는데요.. 예를 들면 p12 그림은 제대로 뭘 하기 위해서 ML 밖에서 할 일이 많다의 의미로 쓰이는 그림이지, MLOps 의 필요성/역할에 인용되려는 그림은 아닌데요... 논문 리뷰-“Multimodal Optimal Transport Knowledge Distillation for Cross-domain Recommendation”-서현희.pdf서로 다른 도메인에 있는 정보들을 가지고 추천 셋을 꾸릴 수 있을까에 대한 이야기들. 읽은 책들이 겹치면 영화를 추천해도 될까? 라는 고민에서 시작한 방법들과 그에 관련된 질문들. Q. 한편으로는 광범위한 정보가 있으면 큰 틀에서 되겠지만, 숫자가 작은 경우 괜찮을까 ? Q. 도메인 별로 호불호가 많이 다르지 않을까 ? 정말 영화와 도서의 취향이 겹쳐야 하는 걸까 ? ERP 기반 AI 서비스 분석-김지웅,김성기,박성진SAP의 ERP 에 AI 들이 접목되는 과정과 그 기능들을 강화하기 위한 SAP 의 노력들. 아직 1년이 넘었지만, 한국에서 Joule 을 직접 쓰는 사례들을 찾기는 어려웠고, MS copilot 등에서 사용할 수 있게 여러 방법론들을 마련해서 진행 중. ERP 에서 시작하는 제품과 고객들 사이에서, 이를 강화하는 건 자연스러운 정책. Q. SAP 툴에 보이는 각종 도움 기능은 SAP joule 을 이용하고 있고, 더 많은 기능들을 넣어 가고 있다. ERP 자체가 한편으로는 잘 정의되어 버린 프로세스라... 도움을 주는 용도로 잘 쓰이고 있나요 ?C. 가장 최근에 본 내용으로는 Microsoft 365 Copilot 에서 SAP Joule 을 사용 가능하게 한다는 걸 보았습니다.Q. 기업용 보안을 고려하는 시각에서 https://openai.com/chatgpt/pricing/ 의 team plan, enterprise plan 에서는 안 쓴다고 하고, 유명 LLM 회사들은 같은 식의 approach 를 하곤 하는데, 고객 입장에서는 여전히 '못믿겠다' 가 장벽이 되는 걸까요 ? 한편으로 무조건 믿으라.. 라고 하는 것도 설득이 쉽지 않아 보이는데요..? 맺으며겸임교수로 수업을 진행함에 있어서, 수업 외의 본업들에 시간들과 에너지를 어떻게 써야 하는가 등은 여전히 어려운 일들이고, 작년보다 올해는 훨씬 정신 없이 지나가게 되었는데, 이는 수업 바깥의 변화에서 기인한 것이겠다 싶다. 강의 평가 결과가 많이 나쁘지 않게 나와서 내년에 또 기회가 된다면 어떻게 해야 할까 고민을 꽤 해 본다. 주제는 어차피 절반 이상은 새로운 것일 거고, 내년에는 미국에서 더 많은 시간을 보내야 할 거 같은데, 리모트로는 전하고 싶은 이야기들에 한계가 생기게 되니, 이를 커버하기 위해서는 조금 더 많은 숙제들 연계시키는 방법을 찾아 보아야 할 것 같다. 내년에는 여의도 IFC의 강의 층이 사무실 없이 운영이 된다고 하는데, 아래에 이 공간에서의 사진들을 몇 개 남겨 본다. 한 학기동안 금요일 오후 시간을 여의도에서 보내면서 행정을 봐 주시는 선생님들과 조교들의 도움을 많이 받았고, 한편으로는 이삿짐 빼는 시간과 겹쳐 불쑥 작별을 고하게 되었지만, 여러 면에서 감사의 마음이 전해지면 하는 바램이다. 야무지면서 꼼꼼한, 그리고 빠른 대응들이 많은 힘이 되었고, 덕분에 1주일에 반나절 선생님으로 살기 프로젝트를 2024년 2학기에도 마무리 할 수 있을 거 같다. 아직 학점 제출과 이의제기, 평가 분석 등 연말까지 한두주 더 챙겨야 할 일들이 남아 있겠다. 출처 : 브런치 매거진 KAIST DFMBA 2024https://brunch.co.kr/@chaesang/101 ( 2024. 12. 20. )

대학 교육 기타･인공지능･추천･강의

인공지능과 추천 시스템 강의 노트 - (15/16) - 2024. 12. 13.

들어가며마지막 두 주는 한국에서 대면으로 진행해야 겠다 싶어 한국에 들어왔지만, 계엄/탄핵 정국에 여의도에 in-person 수업이 어떤 의미가 될 것인가 등의 고민 끝에 남은 두 주는 아래의 결정들을 하였다. 수업 진행은 여의도 강의실에서 조교와 진행하지만, 학생들은 온라인 혹은 녹화 시청 허용. 기말 과제 발표 내용들은 사전 녹화한 내용을 취합해서 강의실에서 플레이 월요일부터 공지를 했지만, 갑작스런 변화에 발표하는 학생들이 혼란을 같이 나눠 준비하는 상황이 되었고, 연말 연시에 일정 조절은 이래저래 많이 어려운 상황이다. 녹화된 영상들로나마 학생들이 수업을 통해서 같이 고민 거리들을 나눌 수 있으면 하는 바램이다. 15주) 강의 update구글 딥마인드가 에이전트 시대에 ‘제대로’ 반격해 보겠다는 메시지와 전방위적으로 12개의 토픽을 announce 하기 시작하는 openAI. 비슷한 듯 다른 여러 개의 새롭고 끊임없는 메시지들. 아울러 각각의 비지니스들은 아랑곳하지 않고 고유한 부분에서 혁신과 발전을 이루어 나가고 있겠다. 기말 과제들 당신을 위한 맞춤 부동산 경매 - 추천 시스템으로 만드는 사용자 경험 - 이송희https://madangs.com/ 부동산 경매 물건 맞춤추천 서비스가 기획 및 개발된 과정과 개선 과정 등에 대한 내용들을 설명. 유료 구독 사용자들을 계속 유지할 수 있으려면 어떤 추천 로직들이 유의미할까에 대한 안팎의 다양한 고민들. Q. 한 번 구매한 사용자가 다시 오게 되는 제품일까요 ? Q. 구매까지 이루어지기를 기대하는 건 너무 끝까지 가는 걸 원하는 게 아닐까요 ? 그 이전의 이벤트들로 의미를 찾아야 할 거 같은데요..Q. Interaction 에서 보여 주었는데, 클릭을 받지 못한 것들에 대한 처리가 필요해 보이는데요. 보여 주었지만 사용자가 관심 없어 하는 것들을 찾아서 모아야 하지 않을까요?Q. 추천의 정확도를 어떻게 정의하고 구현하고 싶을까 문제가 일단 거리가 많이 멀어 보이는데… 정확도로 나와 있는 21%는 어떤 식으로 구했을까요 ? 설문조사의 별점인가요 ? 메타버스 기반의 로보어드바이저 자산관리 서비스-김수현메타버스도, 로보어드바이저도 쉽지 않은 주제이지만, 이 둘이 합쳐지면 어떨까 하는 것에 대한 과감한 기획서. 질문들이 조금 공격적인 거 같아서 미리 양해를 구함. C. 로보어드바이저도 레벨이 있었던 거 같은데요.. 돈을 알아서 굴려주는 서비스부터 그냥 정보들만 전해 주는 것까지.. ETF 가 아니고서는 거의 모든 경우 rebalancing 에서 승부가 나게 되고, 이들과 차별이 필요하거나 될까요 ?Q. P10 의 로보어드바이저 업체들은 괜찮나요 ? AIM, Fount 등은 잠깐 반짝 하다 심하게 사라졌고, 금융권에서는 보이지 않게 숨어 있는 기능 정도의 위치일 텐데요…Q. 한계점을 이야기할 때 현재 시점으로 메타버스도, 로보어드바이저도 각각 한계가 있는 서비스이고, 서로가 킬러 케이스가 되지 못하면 상상 속에서의 one-of-them 이 되기 쉬운데, 개인적인 의견으로 tipping point 가 있을까요 ?Q. 메타버스는 매일 보고 싶은 성격의 서비스이고, 로보어드바이저는 아주 가끔 생각나는 서비스라 시너지가 쉽지 않아 보입니다. 어떻게 극복할 수 있을까요 ?Intraday Prediction for the Korean Futures Market: Meta-model Stacking of Attention-based CNNs and Reinforcement Learning-이동원.pdf코스피200 지수선물 예측 시스템 기획. 사람이 지표를 시각적으로 보고 예측하는데에 기반해서 ML 에서 시각적으로 접근하려는 노력을 코스피200 지수선 예측에 적용해 보는 구현과 논문. 상승 혹은 하락만을 예측해서 강화학습으로 보강하는 방법론. 불확실한 미래와 over-fitting 과의 싸움. Q. 지난 주에 보았던 과제와 비슷한 접근이네요. 그래프 하나만 놓고 잘라서 분석해서 예측하는 건가요 ?Q. 5분 후를 예측하는데, Accuracy 를 어떻게 구하는 건가요 ? 높음과 낮음만 챙기는 건가요 ? 그 경우 0.5 가 random 이고, 0.7 정도가 쓸만한 예측이라 하는데…Q. P19 이후에 강화학습, Meta-model Stacking 등으로 비약이 있어 보이는데, Meta-model Stacking 에 대해서 간단히 소개 해 주시겠어요 ? Q. P22 에 사용한 데이터들은 pure random 인가요 ? 아니면 KOSPI200 과거의 데이터들인가요 ? 너무 한쪽의 데이터들을 쓰고 있는 건 아닐까요 ? 그래도 시나리오별로의 예상 수익들이 높아진 게 확인되면 괜찮은 걸까요 ? Job Recommendation Chatbot-박현진,이이담,홍성근Indeed 의 내용들을 이용해서 custom 으로 RAG 를 만들어서 운용해 보면서 실제적인 내용들을 담는데, 자연어를 입력으로 하는 서비스를 만들어 보는 내용들. 서비스 초기의 MVP 를 만들어 보는 것으로 발표 내용들 정리. Q. indeed 의 내용들을 무단으로 가지고 오는 모습인데 테스트 정도로는 괜찮았을까요 ? Q. RAG 이, vectorDB 가 말을 잘 듣던가요 ? Q. Accuracy 는 무엇을 어떻게 판단한 건가요 ?Q. 챗봇에서 사용자의 질문은 어떻게 파악하게 되나요 ? 질문 자체가 친절하지 않을텐데요.. Direct Indexing, 초개인화 시대의 새로운 투자 패러다임-차혜민투자자 및 개인이 본인의 투자철학을 반영. 테마, 업종, 지수 등을 대상으로 지수(포트폴리오)를 직접 구성하는 것을 다이렉트 인덱싱이라고 정의하고, 이를 어떻게 만들면 좋을지에 대한 여러 고민들. Q. 개개인이 각자의 포트폴리오를 나름대로 꾸미는 것과 차이점이 있을까요 ? 기존의 ETF 같은 상품들과 차별화되는 부분들이 있을 수 있을까요 ? e.g. 내가 짠 포트폴리오를 남과 공유할 수 있다거나..?Q. 포트폴리오를 구성할 때 '가장 좋은 주식들은' 은 초개인화와는 반대 방향의 것이 아닐까요 ? 금융기관의 AI를 활용한 디지털 전환 소개-김영진도메인을 책임지는 제품의 관점에서 다양한 AI 의 시도를 해 보려는 노력들. 특히 잘 보이지 않지만, 산업은행의 최근 OpenAI 와의 MOU 에서 보듯 업무 수행의 도구로서 사용하는 내용들에 대한 다양한 접근들. Q. p6,7에 지금 핫한 주제로 'AI agent' 가 보이지 않는 아랫단에서 일들을 막 시작하기 시작하지만, p8-p10 의 사례들은 꽤 오랫동안 써 오던 persona 를 약간 심은 말 잘 듣는 챗봇에 해당해서 아직 AI agent 라 불리기 이전 시기의 제품들인 거 같습니다.Q. 뒷부분의 사례는 아주 좋네요. 도구로서의 역할을 제대로 해 주는 걸로 좋은 사례로 읽힙니다.Q. 산업은행에서 ChatGPT를 열심히 쓴다는 이야기는 꽤 전부터 들어 왔었는데, 최근에 보도된 OpenAI 와의 MOU 도 관련이 있는 것일까요 ? 카카오뱅크 ‘오늘의 mini 일기’ 서비스-김민석카카오뱅크에서 10대들에게 어필하는 제품인 ‘mini 일기 서비스 기획 및 개발기 소개. 여러 생성형 AI 를 이용해서 일기를 자동으로 만들어 주는 것에 대한 노력들. 실제 사용자 수까지 늘었다니 좋은 제품의 사이클인 듯하고.. 생성형 도구가 제대로 된 역할을 하는 것인 듯. Q. 데이터 전처리 과정에서 결제 분류, 내역 등이 주는 모호함 때문에 사례 같은 많은 엉뚱함이 생길텐데, 이 부분은 가맹점 이름과 분류를 보완하는 방식으로 수행하신 건가요 ? 이 노력 자체가 비단 이 제품보다 더 많은 곳에 쓰일 수 있을 거 같은데요..Q. 동일한 프롬프트에 두 다른 모델을 성능으로 비교하는 건 비교가 잘 되는데, 생성된 일기의 품질은 어떻게 비교를 한 것일까요 ?Q. DAU , 카드 결제 건수 증가의 모수는 이 카드 사용 대상일까요 ? 아니면 전체 사용자 숫자일까요 ? 카드 결제 증가까지 연결되는 게 설명이 되는 거면 좋은 사례네요.온라인 쇼핑 큐레이팅 모델의 한계 분석과 해결방안 제시-박종훈쇼핑 몰에서의 각종 개인화 시도를 문제점으로 정의하고, 정보 과잉에 따른 쇼핑 피로도 증가 등을 풀어야 할 문제로 정의. MD 혹은 큐레이터들의 도움을 제품에 선택 가능한 영역으로 놓아 초개인화의 반대로 접근하려는 노력들. C. 아슬아슬하군요. Curation block 이 가지는 한계 ( business vs 광고 ) 를 극대화하는 느낌이긴 하네요. 마치 코스트코가 생각나는 전략입니다.C. 예전 구글 플레이 때 경험으로는 소위 ‘선택되지 않은’ 업체의 입장에서 여지를 피할 수 있는 친절한 블럭 설명이 생각보다 많이 중요했던 거 같습니다. XBRL 공시 솔루션 - 최근일기업들의 공시제도에 XBRL 을 의무적으로 이용하도록 되어 있는데, 이 자료들의 생성이 여러 모로 어려워서 이를 풀려는 노력들. 실제 동작하는 제품을 만들어서 공시 자료를 만드는 데 도움을 주려는 제품. Q. 기업의 규모와 업종에 따라 공시의 의무들이 다르고, reporting language 라고 하지만 어마어마한 legacy 와의 싸움에 검수하는 노력들도 만만치 않을텐데..의무화로 해결이 될까요 ?Q. 상장 기업 정도의 큰 회사는 이미 다른 자료들이 많을테고, 작은 규모의 기업들은 그림의 떡에 해당하지 않을까요 ? 맺으며저녁 내내 들리던 집회 소리들과 때마침 울려 퍼지기 시작하는 이승환의 탄핵 콘서트. 수업이 끝난 10시 이후 멀리 보이는 국회와 모여 있는 사람들. 복잡한 생각이 드는 하루하루인데, 다음 주는 마지막 수업 시간이라 조금 더 복잡하다. 출처 : 브런치 매거진 KAIST DFMBA 2024https://brunch.co.kr/@chaesang/100 ( 2024. 12. 13. )

대학 교육 기타･인공지능･추천･강의