블로그
전체 68#카테고리
- 대학 교육 기타
- 교양
- 알고리즘 · 자료구조
#태그
- mcp
- 기고
- 인공지능
- 추천
- 금융
- 강의
- 데이터브릭스
- 기술동향
- 검색
- 경영
- 공학
- 90년대
- 컴퓨터공학
- 용어
- 한글
- 영어
- 개발자
- 한국어
2025. 10. 09.
0
AI 에게 물어보기 — “어떤 만화야 ?”
미국 어느 식당에서 밥 먹는 중에 화면에 보이는 만화...예전에 보던 도라 디 익스플로러 가 생각이 났고, AI 시대에도 여전히 2D 만화는 인기인가..? 특히 아이들한테..?당연히 처음 보는 화면이어서 도통 모르겠기에 AI 들에 물어 보았는데.. 다 다르게들 답변한다. 어떤 게 정답일까 ? Perplexity : CyberchaseGemini : Molly of DenaliChatGPT : not sure ; Hero elemantary ?Claude : Xavier Riddle and the Secret Museum 정답은 search by image 에서 보듯이 Molly of Denali.오늘의 생각 : 검색 = 인덱싱 !! 비슷한 이미지+정보를 찾아 내는 vector search 는 이럴 때 빛이 나는 듯..참고로 Lens 는 search by image 를 쓰지 않아서인지 아주 엉뚱한 답들이 나온다. 굳이 한글로 되어 있는 설정을 과하게 존중해서일까...
대학 교육 기타
2025. 10. 08.
0
인공지능과 추천 시스템 강의 노트 — 2025. 9. 27. (4/16)
들어가며 가을의 여의도에서는 매 주말 굵직한 일정들이 있는지, 이번 주는 불꽃놀이가 있다 했다. 아침 출근길부터 캠핑 장비 , 야유회 장비들을 들고 여의도로 오는 가족들이 유난히 많아 보이고, 수업이 끝나는 오후 4시부터는 교통 통제와 지하철역 무정차 등의 일들이 있다 하여, 오늘 수업은 중간에 쉬는 시간 없이 2시간 정도를 한 번에 이야기하는 강행군을 진행하게 되었다. 추석 연휴 사이에 있는 두 번의 온라인 강의에 대한 진행에 대해 이야기를 하고, 모이고 있는 중간, 기말 과제들의 내용들에 대한 이야기들을 정리하였다. 서로 이야기가 잘 통해 미리 제출해 준 학생들이 있는가 하면, 아직 내용이 전달이 잘 덜 된 학생들도 있는 듯한데, 시간을 조금 더 들여 이야기를 나누어야 하겠다 싶다. 준비한 내용들 4주) 강의 updateAI 강의 - 4강, 5강추천시스템 - 4. 추천 알고리즘 개요추천시스템 - 7. 평가나눈 이야기들 AI 쪽 이야기는 상대적으로 적었지만, 네이버 파이넨셜과 카카오톡 등의 굵직한 제품들과 관련된 뉴스들이 많이 나오고 있다. 국민 서비스들로 자리잡은 것들이기에 사연이 더 있다 하겠고 호불호 혹은 끼치는 영향이 클텐데, 예전보다 정보들이 쉽게 돌아다니기에 좋다 나쁘다의 의견들이 퍼지는 속도들도 상당하다 하겠다.이번 주에는 AI 에게 “롯데 자이언츠 몇 게임 남았어?” 라는 질문을 하였고, 당시 기준으로 정답은 4게임인데, 꼼꼼하게 날짜 계산해 가며 챙겨야 하는 어려운 질문인지 모든 AI 서비스들이 정답과는 다른 말들을 하였다. 9월 첫 주 기준으로 이야기를 하기도, 대충 얼버무리기도 하기도 하는데, 제품의 입장에서 authoritative contents 가 검색에 안 잡히는 게 그 원인인 듯하다. 상대적으로 미국은 espn 이나 mlb 사이트들이 최신으로 유지되는 것에 비해 그 내용들이 부족한 것이라 하겠다.AI 강의 부분은 책의 뒷부분을 나누었다. AI 가 전방위적으로 도입된 후에 순작용보다는 부작용 혹은 같이 풀어나가야 할 과제들을 여러 시각에서 정부 정책과 함께 고민하는 정도로 나누었고, 이 책을 같이 읽는 건 일단 여기까지로 정리를 했다. 이후에 AI 관련한 내용들은 계속 쏟아질 뉴스들을 따라잡는 것들과 10월 9일에 발표된다는 stateof AI 를 가지고 10월 이야기들을 마무리하게 될 거 같고, 과목 후반기에 필요한 내용들을 더 준비해야 하겠다.2025년 stateof AI report 는 10월 9일에 발표됨.추천 시스템 부분은 교재에서 4장 추천 알고리즘의 개요 와 7장 평가 챕터를 다루었다. 5장부터는 실제 구현이 포함되는, 코딩이 포함되는 내용일 것이라 지표들을 언급해 놓고 시작하는 것이 낫겠다고 생각했는데, 이 부분은 처음 보는 사람들에게는 한없이 어렵고, 쓰던 사람들한테는 별 고민 없이 쓰는 내용들이라 편차가 있겠다. 서비스의 시각, 완제품의 시각에서 접근을 한다고 하지만, 모든 의사판단의 기준에는 데이터가 있어야 하고, 오프라인에서 비교할 수 있는 이 지표들은 필수적으로 알아야 하고, 실제 업무에서 '왜?' 라는 질문을 하고 들을 수 있어야 하겠다. 아래는 한 장으로 요약된 추천 시스템 알고리즘. Collaborative Filtering in Recommender Systems 이후 MovieLens 를 가지고 하는 예제들은 그 자체로 의미가 있지만, 손을 좀 더 보아야 하겠다는 생각인데, 입코딩 혹은 따라서 해 보는 vibe coding 으로 추석 연휴 후에 수업 시간에 한 시간 정도는 따라 가 보아야 하겠고, EDA , random / popular 추천 정도까지만이라도 되면 좋겠는데, 내용을 좀 더 다듬어서 연습을 좀 더 해야 겠다는 생각이다. 환경이 어디까지 지원이 될 수 있을지 모르겠는데, 학교 컴퓨터에 cursor 를 설치할 수 있으면 좀 더 이것저것 해 볼 수 있지 싶다. ps. 다음 두 번의 온라인 녹화 수업까지 해서 이런저런 핑계로 수업 자체가 소홀하게 되는게 아닌가 반성을 잠깐 했다. 한 시간 이르게 끝내어 일산에 부모님 성묘를 다녀올 수 있었고, 이후 조금 더 집중해서 남은 시간들을 챙겨 보려 한다. 질문들Q. ChatGPT 는 왜 계산을 잘 못 하나요 ?A. 요즘에 조금 더 나아졌지만, 가장 큰 문제는 질문을 문자로 받아 들여서 그것을 도서관이나 문헌에서 찾으려 하는 방법에 가깝다 하겠습니다. LLM 에게 한 번 물어 봐서 최대한 그 결과를 이용하려는 방식에서 오는 한계일 텐데요. 요즘은 사용자 질문에 바로 응대하는 것보다 여러 번 LLM 혹은 서비스들에게 필요한 일들을 chain of thought 같은 식으로 질문과 대답들을 내부에서 처리한 후에 이 질문을 이해해서 계산기 혹은 계산 서비스에 필요한 값들을 parameter 로 전달해서 푸는 방식으로들 해결해 나가고 있습니다.
대학 교육 기타
2025. 10. 08.
0
MCP를 이용해서 LLM 서비스 만들기 — 예제와 함께
이 글은 제가 NIA [한국지능정보사회진흥원]의 2025년 9월호에 기고한 글입니다. 원본 글 '2025년 AI 현황 보고서 리뷰'를 이곳에서도 공유합니다.들어가며 - LLM 이후최근 몇 년간 대형 언어 모델(LLM)은 눈부신 발전을 이루며 AI의 패러다임을 바꿔 놓았다. GPT, 클로드, 제미나이와 같은 LLM들은 단순 질의응답을 넘어, 문서 요약, 코드 작성, 창작물 제작 등 복잡한 작업을 능숙하게 처리하고 있으며, 연구실을 넘어 실제 비즈니스와 서비스 현장에서도 핵심적인 역할을 수행한다.하지만 LLM 단독으로는 여전히 한계가 존재한다. 모델 자체는 방대한 학습 데이터를 기반으로 추론하지만, 실시간으로 변화하는 데이터 연동, 최신 정보 반영, 외부 시스템 API 호출과 같은 기능은 직접 수행할 수 없다. 예를 들어 현재 날씨 정보나 특정 기업의 실시간 재무 데이터를 분석하는 작업은 LLM 혼자서 처리하기 어려운데, 이러한 간극을 메우기 위해 새로운 기술적 접근이 필요하게 되었다.이번 글에서는 이에 소개되는 MCP(Model Context Protocol)를 이용해서 어떻게 LLM 기반의 채팅 서비스에 추가적인 기능들을 할 수 있는지 예제와 함께 살펴 보도록 하겠다. MCP의 역할과 확장성그림 1 MCP 이전과 이후의 LLM에서의 서비스 연동( https://www.descope.com/learn/post/mcp )LLM의 한계를 극복하기 위해 등장한 것이 바로 MCP이다. 2024년 앤스로픽에서 처음 소개된 MCP는 LLM이 외부 시스템, API, 데이터베이스 등과 안전하게 연결되도록 돕는 것을 목표로 시작했는데, 이후 오픈AI, 구글 등 다른 주요 AI 기업들이 이를 채택하면서, MCP는 LLM 생태계의 사실상 표준으로 자리 잡고 있다.MCP는 LLM을 독립적인 존재가 아닌, 다양한 기능을 가진 외부 시스템과 연동되는 하나의 핵심 모듈로 만들어 준다. 예를 들어, 날씨 정보를 제공하는 서비스를 구축할 때 LLM은 사용자의 질문을 이해하고, MCP는 이를 외부 날씨 API와 안전하게 연결하여 실시간 데이터를 가져온다. 이 과정에서 모델은 데이터 접근에 직접 관여하지 않으며, MCP가 데이터 전달과 결과 통합을 전담한다. 이러한 접근 방식은 다음과 같은 장점을 가진다.유연성: 다양한 외부 API나 도구를 LLM에 쉽게 연결할 수 있다.효율성: LLM이 불필요한 추론을 줄이고, 필요한 정보만 정확하게 요청하도록 한다.안정성: LLM의 환각(Hallucination) 현상을 줄이고, 신뢰할 수 있는 정보를 기반으로 응답을 생성하도록 돕는다.이러한 MCP는 기업이 특정 LLM에 종속되는 이슈를 완화하면서 서비스의 확장성 및 유연성을 극대화하는 솔루션을 가능하게 한다. MCP를 활용한 서비스 구현: 날씨 서비스MCP의 작동 원리를 이해하기 위해 실제 코드들로 날씨 서비스를 구현해 본다. 이 서비스는 LLM이 사용자의 요청을 분석하여 실제 날씨 정보를 제공하는 외부 API를 호출하고, 그 결과를 바탕으로 응답을 생성한다. 도구(Tool) 정의와 핸들러 구현파이썬으로 구현하는 예제에서는 MCP 프레임워크를 사용한다. 이를 사용하면, 도구의 메타데이터와 실제 로직을 분리하여 관리할 수 있는데, 여기서 도구 메타데이터는 LLM에게 전달되는 정보로, 도구의 이름과 설명, 필요한 매개변수를 정의한다. 자세하게 적을 수록 정확한 때 도구가 불리고, LLM이 이후에 입력 변수들을 채우는 데 쓰인다.그림 2. 날씨 도구의 메타데이터 정의실제 외부 API(OpenWeatherMap)를 호출하여 데이터를 가져오는 함수를 작성한다. 이 함수는 LLM이 직접 호출하는 것이 아니라, 조건이 만족되었을 때 MCP 서버가 호출한다.그림 3. Open Weathermap 을 호출하는 날씨 도구의 구현 예제 McpServer에 도구 등록 및 실행McpServer는 도구의 메타데이터와 핸들러를 연결하고, 사용자 요청부터 최종 응답까지의 전체 과정을 관리하는 역할을 한다.그림 4. McpServer 등록 및 실행 예 각 LLM별 통합 예제McpServer는 내부적으로 각 LLM 공급자의 API에 맞춰 Tool 객체와 핸들러를 변환하는 어댑터 패턴을 사용한다. 개발자는 아래와 같은 내부 구현을 신경 쓸 필요 없이, 동일한 register_tool() 인터페이스를 사용하면 된다. OpenAI LLMOpenAI는 tools 매개변수를 사용해 함수 호출 정보를 받는다. McpServer는 등록된 도구 메타데이터를 오픈AI의 JSON 스키마 형식으로 변환하여 요청에 포함한다.그림 5. 오픈AI에서 호출하는 McpServer 등록 및 실행 예 Anthropic API (Tool Use)앤스로픽은 'Tool Use' 기능을 통해 유사한 스키마를 사용한다. McpServer는 Tool 객체를 클로드 API의 tools 매개변수에 맞는 형식으로 변환한다.그림 6. 앤스로픽에서 호출하는 McpServer 등록 및 실행 예 Gemini API (Function Calling)제미나이는 'Function Calling' 기능을 지원한다. McpServer는 Tool 객체를 gemini.GenerativeModel의 tools 매개변수에 전달할 수 있는 FunctionDeclaration 객체로 변환한다.그림 7. Google Gemini API에서 호출하는 McpServer 등록 및 실행 예 주의할 점들LLM과 MCP를 활용하여 서비스를 개발할 때에는 몇 가지 중요한 고려 사항이 있다. 이 점들을 간과하면 예측하지 못한 오류나 보안 문제가 발생할 수 있다. 아래의 주의사항들을 잘 따르면, LLM과 MCP를 활용한 서비스의 안정성, 신뢰성, 그리고 사용자 만족도를 크게 높일 수 있다.명확한 설명: LLM이 사용자의 의도를 정확히 파악하고 올바른 도구를 선택하도록, 각 도구(함수, API)에 대한 설명(description)을 명확하고 구체적으로 작성해야 한다. 이 설명은 단순히 기능 요약에 그치지 않고, 도구의 목적, 사용 시기, 필요한 변수(arguments)와 그 형식, 그리고 예상되는 반환값까지 상세히 포함해야 한다. .보안 및 제어: LLM이 호출할 수 있는 함수는 신뢰할 수 있는 것으로 제한해야 하며, 접근 제어와 인증을 철저히 해야 한다. 특히, 금융 거래나 개인 정보 접근과 관련된 민감한 함수는 더욱 엄격하게 관리해야 한다. 또한, 외부에 공개된 공용 MCP나 API를 사용할 때는 해당 서비스의 보안 정책과 데이터 처리 방식을 충분히 검토해야 하는 등, LLM이 악의적인 프롬프트에 의해 민감한 함수를 호출하거나, 민감한 정보를 외부에 노출하지 않도록 사용자의 입력과 LLM의 출력에 대한 검증 로직을 반드시 구현해야 한다.오류 처리: 외부 API 호출은 네트워크 문제, 서버 오류 등으로 인해 실패할 수 있으므로, 이에 대한 오류 처리 로직을 견고하게 구현하는 것이 매우 중요하다. LLM에게 단순히 "API 호출 실패"라고 전달하는 것만으로는 부족하다. API 응답 코드(예: 404, 500)에 따라 구체적인 오류 메시지를 생성하고, 이를 LLM에게 전달해 사용자에게 더 유용한 피드백을 제공하도록 해야 한다. 예를 들어, "해당 지역의 날씨 정보를 찾을 수 없습니다." 또는 "일시적인 서버 오류가 발생했습니다. 잠시 후 다시 시도해 주세요."와 같은 안내를 LLM이 생성하도록 유도하는 것이 좋다.지연 시간(Latency): MCP는 외부 API 호출을 통해 응답을 생성하므로, 단순 텍스트 생성보다 응답 시간이 길어질 수 있다. 여러 개의 API를 순차적으로 호출하거나, 복잡한 연산을 수행할 경우 지연 시간이 더욱 늘어난다. 따라서 사용자 경험(UX)을 고려하여 적절한 로딩 메시지를 표시하거나, 비동기 처리를 통해 지연 시간을 최소화하는 설계가 필요하다.비용 관리: 외부 API 사용에는 비용이 발생하는 경우가 많다. LLM이 불필요하게 많은 API를 호출하거나, 반복적인 요청을 보내지 않도록 효율적인 도구 선택과 사용 로직을 설계해야 한다. API 호출 횟수나 비용을 모니터링하고, 특정 임계값을 초과할 경우 경고를 보내거나 호출을 제한하는 시스템을 구축하는 것도 중요하다. 맺으며 - 이후 전망MCP는 LLM을 단순한 텍스트 생성기를 넘어, 현실 세계와 상호작용하는 강력한 자동화 에이전트로 진화시키는 핵심 기술이다. 이 기술은 LLM의 언어 이해 능력에 실시간 데이터 연동, 외부 시스템 제어 같은 실제적인 '행동'을 부여한다. 예를 들어, 사용자의 요청을 받아 회사의 재무 데이터를 분석하고, 특정 조건에 따라 보고서를 자동으로 생성하거나, 복잡한 비즈니스 프로세스를 단계적으로 처리하는 것이 가능해진다.이러한 변화는 비즈니스 자동화, 고객 서비스, 데이터 분석 등 다양한 분야에서 LLM의 능력을 극대화하며, 인간과 기계의 상호작용을 훨씬 더 자연스럽고 효율적으로 만든다. 특히, 이전에 사용되던 RAG(Retrieval-Augmented Generation, 검색 증강 생성) 방식이 MCP에 통합되고 있다는 점은 주목할 만하다. RAG는 외부 지식을 검색해 LLM의 답변 정확도를 높이는 기술로, 초기에는 별도의 프레임워크로 구현되었지만, 이제는 MCP의 핵심적인 기능 중 하나로 자연스럽게 흡수되고 있다. MCP는 단순히 API를 호출하는 것을 넘어, RAG처럼 방대한 데이터베이스에서 필요한 정보를 찾아 LLM에 제공하는 기능까지 포괄하며, LLM이 더 넓은 맥락에서 정확한 정보를 활용하도록 돕는다.결국 MCP는 LLM 기반 애플리케이션의 가능성을 무한히 확장하며, 우리가 직면하게 될 다음 세대 소프트웨어의 근간이 될 것이다. 이 기술 트렌드를 이해하고 활용하는 것이 미래의 경쟁력을 확보하는 중요한 열쇠가 될 것이다.
대학 교육 기타
・
mcp
・
기고
2025. 10. 08.
0
인공지능과 추천 시스템 강의 노트 — 2025. 9. 20. (3/16)
들어가며오늘도 이슬비가 내리는 흐린 가을날이었지만, 여의도에서는 아침부터 핑크빛 달리기 이벤트로 매우 많은 사람들이 북적이고 있었다. 한국에서는 여러 모로 달리기가 유행이라는데, 이제라도 한 수 배워 보아야 겠다는 생각이 드는 토요일 아침 출근길이었다.몇몇 학생들이 중간 과제용 데이터들을 제안하기도 했고, 나도 시간을 들여서 몇몇 데이터들을 같이 들여다 보았다. Kaggle 이 상대적으로 자유롭게 쓰이고 있는 반면 dacon 은 대회에 참여하는 사람들이 아니면 보기 힘든 벽들이 있어서 이전 자료들로 공부하기에 제약이 꽤 있어 보인다. 그리고 분석할 데이터들 자체로는 공통적으로는 필드의 수가 이정도면 충분할까 싶은 데이터들이 상당수여서 의외의 발견을 하기가 꽤 어렵겠다는 생각이다.다만, 다른 한편으로는 밑도 끝도 없는 EDA 이기에, 분석을 실제로 해 보기 전에는 충분한지 부족한지는 실제 리포트를 써 보기 전에 미리 결론내릴 정도는 아니겠어서, 결과가 마음에 들지 않더라도 채점에 나쁜 영향을 주지 않도록 해야 겠다는 생각이다. 과제로서 가이드를 주기로는 회사에서 상사에게 혹은 조직장에게 어떤 결정을 하기에 도움이 될만한 자료를 만드는 것을 목표로 해 달라고 하고 있고, 데이터에서 끄집어 낼 내용들이 없으면 없다고 이야기를 해 달라고 했는데, 이건 다른 면에서 리포트를 만드는 사람들의 시각에서는 쉽지 않은 판단이겠다 싶다. 준비한 내용들3주) 강의 updateAI 강의 — 2강AI 강의 — 3강추천시스템 — 2추천시스템 — 3 나눈 이야기들지난 주에 나온 페이스북의 스마트안경에 대해, 그리고 살짝 실패한 데모 시연에 대해 이야기를 나누었다. 안경 자체는 꽤 잘 나왔는데, 유독 갈은 배를 찾는 AI 서비스와 이를 wifi 탓으로 돌린 시연자, 이후 유사 DDOS 라고 이야기한 CTO 까지.. 기술 회사가 맞나 싶은 우려와 걱정이 들게 한 내용들이었다. 데모장 환경에서 테스트해보고 하는 건 10년전이나 지금이나 다 진지하게 해야 하는 거 아닌가 ? 안 되면 녹화를 하든지…AI 강의 교재에서는 이 책에서 전하고자 하는 지식 혹은 뉴스들이 커버되었다. ChatGPT 즈음부터 시작된 여러 플레이어들의 등장에 관련된 이야기들을 독서 모임 하듯 같이 읽었고, 여기에 2024–2025년에 새로이 추가되는 내용들도 같이 이야기 나누었다. 지금 기준으로는 벌써 충분히 오래 전의 이야기들을 나누는 셈이어서 어떤 주제들을 얼마나 깊이들 다루고 있어야 하는가 등이 챌린지로 남게 되는 거 같다.추천 시스템 교재에서는 프로젝트로서 추천시스템을 만들거나 개선하고 싶을 때 고려할 내용들을 아우르며 이야기 나누었다. 교재에서는 넓은 의미의 추천으로 과제를 구현해 가는 일반적인 방법이 소개되었고, UI/UX를 이야기하면서는 그 안에서 다양한 주제들 — 사용자 중심의 프로젝트 vs 서비스 제공자 중심의 프로젝트 이야기들과 AARRR 이야기들까자 대략적으로 다루었다. 아래는 이 책에서 제일 좋아하는 요약인 “사용자의 목적에 적합한 UI/UX 사례”.이번 주부터 각종 AI 서비스들에게 여러 질문들을 하면서 얼마나 대답들을 잘 하고 있는지 혹은 잘 하게 하기 위해서 어떻게 질문해야 하는지를 양념처럼 해 보고 있는데, 먼저 “달리기 뻐꾸기” 같은 키워드스러운 단어들의 설명은 전통적인 검색 엔진들이 더 잘 하고 있고, 한글 검색 커버리지가 적어 보이는 몇몇 서비스들은 뻐꾸기에 대한 일반적인 설명들을 하곤 한다.수업 내용 중에 25마리 말 문제가 나온다. 25마리 말 중 가장 빠른 3마리를 찾는데 몇 번의 경주가 필요한가? 말들은 매 경주마다 체력의 저하 없이 같은 속도를 내고, 오직 상대적인 순위들만 가지고 가장 빠른 말들을 찾으라.. 는 꽤 유명한 문제인데, 모든 AI 들이 이 문제는 마치 정답을 본 듯이 잘 풀지만, 문제를 7마리로 바꾸었을 경우 여전히 서로 다른 답들을 보여 주고 있다. 참고로 여기서 정답은 한 경주당 2마리를 제외하는 방식으로 하면 2번의 경주면 되는데, 고쳐 주려 해도 몇몇은 매우 대드는 모습을 보여 주곤 한다. 어려운 일을 시킬 때 교차 검증이 필요하거나 뭘 시켜야 할 지 말아야 할 지 고민하는 등 AI 와 더불어 살기에 더 어려운 일들도 분명 생긴다.7마리 말 경주에 대해 잘못 대답한 AI 서비스들. 질문들Q. 작은 서비스를 만들어 운영할 때에도 이미지의 소유와 관련된 저작권 문제가 신경이 쓰이는데, AI 서비스들은 이들 저작권 문제들은 어떻게 해결하려고들 할까 ?A. 이 문제는 양상도 다양하고 해법들도 여럿이라 법정에서 많은 해결과 조정을 비롯해서 다양한 접근이 이루어지고 있다. 미국은 변호사가 엔지니어보다 역시 나은 직업인 듯… 아래는 예제들.구글 검색으로 대변되는 웹의 세상에는 구글이 site 나 contents 의 authority를 존중하는 형태와, 뉴스 사이트들과의 협업 프로그램들로 진행해 왔음.서비스 제공 회사는 어떻게든 출처를 제품 상으로는 표시하려 함.OpenAI 와 Reddit 은 2024년 5월부터 partnership을 맺고 있음. 하지만, 제휴가 되었지만, 이는 Reddit 사용자들의 동의가 있던 게 아니어서 또다른 논란이 되고 있음.뉴욕타임즈는 Anthropic 과 소송에서 1.5B USD 배상을 받았고, OpenAI 와는 진행 중.
대학 교육 기타
・
인공지능
・
추천
・
금융
2025. 10. 08.
1
인공지능과 추천 시스템 강의 노트 - 2025. 9. 13. (2/16)
들어가며타이트해진 출석 체크와 작년 대비 추가된 중간과제와 기말과제 조건들 덕인지 꽤 많은 학생들이 다른 선택들을 하였고, 인원은 58명으로 정해졌다. 이제 조금 기대치가 조절되고 있는 셈이니 내년에도 이 과목을 내가 하고 있을 지는 모르지만, 학과를 위해서는 강의 평가도 좋은 점수가 나와야 할텐데 하는 걱정도 적지 않게 든다.공개된 데이터를 가지고, EDA 를 자유 형식으로 하라는 중간 과제가 서로 낯설어서 질문들이 많다. Kaggle , Dacon 등에서 보이는 ‘내가 봐도 문제 없는 데이터’를 가지고 직장 상사에게 보고하는 형태의 보고서를 쓴다는 생각으로 과제를 정의하고 있다. 데이터의 형식, 문제 정의 등에 대해 피드백을 주고 받을 생각으로, 각자 도메인에서 의미있는 해석들이 있으리라 기대가 된다.구름이 잔뜩 낀, 하지만 매력적인 서울 하늘 준비한 내용들2주) 강의 updateAI 강의 - 1강추천시스템 - 1Google(Playstore)에서 과제 런칭하기 - 1 이번 주에 있었던 일들로는 굵직굵직한 OpenAI 의 한국 행보와 구글 검색의 AI 모드 전면 배치 등이 있었다. 사상 최고를 경신하고 있는 코스피 자체도 관심 있게 챙겨야 하겠다. 나눈 이야기들약간의 역사적인 이야기가 들어 있는 인공지능 이야기와 추천 시스템의 입문에 대해 다루었다. 추천 시스템이라는 단어들도 오해가 많은 영역이라, 이 강의에서는 완성된 사용자 위주의 제품의 시각에서 접근과 그걸 가능하게 하는 방법론에 대해 이야기를 많이 하게 된다. 다음 시간부터는 각 내용들에 대해 요즘 시각에서 익숙한 이야기들을 담게 되겠다.유사 쇼핑몰의 개념으로 구글 플레이스토어 이야기를, 완제품의 시각에서 구글 검색 이야기를 내부자의 관점에서 많이 하게 될 것이라 ice-breaking 으로 구글 플레이스토어 이야기를 꽤 일찍부터 시간을 많이 할애하기로 했다. 지표들에 대해서까지 대략적으로 이야기를 하였는데, 아무래도 바깥에서 이야기하기에 한계들이 있는 영역이라 여러 번 감정 이입을 해 가며 정리를 해야 하겠다. ps.인프런에 올라가 있는 유료 강의들을 원하는 학생들에게는 무료로 제공하자 싶어 본의 아니게 인프런 광고를 조금 하게 되었다. 도움이 필요한 분들께 조금이라도 도움이 되면 하는 바램이다.
대학 교육 기타
・
인공지능
・
금융
・
추천
2025. 10. 02.
0
인공지능과 추천 시스템 강의 노트 - 2025. 9. 6. (1/16)
들어가며올해부터는 IFC 16, 17층을 서울 파이낸셜 허브에서 쓰고, 이 곳의 여의도 교육장을 빌려서 강의가 진행되고 있다. 작년과 달라진 환경이지만, 이게 여의치 않았을 경우 홍릉에서 수업이 진행될 뻔 했다고 하는데, 대기하는 공간이 조금 불편해 지긴 했지만, 수업 하는 환경은 그대로 진행하게 되었다. 다만 토요일이라 IFC 로 출입하는 에스컬레이터가 동작을 하지 않는 정도의 사소한 불편함은 감수해야 하겠다.토요일 개강에 일정 조율이 복잡한 사정이 있어서 새벽 4시에 인천공항에 도착을 하였고, 성남에 가서 짐 풀고 정신을 차린 후 오전에 다시 여의도까지 이동을 하였다. 수업이 한 시부터이니 끼니 걱정도, 주말 주변의 식당 사정 등도 조사가 필요했고, 토요일 오전의 여의도는, 특히 출근하는 곳으로서 여의도는 꽤나 독특한 느낌이다.변경 기간 전에 신청한 DFMBA 학생은 38명 정도였는데, 변경 기간에 학생 수가 89명까지 늘어났다. 쉽다고 소문이 난 건지, 토요일 오후가 진입 장벽을 오히려 낮춘 건지, 한 번 들어 보자 생각한 학생들이 있는 건지 등의 생각들이 들었지만, 출석 체크를 조금 더 빡빡하게 하고, 중간 과제가 추가되었다는 이야기들로 인원들이 조절되면 한다. 준비한 내용들1주) 강의 소개 - 인공지능과 추천시스템 2025년 2학기1주) 금융 - 시작하며1주) 인공 지능 - 시작하며1주) 추천 시스템 - 시작하며 나눈 이야기들예년처럼 일단 첫번째 주에는 내 이야기를 하는 것으로 시작하였다. 다른 전문 교수님들께서 전하지 못하는 현업에서의 일들에서의 이야기들을 전하는 게 이 과목의 목표이기도 했고, 작년과 같은 마음으로 변경을 해야 하겠다는 학생들이 있으면 그 기회를 주는 게 맞다고도 생각해서 첫 시간은 내가 했던 역할들, 맡았던 과제들, 풀었던 문제들에 대해 큰 틀에서 이야기를 나누었다. 2025년을 맞이하면서 업계에서 일어나는 여전히 새롭고 많은 내용들을 다듬으며 새로 붙여 보고 있다.한 학기 내내 힘 닿는 대로 세 가지 키워드들 ‘금융', ‘인공 지능', ‘추천 시스템' 에 대해 이야기를 나누는데, 워낙 여러 의미로 쓰이는 단어들인지라 그 차이들, 각각의 영역에서 쌓아 올린 그 무게들에 대해 먼저 이야기들을 했다. 특히 세 키워드 중 나날이 더 유명해 지는 인공지능에 쏠리는 관심들을 어떻게 정리해 나갈 것인가, 어떤 이야기들을 나누어야 할 것인가는 여전히 고민 거리이다.마지막으로 꽤 오랜 시간을 할애해서 각 주별 수업의 구성, 중간 과제와 기말 과제 소개, 조교들과 오피스 아워를 통한 조절 등 한 학기를 준비하는 내용들을 나누었다. 링크드인 연락처를 조금 더 자주 나누고 있는데, 서로 불안한 지금과 어떻게든 새로운 일들이 벌어질 내년을 맞이하며 새로운 인연들이 닿기를 바라는 마음이 많다. ps.수업 후에는 스타필드에서 AWS 와 메가존클라우드가 같이 진행하는 해커쏜 결과 발표를 참관,응원,지원하러 다녀 왔다. 코딩 어시스턴트 영역으로 Q developer, 재미난 아이디어들이 playable 데모로 보이는 등 여러 생각들이 드는 조금 긴 하루였다.
대학 교육 기타
2025. 09. 11.
0
2025년 2학기-인공지능과 추천 시스템 강의 준비
KAIST 경영대학원 Digital Finance MBA 들어가며 2023, 2024년에 이어 올해에도 KAIST 경영대학원의 Digital Finance MBA 과정에 같은 과목의 강의를 하게 되었다. 같은 과목을 세번째 하면 익숙해 질만도 한데, 주제가 주제인지라 여전히 어떤 시간을 어떤 내용을 이야기하면서 지내야 할 지 어렵다. 반 년 사이에 수많은 일들이 있었고, 각종 새로운 정보들이 뉴스, 블로그, 유튜브의 형태로 넘쳐나고, 해 봐서 아는 것보다 들어 봐서 알 거 같은 이야기들이 훨씬 많은 세상이 되어 가고 있다.이번은 재임용의 수속을 밟는 거라 지난 학기의 강의 평가 점수가 변수로 작용했다. 전문적인 교수님들보다 낮은 평가 점수는 한편으로는 당연한데, 학과의 평균을 깎고 있는 상황이라 이에 대한 보완책을 심사 때 요청을 받았고, 그 방안으로 1) 수업은 토요일 낮에 , 2) 온라인 수업 최소화 , 3) 더 많은 숙제, 4) 출석 체크의 강화 등을 action item 으로 제안하게 되었다.먼저, 장소는 작년과 같이 여의도 IFC 빌딩 17층. 작년까지 KAIST 가 전체 층을 썼지만, 이번 학기부터는 서울 국제 금융 오피스 내에 강의실을 대여해서 쓰는 형태이고, 공용 대기실 등으로 작년 대비 살짝 불편해진 상황이 되었다. 여기가 여의치 않으면 홍릉으로 다시 간다고 하는데, 그래도 지하철에서 가까운 여기가 나은 게 아닌가 싶고, 여러 새로운 일들이 벌어질 내년은 어떨까 싶긴 하다.시간은 토요일 오후 1시-4시, 16주 수업에 추석 연휴 2주, 2번의 금요일 수업 등의 난이도가 있게 될 거 같다. 임용은 2025년 8월 말부터 1년간. 매번 마지막이 될 지 모른다는 생각이지만, 1주일에 반나절을 선생님으로 지내 보겠다고 하는 개인적인 목표를 유지하며 달성하고 싶고, 나머지 주중의 일상 시간을 같이 보내고 있는 회사 관계자 분들께 폐가 가지 않도록 하면서 한국과 미국을 오가려면 긴장을 더 하고 열심히 살아야 겠다는 다짐을 해 본다.그 사이에 지난 졸업생들 중 일부가 취직 후 감사 인사를 건네 주기도 했고, 교수 자격으로 써 준 유학용 추천서가 도움이 되기도 하는 등의 기쁜 일들도 있었더랬다. 매번 좋은 인연들만 만날 수야 있겠냐마는, 직장인들의 업무 바깥 시간 내어 하는 도전에 조그마한 도움이 되면 하고, 다른 한편으로는 새로운 걸 거꾸로 배우고 싶은 개인적인 욕심이 살짝 채워지면 한다. 아울러 어려운 만남에 좋은 인연이 만들어 지면 하는 행운도 바래 본다. 토요일을 거의 풀로 할애를 하게 될 거 같아서 가을에 당일 등산 일정들에는 영향을 줄 수 있을 거 같은 건 아쉽다 하겠다. 작년과 달라지는 올해 계획들중간 과제로 Kaggle / Dacon 을 이용한 EDA 리포트를 제출하게 할 예정이다.기말 과제 발표는 최종적으로 10-15분 정도의 녹화 영상을 제출하고 그걸 수업 시간에 틀어 발표하도록 한다.출석 체크를 수업 중과 수업 끝의 두 번을 하도록 하고, 그에 맞는 점수 배점을 적용한다.모두 작년 학생들 피드백으로 받은 내용들에 대한 보완 제안이고, 학생들이 조금 더 진지하게 받아 주면 하는 바램이다. 정원 60명에 일단 디지털 금융 MBA 학생들이 36명이 지원했지만, 이후에 변경 기간에 아주 많은 학생들이 조인해서 첫 수업 전에는 90명 정도의 인원이 신청하는 것으로 안내가 되었다. 지난 학기에 학생들 사이에 만만하다고 소문이 난 것인지… 작년 대비해서 빡빡해진 내용들로 첫 수업 때 바뀌는 내용들을 듣고 몇 명이 빠져 나가지 않을까 하는 바램도 있는데, 왠지 그건 그것대로 서운할 수도 있겠다..새로 나올 state-of AI 등을 위한 시간, 구글과 플레이스토어 제품의 심화 설명 등을 위한 특강을 위한 시간 등으로 제품과 사용자 이야기들을 조금 더 알차게 채워 보리라는 생각이다. 올해도 이 매거진을 이용해서 자료들을 모을 계획이고, 기록으로 남아 필요한 분들께 도움이 되면 한다.
대학 교육 기타
・
강의
・
금융
2025. 08. 05.
0
AI에게 물어 보기 - "어느 영화 장면이지?"
어느 영화 장면이지 ? 보던 뉴스 피드에 아래와 같은 뉴스가 잡혔다.흐릿한 눈으로 보기에 소녀시대 서현 같아 보이긴 하는데, 요즘엔 역주행들도 뜨고 한다니 무슨 영화일까 궁금했고, 오랫만에 AI 들에게 물어보았다. 이미지만 캡쳐했고, 질문은 '어느 영화 장면이지?'AI 들에게 물어보는 것도 오랫만이라 다들 많이 변했을 거고, 유료 무료 헷갈리는 부분들도 있을테지만, 사용자로서 나는 기존 검색에 물어 봐야 할까? 이미지 + 어떤 prompt를 써야 할까 여럿 고민이 되는 순간이었다.오늘 사용한 이미지 https://www.wikitree.co.kr/articles/1070066 오늘의 결과구글 ( Lens ) > 구글 검색 > 하이퍼 클로버 = ChatGPT = claude = perplexity = wrtn.ai > Gemini = Liner구글 렌즈 ( 10/10 )구글 렌즈 검색 결과언젠가부터 렌즈는 엔터 버튼이 없어졌다. 대신 추가적인 입력을 받으려는 화면을 구글 이미지로 검색 결과를 보여 준다. 더 물어볼 거 없이 정답이 나왔고, 신문기사에 인용되는 등의 유명한 그림에 대해서는 search URLs by image 가 아주 잘 작동한다. 이미지 분석이고 뭐고 간에 이 이미지를 가지고 있는 문서들을 모아 오면서 거기서 정답을 찾았음이리라. 구글 검색 ( 8/10 )search by image 를 바로 부르고 있지만, 신문 기사들의 아슬아슬함 때문인지 영화 제목이 보이진 않는다.가까스로 #거룩한 밤 이 아래에 태그로 보여 아하.. 싶은 정도. 아무 거나 클릭해서 읽어 봤으면 제목을 알았겠지 ?? 하이퍼 클로버 = ChatGPT = claude = perplexity = wrtn.ai ( 5/10 ) 모릅니다.. 라며 이야기들 함. 클로바 결과ChatGPT 결과 claude 결과 퍼플렉시티 결과 wrtn.ai 결과 Gemini (2.0)다른 영화를 가르쳐 줌. 서현이 나온 예전 영화라서 흠칫 했었음. 아예 어이없는 영화를 보여준 아래의 결과와 나름 고민해서 그래도 서현은 맞췄군 하며 비교 우위 인정. Gemini 결과 Liner ( 1.0 )아무 데나 기생충이라고 하면 안 됨. getliner 결과 ps.뤼튼아... 나는 '최상님'은 아님...
대학 교육 기타
2025. 07. 30.
0
DATA+AI 서밋 2025 - 데이터브릭스 데이터와 AI의 미래를 그리다.
이 글은 제가 NIA [한국지능정보사회진흥원]의 2025년 7월호에 기고한 글입니다. 원본 글 ‘2025년 AI 현황 보고서 리뷰’를 이곳 브런치에서도 공유합니다. 이 글은 제가 가진 여러 개의 아이덴티티 중에서 “메가존 클라우드 기술 자문 엔지니어”의 역할에 충실하며 작성한 글입니다.들어가며 : 데이터 시대의 새로운 지평 – 데이터브릭스의 부상지난 호에서 클라우드 데이터 웨어하우스의 선두 주자 스노우플레이크(Snowflake)를 분석한 데 이어, 이번 달에는 데이터 레이크와 데이터 웨어하우스의 장점을 결합한 '레이크하우스 아키텍처'의 선구자인 데이터브릭스를 조명한다. 데이터브릭스는 단순한 데이터 분석 도구를 넘어, 데이터와 AI의 융합을 선도하는 '데이터 인텔리전스 플랫폼'으로서 기업의 디지털 혁신을 가속화하고 있다. 특히 올해 Data + AI 서밋 2025를 비롯한 다양한 혁신적인 발표를 통해 그 입지를 더욱 공고히 하고 있다.데이터브릭스는 방대한 양의 정형 및 비정형 데이터를 효율적으로 저장, 처리, 분석하고, 나아가 머신러닝 및 AI 워크로드까지 지원하는 엔드-투-엔드 통합 플랫폼이다. 특히 오픈 소스 기술에 대한 깊은 기여와 이를 기반으로 한 혁신은 데이터브릭스를 현대 데이터 환경의 핵심 플레이어로 만들고 있다.이러한 맥락에서, 스노우플레이크와 데이터브릭스를 연속적으로 다루며 비교하는데,.스노우플레이크가 클라우드 데이터 웨어하우스의 강력한 주자로서 SQL 기반 분석과 비즈니스 인텔리전스(BI)에 특화된 반면, 데이터브릭스는 레이크하우스 아키텍처를 통해 데이터와 AI의 통합이라는 더 넓은 비전을 제시한다. 이는 시장의 관심이 단순 데이터 저장 및 분석을 넘어 AI와의 시너지를 추구하는 방향으로 진화하고 있음을 반영하며, 각 플랫폼이 현대 데이터 환경에서 어떤 고유한 가치를 제공하는지 이해하는 데 필수적이다. 데이터브릭스: 통합된 데이터 인텔리전스 플랫폼의 핵심레이크하우스 패러다임데이터브릭스의 핵심은 '레이크하우스(Lakehouse)' 아키텍처이다(그림 1). 이 아키텍처는 데이터 레이크의 유연성(다양한 데이터 형식 지원, 저비용 스토리지)과 데이터 웨어하우스의 구조 및 성능(ACID 트랜잭션, 스키마 강제 적용, 데이터 품질, BI/SQL 성능)을 결합한 것이다. 이를 통해 기업은 정형 및 비정형 데이터를 모두 처리하고 분석하며, 머신러닝 워크로드까지 단일 소스에서 지원할 수 있다. 그리고, 데이터브릭스는 아파치 스파크(Apache Spark), 델타레이크(Delta Lake), MLflow 등 핵심 오픈 소스 프로젝트를 기반으로 이 레이크하우스를 구현하며, 데이터의 신뢰성과 성능을 보장한다.그림 1 레이크하우스 레퍼런스 구조 주요 기능 및 강점데이터브릭스 플랫폼은 다양한 데이터 및 AI 워크로드를 지원하는 포괄적인 기능을 제공한다. ETL 및 데이터 엔지니어링: 데이터브릭스는 아파치 스파크(Apache Spark)의 강력한 대규모 데이터 처리 능력과 델타레이크의 안정적인 데이터 레이크 기능을 결합하여 탁월한 ETL(Extract, Transform, Load) 경험을 제공한다. 사용자는 SQL, 파이썬, Scala를 사용하여 ETL 로직을 구성할 수 있으며, 몇 번의 클릭만으로 스케줄링된 작업 배포를 조율할 수 있다. 오토로더(Auto Loader)는 클라우드 객체 스토리지 및 데이터 레이크에서 데이터를 레이크하우스로 효율적으로 증분 로딩하는 도구이며, 레이크플로우 선언형 파이프라인(Lakeflow Declarative Pipelines)은 데이터셋 간의 종속성을 지능적으로 관리하고 프로덕션 인프라를 자동으로 배포 및 확장하여 ETL 로직을 더욱 간소화하며 적시에 정확한 데이터 전달을 보장한다. 머신러닝, AI 및 데이터 과학: 데이터브릭스 머신러닝은 MLflow를 통한 모델 수명 주기 관리, 허깅페이스 트랜스포머(Hugging Face Transformers)와 같은 다양한 ML 라이브러리 지원 등 데이터 과학자와 ML 엔지니어의 요구에 맞는 포괄적인 도구들을 제공한다. 특히 대규모 언어 모델(LLM)과 생성형 AI에 대한 깊은 통합이 주목할 만한데, 사용자는 자체 데이터로 LLM을 커스터마이징하고, 오픈AI 모델 같은 파트너 솔루션을 워크플로우에 통합할 수 있다. 또한, 데이터 분석가도 AI 함수(Functions)를 통해 오픈AI 등 LLM 모델에 직접 접근하여 데이터 파이프라인 및 워크플로우 내에서 AI를 적용할 수 있다. 관리형 오픈 소스 통합: 데이터브릭스는 오픈 소스 커뮤니티에 대한 강력한 의지를 가지고 있으며, 델타레이크, 델타셰어링(Delta Sharing), MLflow, 아파치 스파크, 리대시(Redash), 유니티 카탈로그(Unity Catalog)와 같은 핵심 오픈 소스 프로젝트의 업데이트 및 통합을 데이터브릭스 런타임 릴리스를 통해 관리한다. 데이터브릭스 vs. 스노우플레이크:데이터브릭스와 스노우플레이크는 현대 데이터 관리 및 분석 시장에서 각기 다른 아키텍처 철학과 강점을 가지고 경쟁하고 있다.아키텍처 철학 비교데이터브릭스(레이크하우스): 데이터 레이크를 기반으로 데이터 웨어하우스의 기능을 통합하여, 정형/비정형 데이터, ETL, BI, ML/AI를 단일 플랫폼에서 처리하는 데 중점을 둔다. 이는 유연성과 확장성, 그리고 특히 AI/ML 워크로드에 최적화된 환경을 제공한다.스노우플레이크(클라우드 데이터 웨어하우스): 스토리지, 연산, 서비스 계층이 완벽하게 분리된 독점적인 클라우드 네이티브 아키텍처를 통해 SQL 기반의 데이터 웨어하우징 및 비즈니스 인텔리전스(BI) 분석에 최적화된 성능과 관리 용이성을 제공한다. 스노우플레이크는 하드웨어 선택, 설치, 구성 또는 관리가 필요 없는 '거의 제로에 가까운 관리' 플랫폼으로 설계되었다. 주요 기능 및 사용 사례 비교두 플랫폼은 각자의 강한 영역에서 차별화된 기능을 제공한다.데이터 웨어하우징 및 BI: 스노우플레이크는 SQL 쿼리 및 BI 애플리케이션에서 탁월한 성능을 제공하며, '자동 스케일링', '제로-카피 클로닝', '타임 트래블', '데이터 공유' 등의 독점적 기능으로 데이터 분석가에게 편리함을 제공한다. 데이터브릭스는 레이크하우스 아키텍처를 통해 데이터 웨어하우스 기능을 수행할 수 있지만, 주로 빅데이터 처리 및 복잡한 데이터 엔지니어링에 강점을 가진다.머신러닝 및 AI: 데이터브릭스는 MLflow, 데이터브릭스 런타임, 에이전트 브릭스(Agent Bricks), 딥스피드(DeepSpeed) 등 포괄적인 ML/AI 도구와 프레임워크를 이용하여 데이터 과학자 및 ML 엔지니어에게 강력한 환경을 제공한다. 스노우플레이크는 인-데이터베이스 머신러닝을 지원하며 파이썬 UDFs 및 저장 프로시저를 지원하지만, 데이터브릭스만큼 ML/AI 생태계가 깊이 통합되어 있지는 않다.오픈 소스 및 개방성: 데이터브릭스는 델타레이크, 아파치 아이스버그 등 오픈 소스 표준에 대한 강력한 지지를 통해 데이터 형식에 대한 벤더 종속성을 최소화한다. 반대로 스노우플레이크는 독점적인 아키텍처를 가지며, 데이터 객체는 SQL 쿼리 작업을 통해서만 직접 접근 가능하다.멀티-클라우드 전략: 데이터브릭스는 AWS, 애저, GCP 전반에 걸쳐 원활하게 작동하며, 통합 제어 플레인을 통해 벤더 종속성을 피할 수 있는 유연성을 제공한다. 스노우플레이크 또한 클라우드 기반이지만, 데이터브릭스처럼 오픈 소스 기반의 멀티-클라우드 유연성을 강조하지는 않는다. 데이터브릭스의 2025년 혁신: 데이터와 AI의 경계를 허물다데이터브릭스는 2025년 한 해 동안, 특히 2025년 6월 9일부터 12일까지 샌프란시스코 모스콘 센터에서 개최된 Data + AI 서밋 2025에서 데이터 관리, 분석, AI 개발 및 배포 전반에 걸쳐 수많은 혁신적인 기능을 발표하며 '데이터 인텔리전스 플랫폼'으로서의 입지를 더욱 공고히 했다. 강화된 거버넌스 및 데이터 검색데이터브릭스는 유니티 카탈로그를 중심으로 데이터 거버넌스와 검색 기능을 대폭 강화했다. 아파치 아이스버그(Apache Iceberg) 상호 운용성 강화: 데이터브릭스는 유니티 카탈로그가 아파치 아이스버그 REST API를 완벽하게 지원한다고 발표했다. 이는 데이터 형식 종속성을 제거하고, 델타레이크와 아이스버그 간의 호환성 문제를 해결하며, 이전에 없던 상호 운용성을 제공한다. 비즈니스 사용자로의 거버넌스 확장: 유니티 카탈로그 지표(Metrics): 중앙에서 정의되고 인증된 비즈니스 지표를 지원하여, 파편화된 지표 정의로 인한 보고 불일치와 불신 문제를 해결한다. 이 기능은 AI/BI 대시보드, SQL, 레이크플로우(Lakeflow) 작업 등 모든 곳에서 재사용 가능한 시맨틱 레이어를 제공하며, 감사 및 계보 추적 기능이 기본으로 제공되어 향후 타블로(Tableau) 같은 주요 BI 도구 및 몬테카를로(Monte Carlo)와 같은 관측 가능성 도구와의 통합도 가능하게 한다. 디스커버(Discover) 경험: 비즈니스 도메인별(예: 영업, 마케팅, 재무)로 정리된 인증된 데이터 제품의 큐레이션된 내부 마켓플레이스를 제공하여, 사용자가 고가치 데이터 및 AI 자산을 쉽게 발견할 수 있도록 돕는다. 데이터 품질, 사용 패턴, 관계, 인증 상태를 강조하는 지능형 신호와 데이터브릭스 어시스턴트를 통한 자연어 질문 기능도 포함된다. 고급 거버넌스 기능: 속성 기반 접근 제어 (ABAC): 태그를 사용하여 카탈로그, 스키마, 테이블 수준에서 유연한 접근 정책을 정의할 수 있으며, 행 및 열 수준 보안에 적용된다. 태그 정책: 태그 생성, 할당, 사용 방식에 대한 거버넌스 계층을 강제하여 데이터 분류 및 비용 할당에 일관성을 보장한다. 데이터 분류: 유니티 카탈로그 내 민감 데이터를 지능적으로 감지하고 태그를 자동으로 지정하여 수동 작업을 최소화하고 ABAC와 연동하여 민감 데이터를 자동으로 보호한다. 외부 데이터 계보 통합: 데이트브릭스 외부에서 실행되는 워크로드(예: 첫 마일 ETL, 마지막 마일 BI)의 외부 계보 메타데이터를 유니티 카탈로그에 추가하여 엔드-투-엔드 계보 뷰를 제공한다. 그림 2 유니티 카탈로그의 통합 거버넌스 구조 이러한 유니티 카탈로그의 발전은 데이터 거버넌스가 더 이상 규제 준수를 위한 단순한 부담이 아니라, 데이터 자산의 신뢰도를 높이고, 비즈니스 사용자가 필요한 데이터를 더 쉽고 안전하게 찾아 활용하며, 궁극적으로 데이터 기반 의사결정의 속도와 정확성을 높이는 핵심적인 비즈니스 가치로 진화하고 있음을 보여준다. 특히 AI 기반 자동화는 거버넌스 오버헤드를 줄이면서 효율성을 극대화하는 방향으로 나아가고 있다. 데이터 접근 및 분석의 민주화데이터브릭스는 비즈니스 사용자들이 데이터에 더 쉽게 접근하고 활용할 수 있도록 지원하는 기능들을 선보였다. 레이크베이스(Lakebase) 아키텍처: 서버리스, 완전 관리형 Postgres 호환 OLTP 데이터베이스를 레이크하우스에 통합했다. 이 아키텍처는 ACID 준수, 10ms 미만의 낮은 지연 시간, 브랜칭, 시점 복구, 독립적인 컴퓨트 스케일링을 제공하여 트랜잭션 및 분석 워크로드를 통합하고 ETL 오버헤드 없이 실시간 하이브리드 애플리케이션을 가능하게 한다. 지니(Genie) AI/BI 및 딥리서치(Deep Research): 대화형 분석을 제공하는 지니 서비스가 사용 가능하고, 딥 리서치는 맥락 기억을 통한 다중 턴 추론으로 심층 분석을 가능하게 한다. 이는 비즈니스 사용자가 정적 대시보드를 넘어 설명 가능한 대화형 분석을 통해 더 깊은 통찰력을 얻도록 돕는다. 데이터브릭스 원(Databricks One): 클러스터나 노트북이 필요 없이, 대시보드, 지니, 앱에 접근하기 위한 간소화된 통합 UI를 제공한다. 이러한 기능들은 데이터 전문가가 아닌 일반 비즈니스 사용자도 데이터에 직접 질문하고, 대화형으로 분석하며, 복잡한 ETL 없이도 실시간 데이터를 활용할 수 있도록 한다. 비즈니스 사용자가 데이터와 AI에 더 쉽게 접근하고 활용할 수 있게 됨으로써, 기업 전체의 데이터 리터러시가 향상되고, 데이터 기반 의사결정 주기가 단축되며, 혁신 아이디어가 더 빠르게 실행될 수 있는 환경이 조성되는데, 이는 궁극적으로 기업의 경쟁력 강화로 이어질 수 있다. 그림 3 데이터브릭스 지니 화면 데이터 운영 및 마이그레이션 가속화데이터브릭스는 데이터 운영의 효율성을 높이고 기존 데이터 웨어하우스에서 레이크하우스로의 전환을 가속화하는 데 중점을 두었다. 레이크플로우 디자이너(Lakeflow Designer): AI 기반의 노코드 ETL 빌더로, 드래그 앤 드롭 및 자연어 인터페이스를 통해 레이크플로우 선언형 파이프라인을 생성한다. 이는 분석가와 엔지니어 간의 ETL 핸드오프를 간소화하여 프로토타이핑 속도를 높이고 거버넌스를 개선하며 파이프라인 개발 시간을 단축한다. 그림 4 레이크플로우 디자이너 화면레이크플로우 마이그레이션 프레임워크(Lakebridge Migration Framework): 블레이드브릿지(Bladebridge) 인수를 통해 확보한 무료 오픈 소스 툴킷으로, 데이터 웨어하우스 마이그레이션 워크플로우의 최대 80%를 자동화한다(프로파일링, SQL 변환, 검증 포함). 이는 복잡하고 비용이 많이 드는 마이그레이션 부담을 줄여 레이크하우스로의 전환을 가속화한다. 예측 최적화(Predictive Optimization) 및 자동 리퀴드 클러스터링(Automatic Liquid Clustering): 쿼리 패턴을 분석하여 최적의 클러스터링 키를 자동으로 선택하고 테이블을 클러스터링하여 쿼리 성능을 최대 10배 향상시키고 비용을 절감한다. 특히 자동화와 AI 기반 최적화는 수동 개입의 필요성을 최소화하여 데이터브릭스가 단순히 기능 확장을 넘어, 고객의 총 소유 비용(TCO)을 절감하고 운영 효율성을 극대화하는 데 중점을 두고 있음을 보여준다. 복잡한 데이터 환경에서 발생하는 비효율성을 제거함으로써, 기업은 더 많은 자원을 혁신적인 프로젝트에 투입할 수 있게 되며, 이는 장기적으로 데이터브릭스 플랫폼의 경제적 가치를 높이는 요인이 된다. AI 개발 및 배포의 진화데이터브릭스는 생성형 AI 시대에 발맞춰 AI 개발 및 배포 환경을 크게 발전시켰다. 에이전트 브릭스(Agent Bricks): 프로덕션 수준의 AI 에이전트 생성을 간소화하는 새로운 프레임워크로, 노코드 작업 정의, 내장된 평가 생성, 프롬프트 튜닝, 파인튜닝, 보상 모델 등 자동화된 최적화 기술을 제공한다. 이를 통해 고품질의 비용 효율적인 에이전트를 신속하게 배포할 수 있으며, Flo Health와 같은 고객은 정확도를 두 배로 높이면서 LLM 비용을 최대 10배 절감했다고 보고했다. PDF 문서 처리 기능도 추가되어 마크다운으로 변환해서 에이전트 브릭스에서 활용할 수 있게 되었다. 서버리스 GPU 연산: 서버리스 컴퓨팅의 일부로, 커스텀 단일 및 멀티 노드 딥러닝 워크로드에 특화되어 있다. 사용자는 최신 프레임워크를 사용하여 모델을 훈련하고 파인튜닝할 수 있어 효율성, 성능, 품질을 극대화한다. 새로운 AI 함수들(Functions): ai_parse_document() 함수를 통해 비정형 문서에서 구조화된 콘텐츠를 추출하는 등, SQL 데이터 분석가도 LLM 모델에 직접 접근할 수 있는 기능을 제공한다. LLM 모델 확장: 클로드 소넷 4, 클로드 오푸스, 라마 4 등 최신 LLM 모델들이 모자이크 AI 모델 서빙(Mosaic AI Model Serving) 및 파운데이션 모델 API를 통해 지원된다. 벡터 검색(Vector Search) 및 AI 게이트웨이(Gateway): 벡터 검색 인덱스를 사용하여 AI 플레이그라운드에서 도구 호출 생성형 AI 에이전트를 프로토타이핑하고, AI 게이트웨이가 커스텀 모델 서빙 엔드포인트를 지원하는 등 AI 개발 생태계를 확장했다. 이러한 광범위한 AI 관련 발표는 데이터브릭스가 레이크하우스 기반의 데이터 인텔리전스 플랫폼 비전을 통해, 기업이 생성형 AI를 실제 비즈니스에 적용하고 확장하는 데 필요한 엔드-투-엔드 인프라와 도구를 제공하려는 강력한 의지를 보여준다. 데이터브릭스는 데이터 관리와 분석을 넘어, AI 모델의 개발, 배포, 거버넌스까지 아우르는 통합 플랫폼으로서 생성형 AI 시대의 핵심 인프라 제공자로 자리매김하려 하고 있으며, 이는 스노우플레이크가 아직 따라잡지 못한 영역에서 데이터브릭스의 강점을 보여 준다. 맺으며: 데이터와 AI의 미래를 향한 데이터브릭스의 비전데이터브릭스는 레이크하우스 아키텍처를 기반으로 데이터 엔지니어링, 분석, 머신러닝, 그리고 생성형 AI까지 아우르는 통합 '데이터 인텔리전스 플랫폼'으로 진화하고 있음을 2025년의 여러 혁신을 통해 명확히 보여주고 있다. 오픈 소스에 대한 강력한 지지와 비즈니스 사용자 중심의 접근 방식은 이러한 비전을 현실화하는 핵심 동력으로 작용하고 있다.데이터 플랫폼 시장은 통합과 전문화라는 이중 트렌드를 동시에 보이고 있다. 스노우플레이크가 클라우드 데이터 웨어하우징 및 BI 분야에서 여전히 강력한 강점을 유지하는 전문화된 길을 걷는 반면, 데이터브릭스는 복잡한 데이터 엔지니어링, AI/ML 워크로드, 그리고 이제는 트랜잭션 데이터까지 포괄하는 통합 플랫폼으로서의 입지를 굳히고 있는데, 이는 기업들이 '단일 통합 플랫폼'을 선호할지, 아니면 '각 분야 최고의 전문 솔루션'을 조합할지에 대한 전략적 고민이 심해 지는 것을 의미한다.데이터브릭스는 전자의 길을 강력하게 추진하며, 특히 AI/ML 워크로드에 대한 통합적 접근을 통해 차별화를 꾀하고 있다. 2025년 발표된 유니티 카탈로그의 거버넌스 확장, 레이크베이스를 통한 OLTP 통합, 지니 AI/BI를 통한 비즈니스 사용자 민주화, 그리고 에이전트 브릭스를 통한 AI 에이전트 개발 간소화는 모두 이러한 통합 비전의 구체적인 구현 사례로서, 데이터와 AI의 융합이 가속화되는 미래 데이터 환경에서 데이터브릭스는 엔터프라이즈 AI의 핵심 인프라 제공자로서 중요한 역할을 수행할 것으로 전망된다. 기업은 자사의 특정 니즈와 워크로드 특성을 면밀히 분석하여, 두 플랫폼 중 어떤 것이 더 적합한지, 혹은 상호 보완적으로 활용될 수 있는지에 대한 심층적인 고려가 필요할 것이다.
대학 교육 기타
・
데이터브릭스
・
기술동향
2025. 07. 02.
0
스노우플레이크 서밋 2025 - 클라우드 데이터 산업을 재정의하다.
이 글은 제가 NIA [한국지능정보사회진흥원]의 2025년 6월호에 기고한 글입니다. 원본 글 '2025년 AI 현황 보고서 리뷰'를 이곳 브런치에서도 공유합니다. 이 글은 제가 가진 여러 개의 아이덴티티 중에서 "메가존 클라우드 기술 자문 엔지니어"의 역할에 충실하며 작성한 글입니다.들어가며지난달, 클라우드 데이터 업계의 두 거인 스노우플레이크(Snowflake)와 데이터브릭스(Databricks)는 각각 연례 글로벌 행사를 성공적으로 개최하며 데이터 및 AI 기술의 최신 트렌드와 혁신을 선보였다. 이 두 서비스는 현재 가장 널리 사용되는 데이터 웨어하우징 도구로 자주 비교되곤 한다.’ 본 글에서는 이 중 스노우플레이크와 관련된 내용을 심층적으로 분석할 예정이다.스노우플레이크 서밋 2025는 2025년 6월 2일부터 5일까지 샌프란시스코 모스콘 센터에서 개최한 연례 행사다. 200개 이상의 파트너사와 20,000명 이상의 참석자가 모인 이 행사는 클라우드 데이터 및 AI 분야의 주요 행사로 확고히 자리매김했다. 데이터 리더, 엔지니어, AI 연구원들이 한자리에 모여 데이터, AI, 클라우드 혁신에 대한 통찰력을 공유하고, 응용 사례, 확장 가능 아키텍처, 협업 솔루션 등에 중점을 둔 세션을 제공했다. 특히, 키노트에서 스노우플레이크 CEO 스리다르 라마스와미(Sridhar Ramaswamy)와 오픈AI 샘 알트만의 대담은 이번 서밋이 AI 시대의 데이터 전략에 있어 중대한 전환점임을 시사한다.그림 1 사라 구오(Sarah Guo)가 진행한 대담 스노우플레이크 소개스노우플레이크는 오늘날 기업들이 데이터에서 최대 가치를 찾을 수 있도록 지원하는 클라우드 기반 데이터 플랫폼이다. 이전에는 데이터 관리 및 활용에 있어 다음과 같은 문제들에 직면해 있었다.파편화된 데이터 환경 및 사일로 : 기업 데이터가 온프레미스 데이터베이스, 다양한 클라우드 서비스, 스프레드시트, 문서 등 여러 시스템에 분산되어 있어 통합된 시각을 얻기 어려웠다. 이는 데이터 사일로를 형성하여 비효율적인 의사 결정으로 이어졌다.복잡하고 비효율적인 데이터 파이프라인 : 데이터 수집, 변환, 로딩(ETL) 과정이 수동적이거나 복잡한 스크립트에 의존하여 시간 소모적이고 오류가 많았다. 특히 실시간 데이터 처리가 어려워 즉각적인 통찰을 얻기 힘들었다.기술 분석가 부족 및 데이터 접근성 한계 : 특정 기술 스택에 대한 전문 지식이 없으면 사용자가 직접 데이터에 접근하고 분석하기가 어려웠고, 이는 데이터 분석 전문가에 대한 의존도를 높여 데이터 활용의 민주화를 저해했다.높은 운영 부담 및 비용 비효율성 : 하드웨어 및 인프라를 설치, 구성, 유지보수하는 데 지속적인 관리가 필요했고, 확장이 비효율적이어서 과도한 비용이 발생하거나 성능 병목 현상이 일어났다.데이터 거버넌스 및 보안의 복잡성 : 민감 데이터의 식별, 분류, 접근 제어, 규제 준수 등이 수동으로 파편화되어 이루어지고 있었다.스노우플레이크는 클라우드 기반의 독자적인 아키텍처를 통해 이러한 문제점들을 해결하고 다음과 같은 방법으로 기업에 혁신적인 가치를 제공한다.통합된 데이터 클라우드 : 구조화된 데이터, 반정형 데이터, 비정형 데이터를 모두 지원하며, 거의 모든 데이터 소스에서 데이터를 통합할 수 있다. 이를 통해 기업은 단일 플랫폼에서 모든 데이터를 활용할 수 있다.간소화된 데이터 파이프라인 및 실시간 처리 : 오픈플로우(Openflow)는 데이터 추출 및 로딩 과정을 스노우플레이크 내에서 직접 처리하여 파이프라인 관리를 최소화 한다.데이터 활용의 민주화 : 비기술 사용자들도 코드 작성 없이 기업 데이터를 사용할 수 있게 하고, 접근성을 높여 직원들이 데이터의 잠재력을 최대한 활용할 수 있도록 돕는다.강화된 거버넌스 및 보안 : 민감 데이터를 자동으로 태그하고 라벨을 전파하며, 모델 수준의 역할 기반 접근 제어(RBAC)를 구현하여 AI 모델 접근을 통제한다.운영 효율성 및 비용 최적화 : 스노우플레이크는 완전 관리형 서비스로, 하드웨어 및 소프트웨어 관리 부담을 없애 준다. 리소스 크기 조정 및 공유를 자동화하여 예측 가능한 비용 관리를 가능하게 한다.개방성 및 유연성 : 아파치 아이스버그(Apache Iceberg) 및 포스트그레스(Postgres)와 같은 개방형 표준 및 기술을 통합하여 다양한 클라우드 환경과 도구를 자유롭게 결합할 수 있다.이러한 변화를 통해 스노우플레이크는 데이터 작업을 "더 간단하고, 저렴하며, 안전하게" 만들고 있다.스노우플레이크의 아키텍처는 기존의 공유 디스크(shared-disk) 및 공유 없음(shared-nothing) 데이터베이스 아키텍처의 장점을 결합한 하이브리드 형태이다. 공유 디스크 아키텍처와 유사하게, 스노우플레이크는 플랫폼 내의 모든 컴퓨팅 노드에서 접근 가능한, 영구적인 데이터를 위한 중앙 데이터 저장소를 사용한다. 하지만 공유 없음 아키텍처와 유사하게, 스노우플레이크는 MPP(대규모 병렬 처리) 컴퓨팅 클러스터를 사용하여 쿼리를 처리하며, 이 클러스터의 각 노드는 전체 데이터 세트의 일부를 로컬에 저장한다. 이러한 접근 방식은 공유 디스크 아키텍처의 데이터 관리 단순성을 제공하면서, 동시에 공유 없음 아키텍처의 성능 및 스케일 아웃(scale-out) 이점을 제공한다.그림 2. 스노우플레이크의 구조그림 2에서 볼 수 있듯이 스노우플레이크는 데이터베이스 스토리지, 쿼리 처리기, 클라우드 서비스의 세 계층으로 구성되어 있다. 퍼블릭 클라우드와 온프레미스 환경 모두에서 구동되며, 웹 UI, SQL 명령어, 다양한 프로그래밍 커넥터, 그리고 외부 도구들과 연동된다. 스노우플레이크 서밋 2025 주요 발표이번 스노우플레이크 서밋 2025에서는 혁신적인 신규 서비스와 기능들이 대거 발표되었다. 특히 AI 중심의 데이터 플랫폼 표준 제시, 데이터 거버넌스 및 보안 패러다임 변화 주도, 그리고 데이터 통합 및 상호 운용성의 새로운 지평 개척이라는 세가지 핵심 영역에서 두드러진 진보를 보였다. 각 영역별 주요 내용을 아래에서 자세히 살펴본다. AI 중심의 데이터 플랫폼 표준 제시스노우플레이크는 AI를 데이터 플랫폼의 핵심으로 통합하며 새료운 표준을 제시했다.스노우플레이크 인텔리전스: 비기술 사용자들도 자연어를 통해 기업 데이터와 대화하고 통찰을 얻을 수 있도록 돕는 새로운 자연어 인터페이스다. 앤스로픽이나 오픈AI의 최신 LLM을 스노우플레이크 보안 경계 내에서 활용하며, 내부적으로 코텍스 에이전트(Cortex Agents)를 통해 작업을 계획하고 분석, 검색 등의 보조 도구를 사용해 응답을 생성한다.데이터 사이언스 에이전트: 데이터 과학자를 위한 AI 코파일럿으로, 머신러닝 모델 개발 작업을 자동화하여 생산성을 높인다. 코드 생성, 파이프라인 제안, 실험 가속화 등을 지원하며, 머신러닝 워크플로우를 간소화하고 반복 프로세스를 빠르게 진행하며 작업 시간을 절약한다.그림 3. 스노우플레이크 인텔리전스와 데이터 사이언스 에이전트 데이터 거버넌스 및 보안의 패러다임 변화스노우플레이크는 데이터 거버넌스와 보안 분야에서도 혁신적인 개선을 이뤘다.개선된 호라이존 카탈로그(Horizon Catalog): 민감 데이터를 자동으로 태그하고 라벨을 생성하며, 코파일럿을 통해 “어떤 테이블에 PII(개인식별 정보)가 누락되었나요?” 와 같은 질문에 답변할 수 있도록 지원한다. 이는 수동 태깅의 시간 소모 문제를 해결하고, 태그 누락에 대한 가시성을 제공하며, AI 모델에 대한 일관되지 않은 접근 제어 문제를 해소하여 데이터 보안 및 규제 준수를 강화한다.포맷 유지 암호(FPE): 전화번호, 이메일, 고객 ID와 같이 특정 데이터 형식에 의존하는 시스템에 중요하며, 원래 구조를 변경하지 않고 민감 데이터를 보호하는 방법이다. FPE는 외부 데이터 공유 시 가독성을 유지하고 세분화된 접근 제어를 가능하게 하며, 다중 테넌트 SaaS 환경에서 테넌트 격리를 유지하는 데 도움을 준다.데이터 활동 모니터링: 잠재적으로 높은 위험이 있는 이상 징후를 감지하고 상세한 가시성을 제공한다.불변 스냅샷: 변경 불가능한 시점 복사본을 유지하여 랜섬웨어와 같은 위협에 대한 추가적인 보험 역할을 한다. 데이터 통합 및 상호 운용성의 새로운 지평스노우플레이크는 데이터 통합 및 상호 운용성을 강화하는 데 주력했다.오픈플로우(Openflow): 배치, 스트리밍, 그리고 구조화 및 비정형 데이터를 아우르는 다양한 워크플로우를 한 곳에서 지원하는 통합 프레임워크다. 아파치(Apache) NiFi를 기반으로 구축된 관리형 통합 서비스로, 사실상 모든 데이터 소스에서 모든 대상으로 데이터를 연결하고 이동할 수 있도록 설계되었다. 쉐어포인트, 슬랙, 구글 드라이브 등 여러 멀티모달 데이터 소스에 직접 연결되어 데이터 수집을 간소화하며, 고객은 오픈플로우를 스노우플레이크 관리 인프라 또는 자체 클라우드(BYOC) 내에 배포할 수 있어 운영 부담을 크게 줄일 수 있다. 이는 복잡하게 파편화된 데이터 스택과 수동적인 데이터 수집 작업을 없애 데이터 이동을 간편하게 하고, 궁극적으로 AI 기반 혁신을 신속하게 배포할 수 있도록 돕는다.그림 4. 스노우플레이크 오픈플로우 에코시스템개방형 레이크하우스 아키텍처에 지원 강화: 데이터 통합 및 상호 운용성을 더욱 확대한다. 아파치 아이스버그 통합 및 성능 향상은 VARIANT 지원 및 읽기 시 병합(Merge-on-Read) 기능을 통해 형식 격차를 줄이고 쿼리 속도를 높인다.이를 통해 고객은 고성능 엔진으로 거의 모든 아이스버그 테이블을 활성화하고, 더 많은 데이터에서 더 깊은 통찰을 얻을 수 있다. 이러한 움직임은 고객에게 저장 형식이나 엔진에 대한 '선택의 자유'를 제공하여 각 워크로드에 가장 적합한 도구를 사용할 수 있도록 한다.스노우플레이크 포스트그레스: 크런치 데이터(Crunchy Data) 인수를 통해 선보이는 서비스로 엔터프라이즈급 PostgreSQL을 플랫폼에 통합했다. 분석 워크로드와 트랜잭션 워크로드를 단일 플랫폼에서 처리할 수 있게 함으로써, 기존의 운영 데이터베이스와 분석 웨어하우스 간의 사일로를 허물고 데이터 파이프라인을 간소화한다.스노우플레이크 마켓플레이스 확장: 파트너 생태계의 중요성이 증가하고 있음을 명확히 보여준다. 에이전틱 앱과 코텍스 익스텐션(Cortex Knowledge Extensions)과 같은 사전 구축된 솔루션의 도입은 기업이 모든 워크플로우를 처음부터 개발하는 대신, 검증된 솔루션을 활용하여 AI 이니셔티브를 가속화할 수 있도록 '구축' 대 '구매' 결정을 돕는다. 이는 스노우플레이크 플랫폼 내에서 서드파티 AI 도우미를 직접 설치할 수 있게 함으로써, 데이터 이동 없이도 풍부한 기능과 전문 지식을 활용할 수 있는 환경을 조성한다.그림 5. 스노우플레이크 마켓 화면 맺으며이번 연례 행사를 통해 스노우플레이크는 단순한 클라우드 데이터 웨어하우스를 넘어, AI 시대의 핵심 데이터 플랫폼으로 진화하고 있음을 명확히 보여주었다. 개발자와 기업이 스노우플레이크 위에서 앱을 구축하고, AI를 활용하며, 워크플로우를 실행할 수 있는 완성형 생태계를 지향하며 클라우드 데이터 산업의 판을 주도하려는 야심을 드러냈다.이를 이용하는 고객으로서의 기업은 새로운 기술을 단순히 도입하는 것을 넘어, 강력한 데이터 기반을 구축하는 데 집중해야 한다. 이는 명확한 데이터 모델, 데이터 품질 및 접근성에 대한 명확한 소유권, 그리고 새로운 유연성 속에서 거버넌스를 확장하는 방법을 고민하는 것을 포함한다. AI 에이전트와 같은 새로운 기능은 데이터가 신뢰할 수 있을 때 비로소 진정한 가치를 발휘할 수 있으므로, 기업은 시맨틱 뷰를 통해 핵심 비즈니스 지표에 대한 공유된 의미를 확립하고, 민감 데이터 태그 지정을 활성화하며 , 메타데이터를 통해 AI의 신뢰성을 확보하는 데 투자해야 한다.다음 글에서는 데이터브릭스의 최근 행보와 클라우드 데이터 산업에 미치는 영향에 대해 정리할 예정이다.
대학 교육 기타