블로그

wikipedia 25주년을 맞이하며 - 나의 첫번째 백과 사전

Wikimedia 가 창립 25주년을 맞이하며( https://wikimediafoundation.org/wikipedia25/ ) 주요 BigTech 들과의 협업을 뉴스로 접하게 되었다. ( https://news.nate.com/view/20260116n08571 ). 주로 위키피디아지만, 검색 현업에 있을 때, 혹은 그 이전부터 접했으니 나도 20년 정도는 열혈 사용자였던 거 같고 여러 가지 연관된 생각과 이야기들. 사용자의 시각에서먼저 꽤 오랫동안 접속할 때마다 donation 을 강요(?)하는 배너를 보며 한편으로 마음이 많이 불편했는데, 먼저 그 걱정은 덜게 되어 다행이라는 생각이다.초기 미국 이민자의 삶을 살 때 가장 믿고 의지했던 사이트. 구글에서 검색을 하고, 그럴 듯한 위키피디아 페이지가 결과에 보이면 많이 안심하며 무조건 읽으면서 배워 나갔다. 연예계 소식, 역사 이야기, 각종 수학 공식들까지. 어린 시절 집 어딘가에 있었던 백과사전이 이런 것이었겠군 싶었던 내용들. 영어 공부도 이걸로 했었고, 인용된 링크들이 믿음직하던 것들도 덤.2026년 현재 여전히 방문자 수 세계 10위 이내에 드는 초대형 사이트. 사람들이 좋아하는 만큼 AI 들이 좋아하는 것도 당연하겠고, 아마도 나 같은 사용자 덕에 구글 같은 검색 엔진의 도움도 있었을 테니 그것도 당연함. 광고 없이 파트너십과 재단으로 운영된다는 것이 여전히 믿기지 않는다. 몇몇 예민한 내용들은 가짜뉴스의 소재로 사용되기도 한다지만, 특별한 정치적 소재가 아니고서는 믿고 보던 사이트. 개발자의 시각에서web page , dump , API 접근 , database export 지원까지.. 이렇게까지 친절해도 될 일인가 싶을 정도로 완벽한 방법들을 제공한다. 일단 영어권에 필요한 내용들은 다 있고, flat 한 directory 구조이지만 URL 과 문서의 제목을 잘 찾아 내기만 하면 자연스레 navigate 할 수 있다. 웹 페이지 펼쳐 놓고, 터미널 비교하기도 너무 수월하고.. 페이지 자체가 보통 너무 길지도 너무 짧지도 않게 되어 있는데, 이건 내가 훈련이 되어서 그렇다고 하겠다.구글 검색 현업에 있을 때 사내에 daily dump 가 있어서 공공재로 사용했던 기억들이 있고, 저 flat 한 구조는 freebase 와 엮이면서 시너지를 내고, 구글의 knowledge base / knowledge panel 에 근간으로 쓰였더랬다. 사이트 자체의 정보들이 다들 쓸모 있는 것들이어서 몇몇 버티컬을 같이 디자인하며 열심히도 들여다 본 기억이다. 물론 지금도 LLM 들 pretrain 에 commoncrawl 에 더해 제일 먼저 참조되는 소스로 이용된다. 별도의 유사 검색 엔진을 만든다고 한다면 당연히 처음으로 사용해야 할 데이터임에 틀림 없다. 구글 선수 시절 기억들정보들이 충돌이 날 때 그를 해결하는 source of truth 로 자주 이용되었고, '잘 된' 영어의 참조로 이용하였더랬다. no wikipedia index 는 좋은 baseline index 로 이용되었고, 뭔가 잘 모르겠다 싶으면 구글 검색에 물어 보거나 wikipedia dump 에서 찾는 방식으로 많이 이용되었다. 인용된 링크들도 의미가 있었고, 잘 만들어 진 고품질의 문서, 사이트에 해당했다.당연하게 App indexing 과제에서 처음으로 커버한 100개의 사이트에 포함되어 있었고, 웹 세상과 다르게, 모바일 세상에서 많이 쓰이지 않는 wikipedia 앱을 어떻게 다루어야 하는 고민을 했더랬다. 웹이 너무 잘 만들어져 있어서 앱이 쓸모없어진 그런 경우라 하겠다. 당시 검색 팀에서 경쟁적인 위치에 있던 mobile rendering , progressive web app 등도 앞다투어 제일 먼저 다루던 사이트였다.꽤 오래 만졌던 영화 같은 몇몇 도메인들의 경우에는 공공의 적으로 위치하기도 했던 기억이다. 제일 많이 쳤던 "Tom Hanks" , "Forrest Gump" 등의 쿼리에 대해 마음으로는 imdb.com 이 올라와 주기를 기대하며 어떻게 하면 저 wikipedia 를 이길 수 있을까 고민도 많이 했었더랬다. 한편으로는 그런 실험들을 돌리면, 여지없이 사용자들은 wikipedia 를 더 좋아했더랬다. 참고로 한국의 경우 나무위키와 시네 싸이드들이 더 위에 올라와 있다. 한글에 대한 아쉬움들눈높이가 영어에 있어 더 그렇겠지만, 한글 contents 는 많이 부족해 왔다. 위키피디아가 한국 사용자들에게 알려져 쓰였으면 하는 시기에 네이버 검색이 네이버 지식인과 네이버 원박스 들과 함께 흥했고, 당시에 구글 스타일의 검색이 고전을 하게 된 이유와도 닿아 있다. 당시에는 선수로 참여하면서 승부에서 진 셈이기에 아쉬운 마음이 많다. 당시 방법론으로 번역 품질을 고민하기에도 같은 내용을 여러 언어로 설명하기에 제일 표본이 되는 게 위키피디아였고, 그래서 EN-JA 가 EN-KO 보다 번역 품질이 높았던 것들도 연관이 있었다 하겠다.이후 살짝 다르지만 나무위키가 이 포지션을 잡게 되며, 거친 단어들이었지만 구글 검색의 품질이 올라가고, 그에 맞추어 한글 위키피디아 내용들도 좋아진 기억이다. 다행이기도 하고, 이제 원박스나 쇼핑 관련된 게 아닌 경우 검색 결과 페이지가 밀린다는 평가는 거의 없는 거 같다. 참고로 나무위키는 라이센스가 다르고 위의 개발자 친화적인 방법들이 제공되지 않는 일종의 민간 기업에 해당한다. 언제 어떻게 사라질 지 모르는... 아슬아슬하달까..최근 소버린 논의 등에서 '한글로 잘 정리된 문서' 영역에 대한 아쉬움이 많다. 영어의 경우 너무나 손쉽게 wikipedia dump, 한 달에 한 번씩 업데이트 되는 commoncrawl dump 등 공들여 만든 믿을 만한 데이터들이 너무 쉽게 접근 가능한데, 한글에 대해서는 '네이버에 있으니까', '블로그에 있다니까' 등에 synthetic 으로 만들어 낸 데이터들에 대한 이야기들만 조금씩 이야기하게 된다. language model 을 만든 이후 agent 나 RAG 등이 어딘가에 검색을 시도하려 한다 하면 그건 또 그것대로 같은 사이클을 돌게 되며 아쉬운 상황들이 벌어질 거 같다. 재단이 안 되면 세금/연구 기관들이나 기업들이 챙길 수 있을까..? 

대학 교육 기타정보뉴스

채널톡 아이콘