기초 질문 드립니다.

Question

안녕하세요. 데이터 분석을 공부한 지 얼마 안된 초보 수강생입니다. 기초 지식이 많이 없어 기본적인 용어 관련해서 질문 드립니다.

1. Google's word2vec은 구글에서 제공하는 프로그램같은 건가요? 아님 분석 기법? 기본 개념에 관해 설명 부탁 드립니다.

2. 임베딩이 뭔가요? 그리고 강의 자료에 나와 있는 모형 테스트는 어떤 식으로 작용하는건가요? 입력값에 따라 결과값이 달라지던데 저기서 뭘 이해해야 하는 지 모르겠네요.

3. BOW는 프로그램 같은 건가요? 아님 그냥 분석 기법?개념?같은 건가요?

Answer

안녕하세요!

1. word2vec 은 벡터화된 단어를 임베딩하는 방법입니다. 단어 벡터화는 단어를 수치화 해서 만드는 건데 이 수치화된 단어가 얼마나 연관성이 있는지 다시 수치로 나타낸 것을 임베딩이라 부르고 word2vec 은 그런 기법을 의미합니다.

더 자세한 설명은 다음 링크를 읽어보시면 좋습니다.

2.임베딩은 벡터(수치화) 된 단어들이 얼마나 유사성을 가지고 있는지를 수치화 한 것을 의미합니다. 위에 참고링크를 보시면 자세히 설명이 되어 있는데,

서울-대한민국, 베이징-중국 이라면 이 단어들이 연관이 있다면 다른 단어와의 거리에 비해 이 단어들의 거리가 가깝게 계산이 됩니다.

다음의 링크를 추가로 보시면 좋을거 같습니다.

3. BOW는 bag of words의 약자로 단어를 가방에 담는다는 의미입니다.

"자연어처리 강좌 입니다." 라는 문장이 있다면 공백으로 나눠서 ["자연어처리", "강좌", "입니다"] 처럼 나눠서 담게 되는데 이 기법을 BOW라고 부릅니다.

또 이 방법은 아래와 같은 특징을 가집니다.

가장 간단하지만 효과적이라 널리쓰이는 방법

장, 문단, 문장, 서식과 같은 입력 텍스트의 구조를 제외하고 각 단어가 이 말뭉치에 얼마나 많이 나타나는지만 헤아린다.

구조와 상관없이 단어의 출현횟수만 세기 때문에 텍스트를 담는 가방(bag)으로 생각할 수 있다.

BOW는 단어의 순서가 완전히 무시 된다는 단점이 있다. 예를 들어 의미가 완전히 반대인 두 문장이 있다고 하다.

it's bad, not good at all.

it's good, not bad at all.

위 두 문장은 의미가 전혀 반대지만 완전히 동일하게 반환된다.

이를 보완하기 위해 n-gram을 사용하는 데 BOW는 하나의 토큰을 사용하지만 n-gram은 n개의 토큰을 사용할 수 있도록 한다.

또, 추가적으로 이 링크에 있는 글을 읽어보시면 도움이 될거 같습니다. https://wikidocs.net/22650