word2vec 질문
301
1 asked
for review in train["review"]:
sentences += KaggleWord2VecUtility.review_to_sentences(review, remove_stopwords=False)
for review in unlabeled_train["review"]:
sentences += KaggleWord2VecUtility.review_to_sentences(review, remove_stopwords=False)섹션2 word2vec에서는 다음과 같이 train data와 unlabeled train data를 합쳐서 사용하고 있습니다. 각각 일부를 출력했을때 서로 다른 데이터로 보입니다. 이 데이터들을 사용해서 word2vec을 만들어주는데 word2vec에서 사용하는 단어의 개수를 늘려주기 위함인가요?
Answer 1
0
안녕하세요, 인프런 AI 인턴이에요.
예시로 보여주신 코드는 train 데이터와 unlabeled train 데이터를 합쳐서 sentences에 추가하고 있습니다. 이렇게 데이터를 합치는 이유는 Word2Vec 알고리즘에 입력으로 주는 데이터의 다양성을 늘리기 위해서입니다.
Word2Vec 알고리즘은 주어진 문장에서 단어들 간의 의미적 유사도를 분석하기 위해 사용되는데요. 만약 train 데이터만 사용한다면, 학습에 사용되는 단어 벡터는 해당 데이터에서만 등장하는 단어들을 기반으로 만들어질 것입니다. 그러나 unlabeled train 데이터를 함께 사용하면, train 데이터에 존재하지 않는 단어들에 대해서도 유사도를 계산할 수 있게 됩니다. 이는 단어 벡터의 정확성과 다양성을 향상시키는 데 도움을 줄 수 있습니다.
즉, 주어진 데이터의 다양성을 높이기 위해서 train 데이터와 unlabeled train 데이터를 함께 사용하는 것이 일반적입니다. 이렇게 합쳐진 데이터를 사용하여 Word2Vec 모델을 학습시키면 더욱 정교한 단어 벡터를 얻을 수 있게 됩니다.
더 좋은 결과를 얻기 위해서는 추가적인 데이터를 활용하는 것도 좋은 방법입니다. 다양한 데이터를 사용하면 모델의 일반화 성능을 향상시킬 수 있기 때문입니다.
하지만, 항상 합치는 것이 항상 좋은 결과를 보장하는 것은 아니고, 데이터의 특성이나 목적에 따라 다를 수 있습니다. 적합한 데이터를 사용해야 원하는 결과를 얻을 수 있습니다.
마지막으로, Word2Vec 알고리즘의 매개 변수나 세부 사항은 실제로 사용하고 있는 코드에 따라 다를 수 있으니, 해당 코드의 원작자의 의도와 가이드를 따르는 것이 바람직합니다.
질문이 있으시면 언제든지 물어보세요. 좋은 결과 있기를 바랄게요!
질문 드립니다
0
321
1
%time clean_train_reviews = apply_by_multiprocessing(\ train['review'], review_to_words, workers=4)
0
324
2
한국어 텍스트 분석과 영어 텍스트 분석의 차이
0
546
1
코랩 실습 링크 파일 다시 올려주시면 안되나요?
0
461
1
강의 자료는 어디서 받을 수 있나요?
0
346
1
data폴더안에 tsv파일이 없다고 나오는데 어떻게 해야하나요?
1
713
4
젠심
1
382
1
질문드립니다
1
228
1
질문드립ㄴ디ㅏ
1
405
3
질문드립니다
1
331
2
word2vec 실행 오류
1
378
1
gensim 4.0 버전 문제
1
2169
1
멀티 프로세싱 오류 질문입니다
1
1096
1
1-2 NLP 텍스트 데이터 처리 오류 관련 질문드립니다.
1
348
1
1강 질문드립니다.
1
230
1
질문드립니다.
1
424
2
질문드립니다.
1
205
1
id 말고 어떤 영화인지는 어떻게 알수있을까요?
1
277
1
[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리
1
475
1
has no attribute 'syn0'
2
318
1
영상 "섹션1. [2/4] NLP 텍스트 데이터 전처리" 부분에 대해 질문 있습니다!
1
307
5
wget 오류
1
777
1
html5lib 과 lxml 에서 모두 에러가 발생하고 있습니다.
1
523
1
np.sum(train_data_features, axis = 0)에 대해 질문 드립니다.
1
197
1

