inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[PyTorch] 쉽고 빠르게 배우는 NLP

word2vec

383

눈오리

작성한 질문수 2

0

1. //i am a boy. But you are a girl //이런 문장이 있다고 하면 문장이 2개입니다. 여기에서 워드2벡을 하게 되면 만약 윈도우가 2라면 다른 문장으로 넘어가도 상관없이 계속 그 text가 끝날때까지 진행이 되나요? 

2.                ".    !   ?  ,  " 이러한 기호들이 문장에 많이 나온다면 fasttext기술에선 저런 기호도 하나의 단어로<?>이렇게 취급하는지 궁금합니다

3. 문장을 구분하는것이  ' . '일텐데 .을 활용하여 문장단위로 워드 임베딩하는 기술도 있나요? 예를 들어 fasttext의 경우 단어를 <apple>처럼 <>을 사용하여 구분한다고 알고 있는데 만약 단어내부를 더 쪼개서 word2vec과 비슷한 알고리즘으로 임베딩 해서 좋은 효과를 본다면 문장을 [<i> <am> <a> <boy><.>] [<But> <you> <are> <a> <girl>]이런 식으로 나누어 fasttext를 한다면 더 좋은 효과를 볼수는 없을까요?

인공신경망 pytorch NLP 딥러닝

답변 1

1

Justin

안녕하세요, Justin입니다.

1. Word2Vec을 적용할 때 문장 단위를 기준으로 보통 적용됩니다. I am a boy 에 대해서 I, am, a, boy 각각에 대해 Window Size 만큼 참조하여 진행되며, But, you, are, a, girl 각각에 대해 Window Size 만큼 참조하여 진행됩니다. boy 와 girl 은 context에 포함되지 않습니다.

2. 해당되는 내용은 FastText 기술이 적용되기 전에 일반적으로 통일해줍니다. 보통 문장 부호를 <PUNC> 으로 통일하여 표기합니다.

3. 문장 단위로 임베딩을 적용하는 Sentence Embedding 이라는 연구 분야도 있으며, 문장들의 모음을 바탕으로 벡터화 하는 Sentence Piece 단위도 있습니다. 해당되는 키워드를 바탕으로 검색해서 보시면 도움이 될 것 같습니다.

감사합니다.

20강에서 파인튜닝 때 사용한 데이터가 없어졌습니다. LoRA Trainer 매개변수도 라이브러리 업그레이드로 수정되었습니다.

0

13

1

[개정판] 딥러닝 컴퓨터 비전 완벽 가이드 먼저? 구현하며 배우는 Transformer 먼저?

0

22

1

전 강의와 전혀 이어지지가 않음

0

22

1

pytorch local 설치 옵션에 conda 가 없습니다.

0

30

3

pc에서는 괜찮은데 탭으로 들으니 화면확대시 화면이 까맙니다

0

16

1

모든 자료 다운로드 누를때마다 똑같은 excel파일이 다운로드 받아짐. 노션 주소 공유되나요?

0

26

2

강화학습저장 및 로드

0

53

1

paperswithcode 서비스 종료 관련 문의

0

190

2

질문있습니다.

0

58

2

수업 하실 때 활용하시는 강의 자료를 제공 받을 수 있는지 문의 드립니다

0

66

2

batch size 질문이 있습니다!

0

468

1

torchtext.data 에러

0

2025

1

파이썬 코드 다운로드 받을 수 있는 곳이 있을까요?

0

545

1

train과 test 관련해서 질문드립니다!

0

262

1

혹시 audio관련해서 stt나 tts등 pytorch 관련해서 강의 하실 수 있나요?

0

368

1

teacher_force = random.random() < teacher_forcing_ratio

0

323

1

질문드립니다.

0

266

1

context_size 질문드립니다.

0

233

1

파이썬 for 문 질문드립니다.

0

257

1

Encoder와 Decoder Embedding에서 같은 벡터공간에 임베딩되는건가요?

0

269

1

RNN과 CNN을 섞는법

0

295

2

13:30쪽 사운드가 너무 깨집니다ㅠㅠ

3

229

1

NLP에 RNN을 사용하는 이유

0

269

1

실습데이터 문의 - [실습]자연어 처리에 필요한 기본 배경 지식 실습

0

228

1