MLM, NSP 구현 여부
70
20 asked
안녕하세요 강사님.
BERT 학습 파트와 관련하여 궁금한 점이 있어 질문드립니다.
현재 IMDB 데이터를 활용한 긍/부정 분류 학습 과정만 구현되어 있는 것으로 보이는데, 혹시 MLM이나 NSP를 통한 BERT의 초기 pre-training 과정은 포함되어 있지 않은 것인지 궁금합니다.
제가 혹시 놓친 부분이 있다면 죄송합니다.
확인 부탁드립니다. 감사합니다.
Answer 2
0
안녕하십니까,
고민은 했었는데, 전체 강의가 이미 충분히 Transformer에 대한 많은 내용을 다루고 있고,
전체 강의 구성 상 BERT는 해당 섹션에서 말씀드리는 내용만 이해하셔도 충분하다고 생각합니다. 또 강의 시간이 애초에 기획한 것보다 훨씬 길어져서, 여기에 MLM, NSP Pre- train구현까지 추가되면 강의가 늘어(?)지게 될 것 같아서 해당 내용은 담지 않았습니다.
MLM, NSP의 Pretrain에 집중하는 것 보다는 이후 MarianMT에서 Encoder-Decoder 학습을 보다 빨리 접해 보시는게 더 도움이 될 것 같습니다.
감사합니다.
0
안녕하세요, 인프런 AI 인턴입니다. 임해빈님.
BERT의 학습과 관련하여 중요한 두 가지 과제인 MLM(Masked Language Model)과 NSP(Next Sentence Prediction)에 대해서 질문해 주셨습니다.
일반적으로 많은 BERT 강의에서는 IMDB와 같은 데이터셋을 활용한 긍/부정 분류와 같은 fine-tuning 작업에 집중하는 경우가 많습니다. 이는 주요 활용 사례이기도 하며, 실제 애플리케이션에서 자주 사용되는 방식입니다. 반면, MLM이나 NSP는 BERT의 초기 pre-training 과정에서 사용되며, 모델의 기본적인 언어 이해 능력을 훈련시키는 데 중요한 역할을 합니다.
만약 강의에서 이 부분이 포함되지 않았다면, 일부 강의는 BERT의 초기 pre-training 과정을 상세하게 다루지 않을 수 있습니다. 이는 BERT 모델을 처음부터 구성하고 학습시키는 것은 매우 자원 집약적이며, 실무에서는 오히려 공개된 pre-trained 모델을 활용하여 fine-tuning하는 방식을 권장하기 때문입니다.
그러나 이런 초기 과정을 이해하고 싶으시다면 다음과 같은 자료를 참고하시면 도움이 될 것입니다:
위의 링크를 통해 추가적인 정보를 얻으실 수 있을 것입니다. 이후에도 궁금한 점이 있으시다면 언제든지 질문해 주세요. 강사님께서도 추가적인 설명을 주실 수 있을 것입니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
import torch가 안되는 경우는 어떻게 하나요?
0
12
1
소리가 겹쳐서 들려요
0
19
2
20강에서 파인튜닝 때 사용한 데이터가 없어졌습니다. LoRA Trainer 매개변수도 라이브러리 업그레이드로 수정되었습니다.
0
20
1
[개정판] 딥러닝 컴퓨터 비전 완벽 가이드 먼저? 구현하며 배우는 Transformer 먼저?
0
29
1
수업자료
0
23
2
전 강의와 전혀 이어지지가 않음
0
30
1
pytorch local 설치 옵션에 conda 가 없습니다.
0
38
3
pc에서는 괜찮은데 탭으로 들으니 화면확대시 화면이 까맙니다
0
22
1
강의 환경설정 질문
0
39
2
모든 자료 다운로드 누를때마다 똑같은 excel파일이 다운로드 받아짐. 노션 주소 공유되나요?
0
31
2
오토인코더+ Knn, SVC 로 해석하는경우
0
45
3
강의 영상 오류
0
58
1
Embedding 모델 fine tuning 관련 질문
0
71
2
코드에 오타가 있는 것 같습니다
0
53
2
코드 오타가 있는것 같습니다.
0
68
2
트랜스포머 모델 구조에서 Encode-Decoder Attenttion에 대해서
0
67
2
트랜스포머 구조에서 블럭갯수에 대해서
0
61
2
RNN에서 출력 y에대해서..
0
58
1
embedding 값 시각화 해보기에서
0
52
1
length_penalty 부분이 없는 것 같습니다.
1
54
1
멀티 헤드 셀프 어텐션에서 Wq, Wk, Wv의 구조 관련 질문
0
79
3
bert encoding input_ids.size(1)에 대하여
0
58
2
트랜스포머 학습 강의
0
92
2
Q, K, V 초기 임베딩
0
69
1

