강의

멘토링

로드맵

인프런 커뮤니티 질문&답변

김규혁님의 프로필 이미지
김규혁

작성한 질문수

예제로 배우는 딥러닝 자연어 처리 입문 NLP with TensorFlow - RNN부터 BERT까지

실습 2 - BERT를 이용해서 네이버 영화리뷰 데이터셋(NSMC)에 대한 Text Classification 해보기 (BERT 한국어 Fine-Tuning)

네이버 영화리뷰 파인튜닝 질문드려요

작성

·

305

0

- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!
- 먼저 유사한 질문이 있었는지 검색해보세요.
- 서로 예의를 지키며 존중하는 문화를 만들어가요.
- 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요.
 
앞선 과정에서 한글이든 영어든 토크나이저로 토큰화 시킨 후에 모델에 입력값으로 넣어야 하는 것으로 이해했습니다. 그런데, bert 모델에 넣을때는 토큰화 하지 않는 것 같은데 토큰화를 안해주는 이유가 있나요? 아니면 제가 토큰화하는 코드를 못본걸까요?

퀴즈

BERT 모델 사용의 핵심 아이디어는 무엇일까요?

주어진 데이터만으로 처음부터 모델을 학습시키는 것

다른 문제에서 학습된 모델 파라미터를 초기값으로 활용하는 전이 학습

모델의 크기를 최소화하여 학습 효율을 높이는 것

텍스트 데이터를 이미지 데이터로 변환하여 처리하는 것

답변 1

0

AISchool님의 프로필 이미지
AISchool
지식공유자

안녕하세요~. 반갑습니다.

bert 모델에 넣기 전에 아래 코드에서 토크나이징을 진행한 후 bert 모델에 들어가게 됩니다.

text_test = ['지루하지는 않은데 완전 막장임... 돈주고 보기에는....']

text_preprocessed = bert_preprocess_model(text_test)

 

print(f'Keys       : {list(text_preprocessed.keys())}')

print(f'Shape      : {text_preprocessed["input_word_ids"].shape}')

print(f'Word Ids   : {text_preprocessed["input_word_ids"][0, :12]}')

print(f'Input Mask : {text_preprocessed["input_mask"][0, :12]}')

print(f'Type Ids   : {text_preprocessed["input_type_ids"][0, :12]}')


위 코드아래에서 text_preprocessed값이 bert 모델의 인풋으로 들어가는 모습을 확인하실 수 있습니다.

그럼 좋은 하루되세요~.

감사합니다.

김규혁님의 프로필 이미지
김규혁

작성한 질문수

질문하기