인프런 커뮤니티 질문&답변
sentence transformer tokenizer 학습 필요성
작성
·
709
0
sentence transformer tokenizer에 대해서 찾아보고 있던 차에 허깅페이스를 통해 사전학습된 모델을 로드하여 사용하려고 하는데요.
AutoTokenizer.from_pretrained('sentence-transformers/stsb-xlm-r-multilingual')위의 코드를 통해 토크나이저를 로드하는데 궁금한 것이 생겼습니다.
해당 코드를 통해서 토크나이저를 로드 후에 한국어, 영어 모두 토큰화 시에 둘다 이상없이 토큰화가 진행되는데 구글링 하다보니 토크나이저를 한국어.txt 파일을 가져와서 따로 학습(train)하는 과정을 거치는 경우가 많더라구요.
그래서 궁금한 점을 정리하자면
로드한 외국어 모델인 경우에 로드되는 토크나이저는 한국어를 토크나이징할 때 사용하면 안될까요?(혹은 위처럼 한국어 corpus를 사용해서 학습을 거치고 사용하는게 좋은지?)
허깅페이스에서 사전학습된 모델에 대한 설명은 있더라도 그 모델이 가진 토크나이저 정보는 없는데 보는 방법이 따로 있나요?
예시와 같이 multiingual 모델은 학습된 여러가지 외국어에 대해서는 학습이 되어 있으니 언어에 상관없이 그냥 사용하는지도 궁금합니다.
답변
답변을 기다리고 있는 질문이에요
첫번째 답변을 남겨보세요!




