inflearn logo
강의

講義

知識共有

みんなの韓国語テキスト分析と自然言語処理 with Python

0402 KLUE 深層学習 01 - シーケンスを考慮したテキストのベクトル化

adapt() valid 포함

72

junmodidwnsa1594

投稿した質問数 2

0

안녕하세요. 강의 잘 듣고있습니다. 듣는중에 궁금한 점이 생겨 질문드립니다. adapt(x) 말고 train만 집어 넣어야 하는 거 아닌가요? Valid도 검증 하려는 건데 정보를 집어 넣으면 데이터 누수에 문제가 생길거 같아서요.

vectorizer = TextVectorization(standardize=custom_standardization, 
                               max_tokens=vocab_size, 
                               output_sequence_length=MAX_SEQUENCE_LENGTH)
# X_train_text 만 넣어주면 valid 에 있는 어휘는 학습이 되지 않습니다.
# test 에만 있는 어휘는 데이터 누수 문제로 사용하지 않습니다.
vectorizer.adapt(X)

python 머신러닝 빅데이터 NLP 텍스트마이닝 data-clustering 데이터-리터러시

回答 1

0

todaycode

안녕하세요. 좋은 질문을 주셨네요. 말씀해 주신것처럼 어휘를 학습할 때 valid까지 학습하면 데이터 누수가 될 수도 있습니다. valid에만 있는 단어가 사전에 포함되게 되기 때문에 제외하기도 하나, test 데이터는 제외하는게 맞고 valid의 경우에는 데이터셋의 크기를 고려해서 제외하거나 포함하게 됩니다.

valid로 학습하지 못하는 어휘가 너무 많게 되면 모델 성능이 함께 떨어질 수도 있습니다.
데이터셋이 작거나, 훈련/검증 데이터 간의 단어 분포 차이가 클 때, 훈련 데이터만으로는 충분한 어휘를 학습하기 어렵습니다. 이 경우, 검증 데이터의 어휘까지 포함시켜 더 풍부한 단어 사전을 만들면, 'Unknown' 토큰으로 인한 정보 손실을 줄여 전반적인 모델 성능 향상을 기대할 수 있습니다.

 

 

6-6

0

12

1

작업형 1 유형 부분

0

13

1

수강평 이벤트

0

17

2

import torch가 안되는 경우는 어떻게 하나요?

0

16

1

작업형 1 (삭제예정, 구 버전)

0

33

2

강의노트는 어디있나요?

0

17

1

노션 학습 자료 권한 요청

0

17

1

수강기간 연장 문의드립니다.

0

21

1

2유형 레이블 인코딩 VS 원핫 인코딩

0

24

3

Component 수는 어떻게 지정을 해야 할까요?

0

95

2

코드 에러

0

146

2

감성 분석을 하려면 어떤 부분을 공부해야 하나요?

0

205

2

수업자료 다운로드 링크 에러

0

157

2

모두의 한국어 텍스트 분석과 자연어처리 with 파이썬 -> 섹션 3 부터 재생이 안됩니다.

0

152

1

0204 쇼핑 리뷰 군집화 - KMeans, Elbow, Silhouette 분석 강의 질문있습니다.

0

215

2

load_metric 에러 발생

0

1127

2

강의에서 사용하는 csv 파일이 없습니다

0

266

2

적합한 알고리즘이나 라이브러리를 알고싶습니다

0

243

1

안녕하세요 선생님

0

312

1

kkma() 실행시 kernel dead 현상이 발생합니다.

0

488

3

설문조사 주관식 데이터 처리방법 문의

0

1123

1

감성분석

0

383

1

해당 강의 내용 영문에 적용하는 방법

0

420

1

PDF기준으로 LLM에게 답변/요약을 요청할때 가능한 방법 문의

1

1281

2