inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

핸즈온 머신러닝 2

결측값 대체와 표준화에 관련해서 질문드립니다!

519

geunsu

작성한 질문수 1

0

1. test set의 결측값은 train set의 median(혹은 mean 등)으로 대체한다고 교재에서 나와있습니다. test set의 median을 사용하면 안되는 이유가 훈련세트에서 학습한 것이 소용없어진다고 설명되어있는데 왜 소용이 없어지는건가요? 데이터의 중앙값을 결측치로 대체하는 것을 모델의 일부라고 생각하면 가능한 것 아닌가요??

2. 교재(107p)에서 scaling은 훈련 세트에만 먼저 적용 후, 훈련세트와 테스트 세트에 대해 transform() 메서드를 사용한다고 나와있습니다. 이 말의 뜻이 이해가 잘 안됩니다.. 표준화로 예를 들면 다음과 같은 과정을 거치는것이 맞나요? (tr는 훈련세트를, te는 테스트 세트를 의미합니다)

2-1) 훈련세트의 mean(x_tr), sd(x_tr)을 계산한다.

2-2) 훈련세트에 표준화를 한다 ->  (x_{i}-mean(x_tr))/sd(x_tr), for all i = 1, ... n_tr

2-3) 테스트 세트에 표준화를 한다 -> (x_{i}-mean(x_tr))/sd(x_tr), for all i = 1, ... n_te

만약 2-3)의 과정에서 mean(x_tr), sd(x_tr)이 아니라 mean(x_te),  sd(x_te)를 사용해야하는 것이라면 1번의 결측값 대체 과정에서는 trian set의 median을 이용해야하고 스케일링 과정에서는 왜 test set의 평균과 표준오차를 사용하는 이유가 무엇인가요??

딥러닝 keras 머신러닝 배워볼래요? NLP tensorflow 강화학습 scikit-learn

답변 2

1

geunsu

앗 그렇군요 테스트 샘플이 한개일 경우를 생각해보니 너무 당연한거였네요!! 정말 감사합니다~!!

0

박해선

안녕하세요. 박해선입니다. 훈련 세트에서 누락된 값을 중간값으로 대체하는 경우 이 중간값은 훈련 세트의 통곗값입니다. 훈련 세트와 테스트 세트가 다른 통곗값을 사용할 경우 훈련 세트에서 훈련한 모델을 올바르게 적용할 수 없습니다. 심지어 테스트 샘플 한 개만 있을 때도 모델은 예측값을 만들 수 있어야 합니다. 이에 대한 조금 더 자세한 내용은 "개정판-파이썬 라이브러리를 활용한 머신러닝" 3장을 참고하세요. 표준화도 마찬가지로 훈련 세트의 평균과 표준편차를 사용해야 합니다. 감사합니다.

20강에서 파인튜닝 때 사용한 데이터가 없어졌습니다. LoRA Trainer 매개변수도 라이브러리 업그레이드로 수정되었습니다.

0

13

1

수업자료

0

21

2

pc에서는 괜찮은데 탭으로 들으니 화면확대시 화면이 까맙니다

0

17

1

모든 자료 다운로드 누를때마다 똑같은 excel파일이 다운로드 받아짐. 노션 주소 공유되나요?

0

27

2

강의 교안 요청

0

15

1

paperswithcode 서비스 종료 관련 문의

0

193

2

22강 코드 call()메서드 is_training -> model(x,False)로 호출시 밸류에러 참고

0

47

1

강의자료 질문

0

39

1

강의자료는 어떻게 보나요

0

81

2

resize 질문

0

49

1

1판으로 들어도 크게 무리가 없을지요?

0

69

1

슬라이드 링크

0

549

1

128페이지의 코드에 대해 질문하고 싶습니다:)

0

327

2

[89페이지] 테스트 세트의 소득 카테고리 비율에 대해 질문이 있습니다.

0

298

1

훈련-개발 세트 문의

0

415

1

[84페이지] 특성값의 히스토그램 설명 부분

0

314

1

2부 강의에 관련하여

0

291

2

mnist 데이터가 안 불러와집니다.

0

401

1

책 내용 다시 질문합니다.

0

272

2

책 내용 질문입니다.

0

250

1

대용량 데이터 전처리 [분산 환경 수행] 방법

0

549

1

jupyterlab 관련해서 여쭤봐도 될까요?ㅠ

0

246

1

안녕하세요 2부 강의 기다리고 있습니다

2

384

1

안녕하세요. 유튜브로 강의 잘 보고 있습니다.

1

242

2