인프런 영문 브랜드 로고
인프런 영문 브랜드 로고

인프런 커뮤니티 질문&답변

김석종님의 프로필 이미지
김석종

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

캐글 T2-2 질문드립니다!!

해결된 질문

작성

·

198

0

# 포도당을 제외한 이상치, 평균값으로 대체

cols = ['BloodPressure', 'SkinThickness', 'Insulin', 'BMI']

cols_mean = X_train[cols].mean()

X_train[cols] = X_train[cols].replace(0, cols_mean)

선생님께서는 이렇게 train 데이터의 결측치만 평균값으로 바꿔주셨는데 X_test도 같이 바꿔줘야 하는게 아닌가 해서 질문드렸습니다. 그리고 만약 바꾸어 주는게 맞다고 하면 밑에 있는 코딩처럼 다시 한번 X_test[cols]값들의 평균을 구한 다음 하는건지 아니면 위에 있는 train 데이터의 cols_mean을 사용하는건지 궁금합니다!!

# cols_mean = X_test[cols].mean()

# X_test[cols] = X_test[cols].replace(0, cols_mean)

답변 1

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

안녕하세요! 우선 인프런 자료는 계속해서 업데이트 하고 있지만
캐글 자료는 우선순위가 뒤에 있어 업데이트를 못하고 있습니다. 🙌

우선 테스트에서도 0 값이 있는지 확인을 해 볼 필요가 있을 것 같아요.
만약 채운다면 test에도 train의 평균값을 채우는 것이 맞는데
시험에서 test 평균값을 사용하지 말라는 말이 없다면 test의 평균값을 사용해도 될 것 같아요:)

김석종님의 프로필 이미지
김석종
질문자

네 감사합니다 선생님!

 

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

네 화이팅 입니다 💪💪💪

김석종님의 프로필 이미지
김석종

작성한 질문수

질문하기