inflearn logo
강의

講義

知識共有

ビッグデータ分析記事試験実技(Python)

라벨인코더 관련 문의드립니다!

解決済みの質問

506

--

投稿した質問数 1

0

안녕하세요. 선생님! 먼저, 좋은 강의로 시험 준비를 잘 할 수 있게 해주셔서 진심으로 감사합니다.

라벨인코더 관련 문의입니다.

우선 저는 비전공자로,  나와 있는 자료들로 공부를 하다보니,

아래의 질문이 엉망일 수도 있을 것 같아서 염려가 됩니다만,

아직 공부해나가는 중인 비전공자의 질문이라는 점을 너그럽게 이해해주시고,

답변 가능하시다면 부탁드립니다!

from sklearn.preprocessing import LabelEncoder
label = ['sex''embarked''class''who''adult_male''deck''embark_town''alone']
X_train[label] = X_train[label].apply(LabelEncoder().fit_transform)
X_test[label] = X_test[label].apply(LabelEncoder().fit_transform)
 
(1) test에도 fit을 하는 것이 맞는지 문의드립니다.
(2) fit을 빼면 오류코드가 뜨는데, 어떻게 수정할 수 있을까요?
(3) 해당 코드 외에, 라벨 인코더를 적용할 수 있는,
비전공자 수준에서 따라갈 수 있는 다른 코드가 있다면
공유가 가능하실까요?
 
관련해서 답변이 가능하시다면 부탁드리겠습니다!
덕분에 시험 준비를 잘 하고 있습니다.
다시한 번 감사드립니다!

bigdata python

回答 2

1

dee

안녕하세요.

질의하신 내용에 대하여 답변을 드립니다.

우선 test 데이터에 대하여 fit을 하지 않는게 맞습니다.(코드 오기입니다. )

 

라벨인코딩은 숫자가 아닌 레이블 형태의 데이터를 숫자로 변환하는 작업을 말하며,

 

이때 레이블 인코더를 맞추는 작업(fit)과
 
인코딩된 레이블을 반환하는(transform) 작업이 함께 존재합니다.
 

금번 제공된 강의에서 훈련용 데이터와 테스트 데이터에 각각 fit을 적용하다 보니

테스트 데이터에 없는 레이블이 존재하는 경우 오류가 발생하였습니다.

 

따라서 라벨인코딩을 정확히 하려면 훈련용 데이터와 테스트 데이터를 결합한 후에

전체 레이블 인코더를 맞추는 fit 작업을 하고, 레이블을 반환하는 transform 작업을 하고,

다시 훈련용, 테스트 데이터를 분리하시면 됩니다.

 

강의 오기에 대해서는 추후에 영상과 자료에 수정을 하도록 하겠습니다. :)

코드는 내일 유첨하여 첨부하도록 하겠습니다.

좋은 결과 있으시길 바랍니다. :)

0

dee

안녕하세요

수정코드 전달드립니다!

https://colab.research.google.com/drive/1edJj78eFx_9SmlbeiZL_nse072HlLTjz?usp=sharing

 

라벨인코딩과정에서 분리되어있는 X_train과 X_test를 합친 후 라벨인코딩을 진행하고 다시 분리하는 과정을 추가했습니다.

 

찾기 힘드시면 'ctrl + f' -> '수정부분'을 검색하시면 편하게 확인하실수 있습니다.

0

--

바쁘신 와중에도 상세하게 답변해주셔서 감사합니다!

구름IDE 서비스 종료 이후 학습환경

0

122

1

10강 연습문제

0

166

1

VotingClassifier Hard 사용

0

111

1

구름IDE 실행 도움 요청

0

162

1

질문입니다 RandomForestClassifier

0

170

1

질문!

0

340

1

데이터 더미화 에러발생 질문.

0

317

1

많은 컬럼과 많은 결측치를 가지는 데이터

0

201

1

Dataset은 어디서 받을 수 있나요?

0

395

1

mpg 데이터셋 위치

0

339

1

교육영상 4강. 작업유형1-문제(1)에 대한 코드는 어디서 받을 수 있나요?

0

376

1

단순평균(1집단)T-test 1번 풀이

0

480

2

강의자료 문의

1

549

1

구름IDE 실행불가문제 ㅠㅠ

0

808

2

제7강 작업유형2-데이터 전처리: LabelEncoder 문법

0

443

1

5강 작업유형1-문제 2 질문입니다

0

407

1

7강 코드 질문드립니다

0

414

1

14강 실전 문제 카테고리 항목문의

0

397

1

작업2유형 문의

0

464

1

데이터셋 분리와 관련하여 질문이 있습니다.

0

446

1

5강의 작업형1-2문제 오류

0

460

1

구름 IDE

0

712

2

[공지] 데이터 전처리 관련 오류 수정

4

546

1

분류 예측에서 결과값의 구체적 내용을 확인할수 있는지요?

0

401

2