inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[개정판] 파이썬 머신러닝 완벽 가이드

사이킷런 소개와 머신러닝 분류 예측 모델 개요

[19강] dataset에서 feature과 target 지정 관련 궁금한것이 있습니다.

3837

kjm15105

작성한 질문수 2

1

안녕하세요.

이번에 부산에 있는 대학의 통계학과를 졸업하고 조교로 근무할 예정인 학부생입니다.

이번 강의를 듣고 iris dataset을 dataframe으로 만드는 과정에서 궁금증이 생겨서 질문을 하게 되었습니다.

iris.data와 iris.target을 사용하여 iris데이터셋의 피쳐와 레이블값을 Numpy형태로 이루어진 것으로 가져온다는 것을 알게되었습니다.

여기서 (데이터셋.data) 변수와 (데이터셋.target) 변수는 Sklearn.dataset 모듈에 내장되어 있는 데이터셋에 한해서만 자동적으로 피처와 레이블을 나눠서 Numpy형태로 가져온다는 것인지 궁금합니다.

그리고 csv 파일로 되어있는 데이터를 파이썬으로  불러온 뒤에 분류나무를 학습할 경우 강의 영상대로 dataframe을 피쳐, 피쳐 이름, 레이블, 레이블 이름으로  나눠서 DecisionTreeClassifier함수와 fit함수를 이용하여 분류나무를 학습하면 되는지 궁금합니다.

머신러닝 배워볼래요? python 통계

답변 1

0

권 철민

안녕하십니까,

1. 여기서 (데이터셋.data) 변수와 (데이터셋.target) 변수는 Scikit_learn.dataset 모듈에 내장되어 있는 데이터셋에 한해서만 자동적으로 피처와 레이블을 Numpy형태로 가져온다는 것인지 궁금합니다.

=> 자동적으로 피처와 레이블을 Numpy형태로 가져온다는 것이 어떤 의미인지 제가 질문을 잘 이해하지 못했습니다만 아래와 같이 가능한 답변을 적어 봅니다. 의도하신 질문이 아니면 다시 기재 부탁드립니다.

sklearn.dataset의 load_iris()가 반환하는 객체는 Bunch 객체인데, 이는 파이썬의 Dictionary와 거의 유사합니다.

from sklearn.datasets import load_iris

iris = load_iris() 에서 iris는 이 Bunch 객체이고, 이 중에 iris.data는 피처가 이미 Numpy형태로 데이터가 들어가 있습니다. iris.target 역시 레이블이 Numpy 형태로 들어가 있으므로 이것을 그대로 가져와서 학습과 예측에 사용하게 됩니다.

2. csv 파일로 되어있는 데이터를 파이썬으로  불러온 뒤에 분류나무를 학습할 경우 강의 영상대로 dataframe을 피쳐, 피쳐 이름, 레이블, 레이블 이름으로  나눠서 DecisionTreeClassifier함수와 fit함수를 이용하여 분류나무를 학습하면 되는지 궁금합니다.

=> 사이킷런의 상당수의 API들은 DataFrame과 Numpy 모두와 호환이 됩니다. 이들 API는 DataFrame을 넣으면 자동으로 내부에서 Numpy로 변환하여 사용합니다. 또 필요하다면 내부 변환된 Numpy를 다시  DataFrame으로 변환하여 반환합니다.

DecisionTreeClassifier의 fit(), predict() 모두 DataFrame, Numpy 호환 되므로 DataFrame을 그대로 사용해도 무방합니다.

감사합니다.

모델 서빙과 관련된 강좌가 출시되는지 질문드립니다.

0

8

2

안녕하세요 열심히 수강중인 학생입니다

0

63

2

정수 인덱싱

0

68

2

넘파이 오류

0

85

2

11강 numpy의 axis 축 질문 드립니다.

0

85

2

Kaggle 에서 Santander customer satisfaction data 를 다운로드 되지가 않습니다.

0

79

2

Feature importances 를 보여주는 barplot 이 그래프로 안보여져요.

0

70

2

타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.

0

75

2

타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.

0

64

2

5강 강의 오류가 있어요.

0

84

1

실무에서 LTV 관련 모델 선택 질문입니다!

0

72

2

14강 강의 듣는중에 궁금한게 있어서 질문합니다~

0

69

3

파이썬 다운그레이 후 사이킷런 재설치

0

117

2

좋은 강의 감사합니다.

0

74

2

scoring 함수 음수값

0

67

2

6번 강의에 사이킷런, 파이썬, 아나콘다 각각 버전 일치 안 시키고 진행해도 강의 따라가 지나요?

0

100

2

분류 평가 정확도 예측

0

79

2

안녕하세요. 강의 들으면서 업무에 적용하고 싶은 수강생입니다.

0

99

1

카카오톡 채널 있나요

0

108

1

혹시 강의에서 사용하시는 ppt 받을 수 있는건가요

0

190

2

pca 스케일링 관련하여 질문드립니다.

0

100

2

주피터 대신 구글 코랩

0

172

2

강의에서 사용하는 pdf or ppt자료는 따로 없는 건가요?

0

148

2

실루엣 스코어..

0

86

2