inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

실전 데이터 사이언스 Part2. 데이터 전처리

선형 분류 예측 실습

In[42] 14:50 코드 질문

249

피카라이언

작성한 질문수 7

0

안녕하세요 선생님.
질문이 너무 많아 죄송스럽네요..!
매번 질문에 답을 쉽게 이해할수있게 달아주셔서 감사합니다.
이번엔 좀 코드적인 부분에서 궁금했는데
# 가중치의 컬럼 이름을 확인하고 큰 값 순으로 정렬하여 보겠다 result = pd.DataFrame({'feature':X.columns,'weight':model.coef_[0].round(3)}) result.sort_values('weight', ascending=False, inplace=True) result
여기서 42번 cell에서 코드가 조금 이해가 안됩니다. 
feature이란 column은 X라는 우리 data에서 column을 가져온거 같고 weight은 어떤원리로 가져왔는지 모르겠습니다. model.coef[0]이라는게 41번째 cell에서 저희가 array로 본거중 0번째만갖고온다는게 무슨뜻인지 잘 모르겠습니다. array의 shape이 (1,12)인걸 알아냈고 여기에서 알아서 feature이랑 weight값 12개랑 자동적으로 매칭이 되나요? (즉, 순서가 다 있다는건가요?) 
조금 질문이 난해한거 같네요.. 죄송합니다.
그리고 inplace=True는 뭐하는 함수인가요?

code python

답변 1

0

김화종

안녕하세요.

41번 셀에서 coef_의 구조가 "2차원" 어레이입니다. [[ 가 두개임. 여기서 [0] 인덱싱을 하면 [ 가 하나인 1차원 어레이 즉, 벡터를 얻습니다. (2차원이 아닌) 1차원 데이터라야 데이터 프레임 results의 한 컬럼 값들로 채우는데 문제가 없습니다.(한 줄 짜리 데이터 구조라야 함). 그래서 [0] 인덱싱을 한 것입니다.

그리고 columns의 순서와 해당 컬럼(변수)의 coef_ 의 순서는 모델이 알아서 차례를 기억합니다.

 inplace=True는 sort_value의 실행 결과를 단순히 출력해 주는데 그치지 않고 원본 데이터인 result에 결과를 반영하여 변경해두라는 뜻입니다.

수고하세요~

멍슨상이라 이름 변경하시는 게 어떠신지요?

1

12

0

수업 노트가 안 보입니다.

0

14

1

Python formatter 설치

0

11

1

55강 파이썬에만있는 연산자들

0

10

1

55강의 파이썬에서만 있는 연산자들

0

9

1

주말에 실행할 경우 update_economic_data_in_background에 로직 변경 필요성

1

17

1

naver 글자 수집 오류 건

0

14

1

쥬피터 노트북이 실행이 안됩니다.

0

17

1

뒤로가기 버튼 같은 것이 있나요?

0

21

1

Replit 강의 자료가 안나와요

0

16

1

강의 연장 문의

0

18

1

프로그램 실행시간에 대한 질문

1

20

2

비중 및 매수 종목수 조정.

1

22

2

Claude api가 소식 동기화가 늦는 문제

1

35

2

[긴급요청2] 28강 동영상 오류(27강 음성 재생) 수정 예정일자를 알려주세요

0

22

1

codex에게 대용량 코드베이스를 인식 시키는 방법은 어떤게 있나요?

0

29

1

결측값 처리

0

576

1

n_step 값에 대하여

0

453

1

dir*.csv가 안됩니다.

0

329

1

6 시그마 이상 outlier

0

558

1

로그변환에 대하여

0

646

1

Titanic 데이터셋 PClass cateogrical -> one hot encoding

0

385

1

표준 스케일링관련 문의

0

320

1

6:14초 dataframe 스케일링한 후 컬럼 추가에 대한 질문

0

741

1