inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[개정판] 파이썬 머신러닝 완벽 가이드

4.8 분류실습 산탄데르 고객 만족 예측 데이터 관련 질문입니다.

501

easygoing_1

작성한 질문수 2

0

선생님께,

안녕하세요 선생님. 선생님 강의를 수강하고 있는 한 학생입니다.

질 높은 강의 항상 감사하고, 신기한.. 마음으로 듣고 있습니다 :)

해도 되나...싶은 마음으로 궁금한 것이 있어서 질문드립니다! 휴일에 죄송합니다.

제가 강의를 늦게 알게된 탓에, 강의 영상에서 나온 결과 값과 제 값이 다를 때가 종종 있습니다. 그런게 '4.8 분류실습_산탄데르 고객 만족 예측' 에 쓰인 데이터는 강의에서 보여주시는 데이터와 조금 차이가 있는 것 같습니다!

train 데이터가 20만 건(강의에서는 약 76,000 건)인 것은 학습을 위해서라면 크게 문제가 되지 않겠으나, 속성(변수?) 수도 줄고 명칭도 바뀐 것 같아서, KeyError가 종종 뜨곤 합니다(ex. TARGET -> target, var3 -> var_3 등). 제가 수행하는 과정에서 문제가 있는 것일 가능성이 크지만,,확인 부탁드립니다!

조금 더 궁금한 점은,

강의에서는(재생시간 기준 약 5:00 전후) var3의 값에서 min이 -999999가 있는 것이 null 값일 가능성이 높다고 하셔서 이후에 var3 변수에 대해서 작업?을 하시는데, 현재 제가 다운받은 train_santander 파일에서는 해당 값이 존재하지 않고, mean 값 6.79, std 2.04, min -0.04 등 비교적 평범한 친구들이어서, 조금 혼란스럽습니다ㅜ

엑셀 데이터를 봤을 때 -999999 값은 존재하지 않는 것 같은데(아는 것이 Ctrl + F로 찾아보는 것밖에 없어서 그렇게밖에 확인을 못해봤습니다.),

제가 어디서 실수한 것인지 모르겠습니다.

강의를 수강할 때나 질의응답 글들을 보면 항상 배려해주시는 느낌이 들어서, 감사하게 생각하고 있습니다. 좋은 강의 감사합니다.

감사합니다.

python 통계 머신러닝 배워볼래요?

답변 4

0

easygoing_1

답변 감사합니다! 열심히 공부하겠습니다!!

0

권 철민

문제가 해결되서 다행입니다.

imsi로 다르게 저장하라고 한 이유는 혹시나 DataFrame으로 로딩하는 train.csv(또는 train_santander.csv) 가 다른 디렉토리에 있는 것 아닌지 해서 그렇게 요청 드렸습니다. imsi로 이름을 바꿔서 다시 로딩한 결과를 보고 싶어서 였습니다.

감사합니다.

0

easygoing_1

선생님께,

역시나 제가 잘못해서 생긴 단순 오류였습니다...ㅎㅎ 선생님 강의가 틀렸을 이유가 없죠ㅜㅜ Kaggle에서 산탄데르라고 검색하니까 다른 파일도 있었네요. 휴일날 번거롭게 해드려서 죄송합니다! 아, 혹시 답변 중에서 왜 imsi로 다르게 저장하라고 하셨는지 여쭤봐도 될까요??

감사합니다!

0

권 철민

안녕하십니까,

먼저 칭찬 감사드립니다.

제가 https://www.kaggle.com/c/santander-customer-satisfaction/data

에서 데이터를 다시 로드해 보았는데, train.csv 데이터는 강의와 동일하게 76020 개의 레코드를 가지고 있습니다. 

혹시 다른 CSV 파일을 로딩하신건 아니신지요? 아래와 같은 방법을 사용해보시는건 어떨지요?

1. 위 캐글 사이트에서 다시 한번 train.csv를 예제 주피터 노트북 파일이 있는 디렉토리로 다운로드 받으 신후 이름을 train_santander_imsi.csv로 변경(강의에서는 train_santander.csv입니다만 다르게 이름을 변경해 주십시요)

2. 주피터 노트북을 재 기동하시고 아래 코드를 수행 부탁드립니다.

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib

cust_df = pd.read_csv("./train_santander_imsi.csv",encoding='latin-1')
print('dataset shape:', cust_df.shape)

dataset shape: (76020, 371) 이 나오면 정상입니다.

다른 결과가 나온다면 여기에 다시 결과 값을 캡쳐해서 올려 주십시요.

감사합니다. 


안녕하세요 열심히 수강중인 학생입니다

0

63

2

정수 인덱싱

0

68

2

넘파이 오류

0

85

2

11강 numpy의 axis 축 질문 드립니다.

0

85

2

Kaggle 에서 Santander customer satisfaction data 를 다운로드 되지가 않습니다.

0

79

2

Feature importances 를 보여주는 barplot 이 그래프로 안보여져요.

0

70

2

타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.

0

75

2

타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.

0

64

2

5강 강의 오류가 있어요.

0

84

1

실무에서 LTV 관련 모델 선택 질문입니다!

0

72

2

14강 강의 듣는중에 궁금한게 있어서 질문합니다~

0

69

3

파이썬 다운그레이 후 사이킷런 재설치

0

117

2

좋은 강의 감사합니다.

0

72

2

scoring 함수 음수값

0

67

2

6번 강의에 사이킷런, 파이썬, 아나콘다 각각 버전 일치 안 시키고 진행해도 강의 따라가 지나요?

0

100

2

분류 평가 정확도 예측

0

78

2

안녕하세요. 강의 들으면서 업무에 적용하고 싶은 수강생입니다.

0

99

1

카카오톡 채널 있나요

0

107

1

혹시 강의에서 사용하시는 ppt 받을 수 있는건가요

0

190

2

pca 스케일링 관련하여 질문드립니다.

0

100

2

주피터 대신 구글 코랩

0

172

2

강의에서 사용하는 pdf or ppt자료는 따로 없는 건가요?

0

148

2

실루엣 스코어..

0

86

2

float64 null 값 처리 방법

0

103

2