강의

멘토링

커뮤니티

Inflearn Community Q&A

easygoing10998's profile image
easygoing10998

asked

[Revised Edition] The Complete Guide to Python Machine Learning

4.8 분류실습 산탄데르 고객 만족 예측 데이터 관련 질문입니다.

Written on

·

466

0

선생님께,

안녕하세요 선생님. 선생님 강의를 수강하고 있는 한 학생입니다.

질 높은 강의 항상 감사하고, 신기한.. 마음으로 듣고 있습니다 :)

해도 되나...싶은 마음으로 궁금한 것이 있어서 질문드립니다! 휴일에 죄송합니다.

제가 강의를 늦게 알게된 탓에, 강의 영상에서 나온 결과 값과 제 값이 다를 때가 종종 있습니다. 그런게 '4.8 분류실습_산탄데르 고객 만족 예측' 에 쓰인 데이터는 강의에서 보여주시는 데이터와 조금 차이가 있는 것 같습니다!

train 데이터가 20만 건(강의에서는 약 76,000 건)인 것은 학습을 위해서라면 크게 문제가 되지 않겠으나, 속성(변수?) 수도 줄고 명칭도 바뀐 것 같아서, KeyError가 종종 뜨곤 합니다(ex. TARGET -> target, var3 -> var_3 등). 제가 수행하는 과정에서 문제가 있는 것일 가능성이 크지만,,확인 부탁드립니다!

조금 더 궁금한 점은,

강의에서는(재생시간 기준 약 5:00 전후) var3의 값에서 min이 -999999가 있는 것이 null 값일 가능성이 높다고 하셔서 이후에 var3 변수에 대해서 작업?을 하시는데, 현재 제가 다운받은 train_santander 파일에서는 해당 값이 존재하지 않고, mean 값 6.79, std 2.04, min -0.04 등 비교적 평범한 친구들이어서, 조금 혼란스럽습니다ㅜ

엑셀 데이터를 봤을 때 -999999 값은 존재하지 않는 것 같은데(아는 것이 Ctrl + F로 찾아보는 것밖에 없어서 그렇게밖에 확인을 못해봤습니다.),

제가 어디서 실수한 것인지 모르겠습니다.

강의를 수강할 때나 질의응답 글들을 보면 항상 배려해주시는 느낌이 들어서, 감사하게 생각하고 있습니다. 좋은 강의 감사합니다.

감사합니다.

python통계머신러닝 배워볼래요?

Answer 4

0

easygoing10998님의 프로필 이미지
easygoing10998
Questioner

답변 감사합니다! 열심히 공부하겠습니다!!

0

dooleyz3525님의 프로필 이미지
dooleyz3525
Instructor

문제가 해결되서 다행입니다.

imsi로 다르게 저장하라고 한 이유는 혹시나 DataFrame으로 로딩하는 train.csv(또는 train_santander.csv) 가 다른 디렉토리에 있는 것 아닌지 해서 그렇게 요청 드렸습니다. imsi로 이름을 바꿔서 다시 로딩한 결과를 보고 싶어서 였습니다.

감사합니다.

0

easygoing10998님의 프로필 이미지
easygoing10998
Questioner

선생님께,

역시나 제가 잘못해서 생긴 단순 오류였습니다...ㅎㅎ 선생님 강의가 틀렸을 이유가 없죠ㅜㅜ Kaggle에서 산탄데르라고 검색하니까 다른 파일도 있었네요. 휴일날 번거롭게 해드려서 죄송합니다! 아, 혹시 답변 중에서 왜 imsi로 다르게 저장하라고 하셨는지 여쭤봐도 될까요??

감사합니다!

0

dooleyz3525님의 프로필 이미지
dooleyz3525
Instructor

안녕하십니까,

먼저 칭찬 감사드립니다.

제가 https://www.kaggle.com/c/santander-customer-satisfaction/data

에서 데이터를 다시 로드해 보았는데, train.csv 데이터는 강의와 동일하게 76020 개의 레코드를 가지고 있습니다. 

혹시 다른 CSV 파일을 로딩하신건 아니신지요? 아래와 같은 방법을 사용해보시는건 어떨지요?

1. 위 캐글 사이트에서 다시 한번 train.csv를 예제 주피터 노트북 파일이 있는 디렉토리로 다운로드 받으 신후 이름을 train_santander_imsi.csv로 변경(강의에서는 train_santander.csv입니다만 다르게 이름을 변경해 주십시요)

2. 주피터 노트북을 재 기동하시고 아래 코드를 수행 부탁드립니다.

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib

cust_df = pd.read_csv("./train_santander_imsi.csv",encoding='latin-1')
print('dataset shape:', cust_df.shape)

dataset shape: (76020, 371) 이 나오면 정상입니다.

다른 결과가 나온다면 여기에 다시 결과 값을 캡쳐해서 올려 주십시요.

감사합니다. 


easygoing10998's profile image
easygoing10998

asked

Ask a question