inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

섹션10- 예시문제 작업형2(신버전) 문의

해결된 질문

173

작성자 없음

작성한 질문수 0

0

안녕하세요 섹션10- 예시문제 작업형2(신버전)

아래 풀이에서 어떤것이 잘못됬는지 알 수있을까요ㅠ?

 

 

# 출력을 원하실 경우 print() 함수 활용

# 예시) print(df.head())

# getcwd(), chdir() 등 작업 폴더 설정 불필요

# 파일 경로 상 내부 드라이브 경로(C: 등) 접근 불가

#데이터불러오기

import pandas as pd

train = pd.read_csv("data/customer_train.csv")

test = pd.read_csv("data/customer_test.csv")

# 확전분모평예정

# roc_auc(pred=predict_proba) / 양성(1)값=남자/ 분류모델

#확인

# print(train.shape, test.shape)

# print(train.head())

# print(test.head())

# print(train.info())

# print(test.info())

# print(train.isnull().sum())

# print(test.isnull().sum())

#전처리(결측값제거/문자제거/인코딩)

#결측값제거

# print(train.isnull().sum())

train['환불금액'] = train['환불금액'].fillna(0)

# print(train.isnull().sum())

test['환불금액'] = test['환불금액'].fillna(0)

#문자제거

cols=train.select_dtypes(include='object').columns

cols

# print(train.info())

train = train.drop(cols,axis=1)

# print(train.info())

test = test.drop(cols,axis=1)

#cols = ['회원ID', '총구매액', '최대구매액', '환불금액', '방문일수', '방문당구매건수', '주말방문비율', '구매주기']

#target = train.pop('성별') #pop=성별을 target에 대입하고 나머지를 drop

#인코딩

train = pd.get_dummies(train, columns=cols)

test = pd.get_dummies(test, columns=cols)

#분리

from sklearn.model_selection import train_test_split

X_tr, X_val, y_tr, y_val = train_test_split(

train.drop('성별',axis=1), train['성별'], test_size=0.2, ramdom_state=2022

)

#모델

#pred=predict_proba

from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier()

model.fit(X_tr,y_tr)

pred = model.predict_proba(X_val)

print(pred)

print(pred[:,1])

# #평가

from sklearn.metrics import roc_auc_scoer

print( roc_auc_scoer(y_val, pred[;,1]) ) --실제,예측

# #예측

pred=model.predict_proba(test)

pred

submit = pd.DataFrame({

'pred': pred[:,1]

})

submit

# #저장

submit.to_csv('result.csv', index=False)

print(pd.read_csv('result.csv'))

# 사용자 코딩

# 답안 제출 참고

# 아래 코드는 예시이며 변수명 등 개인별로 변경하여 활용

# pd.DataFrame변수.to_csv("result.csv", index=False)

 

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 2

0

퇴근후딴짓

안녕하세요:) 입문자의 대부분이 오타 문제인데 AI인턴 답변과 같이 오타 에러네요!! 확인부탁할게요!

0

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다.

서수영님의 질문에 대해 비슷한 상황을 다루는 기존 답변 링크가 있어 안내드립니다.

질문하신 내용과 유사한 문제 해결 방법을 포함하고 있는 게시글이기 때문에 참고하시면 도움이 될 것 같습니다.

  • 게시글 제목: 예시문제 작업형2 신버전
    • 이 게시글에서는 작업형 2 신버전 예시문제에 대한 질문과 답변이 있습니다. pandas 라이브러리를 사용하여 데이터를 불러오고, 결측값 처리, 라벨 인코딩, 학습 및 평가 데이터 분리, 모델 학습 및 예측까지의 전체 과정이 포함되어 있습니다. 특히 결측값 처리 및 라벨 인코딩 방식, 모델 학습 방법에 관한 질문에 대한 답변을 찾을 수 있습니다.

서수영님의 코드를 검토해보니, 몇 가지 오타가 있으며, 특히 ‘random_state’의 오타와 ‘roc_auc_score’ 함수 사용 시 오타가 핵심적인 문제일 수 있습니다. 정확한 함수 명칭을 사용해야 하며, 올바른 파라미터 이름은 ‘random_state’입니다.

또한, ‘문자제거’ 단계에서 ‘drop’을 사용하여 문자형 열을 제거하는 대신, 머신러닝 모델에 적용하기 전에 문자형 데이터를 숫자형 데이터로 변환하는 인코딩 과정을 고려해야 합니다. ‘pd.get_dummies()’ 함수는 ‘train’과 ‘test’ 데이터에 있는 ‘cols’ 변수가 이미 삭제된 상태에서는 사용할 수 없습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

회귀 문제를 풀때 질문입니다.

0

8

0

불균형 처리 후 성능이 더 낮아졌다면,

0

19

1

실기 체험 제2유형 에러 문의

0

19

0

LIGHTGBM 으로 하면 pred값이 소수점 6자리까지 나오는게 맞나요

0

17

2

3번문제 등분산 가정

0

23

2

작업형3 target 형 변환 질문

0

22

2

[작업형1] 연습문제 섹션1 ~ 10 의 section4

0

17

3

원핫인코딩과 레이블 인코딩에서 concat

0

31

2

제2유형 질문입니다.

0

35

2

C()

0

33

2

작업형 2에서 strafity 적용 유무

0

36

2

수강 기간 연장 가능 여부 문의드립니다.

0

40

1

ols

0

31

2

2유형 작성관련 질문(일반 심화)

0

27

2

2유형 작성관련 질문

0

25

2

2유형 object컬럼 개수 다르면

0

31

2

코딩팡질문이요ㅠㅠ

0

30

2

관찰값과 기대값의 개념이 헷갈립니다.

0

17

2

작업형2 ID 컬럼 삭제 질문

0

31

2

2유형 작성관련 질문

0

23

2

memoryerror 질문

0

19

2

작업형 유형2 이렇게 고정 템플릿으로 가져가도 될까요?

0

31

1

ID 삭제 필수 인가요?

0

30

3

7회 기출문제 작업형1번 df 변환 후 저장되는 방식 질문

0

25

2