inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형2 모의문제3

시험환경에서 세션종료

해결된 질문

72

토리

작성한 질문수 7

0

코랩에서는 제대로 돌아가는 코드를 시험환경에 넣었더니 실행시간 1분이 넘어 세션이 종료됩니다ㅠ

잘못된 부분이 있는지, 혹시 시험시간에도 이런 상황이 생긴다면 해결방안 있을까요?

import pandas as pd

train = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p2/heart/2files/train.csv")
test =  pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p2/heart/2files/test.csv")
# train = pd.read_csv("train.csv")
# test =  pd.read_csv("test.csv")
#train.shape, test.shape #((242, 15), (61, 14))
#train.isnull().sum() #결측치 없음
y_train = train['output']
train = train.drop(['id', 'output'], axis=1)
test_id = test.pop('id')
#train.shape, test.shape #((242, 13), (61, 13))
n_cols = train.select_dtypes(exclude='O').columns
c_cols = train.select_dtypes(include='O').columns
n_train = train.select_dtypes(exclude='O').copy()
c_train = train.select_dtypes(include='O').copy()
n_test = test.select_dtypes(exclude='O').copy()
c_test = test.select_dtypes(include='O').copy()

#스케일러
from sklearn.preprocessing import StandardScaler
Scaler = StandardScaler()
n_train[n_cols] = Scaler.fit_transform(n_train[n_cols])
n_test[n_cols] = Scaler.transform(n_test[n_cols])
#인코딩
from sklearn.preprocessing import LabelEncoder
LE = LabelEncoder()
for col in c_cols:
  c_train[col] = LE.fit_transform(c_train[col])
  c_test[col] = LE.transform(c_test[col])
#합치고 검증데이터 분리
X_train = pd.concat([n_train,c_train], axis=1)
X_test = pd.concat([n_test,c_test], axis=1)
#X_train.shape, X_test.shape #((242, 13), (61, 13))

from sklearn.model_selection import train_test_split
x_tr, x_val, y_tr, y_val = train_test_split(X_train, y_train, test_size=0.15, random_state=2024)
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier()
model.fit(x_tr,y_tr)
y_val_pred = model.predict_proba(x_val)

from sklearn.metrics import roc_auc_score
score = roc_auc_score(y_val,y_val_pred[:,1])
#print(score) #0.9092261904761905
pred = model.predict_proba(X_test)

df = pd.DataFrame({
    'id': test_id,
    'output': pred[:,1]
})

df.to_csv('010100.csv', index=False)

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 2

0

퇴근후딴짓

시험 환경은 외부 링크를 통해 데이터를 불러올 수 없게 막아놨습니다.

https://youtu.be/itpyENaADM4

로 할 수는 있습니다.

 

0

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다. 구희원님의 질문에 대해 도움을 드리겠습니다.

시험 환경에서 세션이 종료되는 문제는 주로 리소스(메모리, 프로세서 시간)를 많이 소모하는 코드가 원인일 수 있습니다. 여기서 문제가 발생하는 부분과 해결 방법에 대해서 몇 가지 제안을 드립니다:

  1. 데이터 규모 확인:

    • traintest 데이터의 크기를 먼저 확인하시기 바랍니다. 만약 데이터가 매우 크다면, 메모리 문제로 세션이 종료될 수 있습니다.
    • 코드를 실행하기 전에 데이터의 크기를 줄여서 시험해 볼 수 있습니다.
  2. 모델 및 하이퍼파라미터

    • RandomForestClassifier()의 기본 설정이 많은 리소스를 소모할 수 있습니다. 최대 깊이(max_depth)나 사용되는 트리의 개수(n_estimators)를 낮춰서 리소스를 절약해보세요.
    • n_estimators를 줄여 보십시오. 기본값이 100으로 설정되어 있는데, 이 값을 줄이면 실행 시간이 단축될 수 있습니다.
  3. 코드 최적화

    • LabelEncoder는 특정 상황에서 비효율적으로 동작할 수 있으니, 필요한 경우 다른 인코딩 방법을 고려해보세요. OneHotEncoder와 같이 메모리를 많이 소모하지 않는 방법을 사용해 볼 수 있습니다.
    • StandardScaler 또한 사용할 스케일러를 선택할 때 연산 부담이 적은 방법을 고려해보십시오.

이와 더불어, 시험 환경에서의 처리 방식은 코랩 환경과 다를 수 있기 때문에 시험 전에 로컬 환경에서 충분히 테스트해 보는 것이 좋습니다. 실행 시간을 줄이기 위해서는 모델의 복잡성을 줄이고, 로컬로 데이터를 충분히 최적화해보는 연습을 해보세요.

비슷한 문제 해결에 대한 참고 자료를 다음 링크에서 확인하실 수 있습니다:
- 작업형2 모의문제2, {특히, 코드 최적화 및 리소스 관리 팁을 얻기 위해서 기존의 유사한 사례들을 참고해보세요.}

저는 질문자님의 이해를 돕고자 기존 답변을 바탕으로 유사한 해결책 링크를 추천드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면 언제든지 질문해 주세요. 지식공유자분께서 곧 도움을 주실 것입니다.

1유형 강의 다 나간 후 어떻게 할까요?

0

12

1

점수차가 많이 나는데 따로 하신게 있으신가요?

0

8

1

작업형1 모의문제 4번에 3)문제 질문

0

18

2

이상치 전처리 작업

0

25

2

평가결과값 문의

0

28

2

시계열 데이터 날짜와 시간 format

0

34

2

평가지표 F1 스코어 질문드립니다.

0

27

2

작업형 2 기출7회분에서

0

38

2

작업형2 모의문제1 (30강)

0

34

2

수강 기간 연장 문의 드립니다.

0

41

2

수강 계획과 관련해 문의 드립니다.

0

30

2

작업형1 - 연습문제 16~39 풀이는 몇강을 보면 되나요?

0

50

2

작업형 1 -연습문제 4-6

0

38

2

작업형 1 유형 부분

0

42

2

작업형 1 (삭제예정, 구 버전)

0

51

2

수강기간 연장 문의드립니다.

0

38

2

2유형 레이블 인코딩 VS 원핫 인코딩

0

37

3

수강기간 연장 문의드립니다.

0

44

2

인덱스 슬라이싱

0

37

2

질문 드립니다.

0

50

2

강의 내용 관련 질문드립니다~

0

46

2

수강 연장 문의

0

63

2

강의자료 일괄 다운로드

0

62

2

수강기간 연장 문의드립니다

0

48

2