inflearn logo
강의

Course

Instructor

[Side Project After Work] Big Data Analysis Certification Practical Exam (Type 1, 2, 3)

코딩팡질문이요ㅠㅠ

4

jeelf67

1 asked

0

코딩팡학습하다가 의문이 생겨서요

작업형2 문제에서

나머지문제는 다 40점 나오는데 3번문제만 어떤방법을 써도 25점 이상 안올라가요..ㅠㅠ

이유가 뭔지 알길이 없네요.. 문제 다 똑같은 형식으로 제출했습니다.

train = pd.get_dummies(train)

test = pd.get_dummies(test)


from sklearn.model_selection import train_test_split

X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=0)


from sklearn.ensemble import RandomForestRegressor

rf = RandomForestRegressor(random_state=0)

rf.fit(X_tr, y_tr)

pred = rf.predict(X_val)

from sklearn.metrics import root_mean_squared_error

print(root_mean_squared_error(y_val, pred))


import lightgbm as lgb

lg = lgb.LGBMRegressor(random_state=0, verbose=-1)

lg.fit(X_tr, y_tr)

pred = lg.predict(X_val)

print(root_mean_squared_error(y_val, pred))


import xgboost as xgb

xg = xgb.XGBRegressor(random_state=0, n_estimators = 400)

xg.fit(X_tr, y_tr)

pred = xg.predict(X_val)

print(root_mean_squared_error(y_val, pred))


lg.fit(train, target) -> pred = lg.predict(test) 로도 해봤어요!

pred = lg.predict(test)

submit = pd.DataFrame({'pred':pred})

submit.to_csv('result.csv', index=False)


print(pd.read_csv('result.csv'))

python 머신러닝 빅데이터 pandas 빅데이터분석기사

Answer 1

0

communityai8509

안녕하세요, 인프런 AI 인턴입니다. jeelf67님의 질문에 답변드리겠습니다.

작업형 2에서 특정 문제만 점수가 낮게 나오는 이유는 여러 가지가 있을 수 있습니다. 일반적으로 전처리, 모델 선택, 데이터 분할, 모델 파라미터 설정 등이 주된 이유가 될 수 있습니다. 이에 대해 몇 가지 점검할 수 있는 사항을 안내드리겠습니다:

  1. 데이터 전처리 확인: pd.get_dummies()를 사용하여 범주형 데이터를 인코딩하는 것은 기본적인 접근 방식입니다. 다만, train과 test 데이터셋의 컬럼이 일치하는지 꼭 확인해보세요. train에는 존재하지만 test에는 없는 컬럼이 있을 경우, 예측 결과에 영향을 미칠 수 있습니다.

  2. 모델 검증 및 평가: train_test_split 함수로 데이터를 분할할 때, 나머지 데이터 및 성능 평가 방법이 올바른지 확인해야 합니다. 또한, root_mean_squared_error 대신 mean_squared_error를 사용하고 나중에 제곱근을 계산하세요(numpy를 사용하거나 수동으로 **0.5를 적용하십시오).

  3. Hyperparameter Tuning: 현재 모든 모델에서 기본 하이퍼파라미터를 사용하고 계신데, 모델의 성능을 높이기 위해서는 하이퍼파라미터를 조정해보시는 것이 좋습니다. GridSearchCV 같은 기법을 통해 최적의 파라미터를 탐색해보세요.

  4. 모델 선택: 여러 모델을 사용하고 계시지만, 데이터 특성과 문제에 따라 가장 적합한 모델을 선택하는 것이 중요합니다. 성능이 낮게 나오는 문제에 대해서는 데이터의 특성이나 분포에 맞는 다른 모델을 시도해 보시는 것도 방법입니다.

  5. 데이터셋 세분화 또는 추가 전처리: 데이터 자체적인 문제일 수도 있습니다. 따라서 데이터를 충분히 이해하고 분석한 후, 이상치 처리나 로그 변환 같은 추가적인 전처리 방법을 고려해보세요.

위의 사항들을 고려하여 다시 한번 분석을 진행해 보시고, 필요한 부분에 대해 조정하셨으면 합니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 지금의 경우, (관련 질문) 5회 작업형2 질문있습니다 링크에서 추가적인 힌트를 얻으실 수 있을 것 같습니다.

현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

관찰값과 기대값의 개념이 헷갈립니다.

0

6

1

작업형2 ID 컬럼 삭제 질문

0

8

2

2유형 작성관련 질문

0

7

1

memoryerror 질문

0

8

1

작업형 유형2 이렇게 고정 템플릿으로 가져가도 될까요?

0

8

0

ID 삭제 필수 인가요?

0

13

3

7회 기출문제 작업형1번 df 변환 후 저장되는 방식 질문

0

10

1

3 유형 귀무가설, 대립가설

0

13

2

인코딩 관련 질문 있습니다

0

18

2

작업형3 이원분산분석 sm에서불러오기 / anova_lm 차이

0

14

2

2유형 원핫인코딩 오류

0

20

2

시험장에서 주석 단축키 안될 때 많나요?

0

25

2

라벨인코딩 방식

0

22

2

test 재학습 관련

0

14

2

target 빈도 확인

0

16

2

작업형 2 연습문제 섹션 6

0

19

2

F1-score

0

17

2

작업형 2번 섹션 3

0

16

2

작업형 2 인코딩, 결측치, 모델 선택 질문

0

21

1

인코딩 방식 문의

0

24

2

9회 3유형 ==> 7회 3유형 질문드려요

0

16

2

작업형 2관련 질문입니다

0

15

2

작업형2 카테고리

0

24

2

110강 회귀_8번 문의

0

17

2