inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형2 모의문제1

2유형 탬플릿에 대한 질문입니다

2

진혁

작성한 질문수 1

0

강의를 들으면서 여러 문제를 풀고 또 만들어서 해결하는 중인데
2유형 같은 경우에는 기본적인 탬플릿이 유지한 상태에서 문제에 따라서 조금만 변형하면 되는걸로 알고 있는데 제가 사용하는 탬플릿이 문제가 있을까요?

# gas_train.csv, gas_test.csv를 이용하시오.

# 학습 데이터의 총가스사용량을 종속변수로 사용하여
# 테스트 데이터의 총가스사용량을 예측하시오.

# 조건은 다음과 같다.

# 1. 문자형 변수는 원-핫 인코딩하시오.
# 2. 학습 데이터와 테스트 데이터는 동일한 방식으로 전처리하시오.
# 3. 모델은 RandomForestRegressor를 사용하시오.
# 4. 검증 데이터 비율은 20%로 하시오.
# 5. RMSE를 출력하시오.
# 6. 테스트 데이터 예측 결과를 result.csv로 저장하시오.
# 7. 제출 파일은 pred 컬럼만 포함하시오.

# 세팅
import pandas as pd
import numpy as np

from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# 데이터 불러오기
train = pd.read_csv('gas_train.csv')
test = pd.read_csv('gas_test.csv')

# target 지정
target = '총가스사용량'

# X, y 분리
y = train[target]
X = train.drop(target, axis=1)

# id 컬럼 제거
if 'id' in X.columns:
  X = X.drop('id', axis=1)

if 'id' in test.columns:
  test_X = test.drop('id', axis=1)
else:
  test_X = test.copy()

# train / test 합치기
data = pd.concat([X, test_X], axis=0)

# 원 핫 인코딩
data = pd.get_dummies(data)

# train / test 분리
X = data.iloc[:len(X), :]
X_test = data.iloc[len(X):, :]

# 학습용 / 검증용 데이터 분리
X_tr, X_val, y_tr, y_val = train_test_split(
    X, y,
    test_size = 0.2,
    random_state = 42)

# 랜덤포레스트
model = RandomForestRegressor(random_state = 42)
model.fit(X_tr, y_tr)

# 검증 데이터 예측
val_pred = model.predict(X_val)

# rmse 계산
mse = mean_squared_error(y_val, val_pred)
rmse = np.sqrt(mse)

print('RMSE:', rmse)

# 다시 학습
model.fit(X, y)

# 테스트 데이터 예측
pred = model.predict(X_test)

# 파일 생성
result = pd.DataFrame({'pred':pred})
result.to_csv('result.csv', index = False)

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 0

시험환경 질문 드립니다.

0

11

1

수강기간 연장 가능 여부 문의드립니다

0

20

1

문제2-2에서 유의한 변수에서 음수는 유의한지?

0

18

3

강의 만료 후 오프라인 저장 강의 수강 가능 여부

0

29

2

xgboost에 관해

0

29

2

빅데이터분석기사 작업2형

0

34

2

평가지표 RMSE 문의

0

34

2

1-3번문제 질문

0

37

2

회귀모델 평가지표 최근 시험환경에서의 지원여부가 궁금합니다

1

35

2

컬럼 삭제 관련

0

32

2

레이블 인코딩과 원핫 인코딩

0

35

2

검정결과 질문(채택/기각)

0

34

2

수강기간 연장 가능 여부 문의

0

41

2

마인드맵에서 암기해야할 내용은 별마크 인가요

0

38

2

수강 연장 문의드립니다

0

34

2

2유형 관련 질문

0

47

2

수강기간 연장 문의드립니다

0

40

2

로지스틱 회귀 데이터 누락 관련 질문

0

41

2

수강기간 연장 문의드립니다.

0

42

2

작업형1 - 연습문제 1번 관련 질문입니다.

0

50

2

강의 자료 16~39 관련

0

49

2

데이터 전처리 시 문의

0

47

2

random_state 값

0

44

2

인코딩 사용여부

0

53

2