묻고 답해요
156만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
제2유형 전처리작업
제2유형 전처리 작업할 때, 결측치 - 중앙값 또는 0 처리 / 환불금액의 경우 상식적으로 환불을 안하는 사람이 있으니 0 처리가 맞을듯 범주형(문자열) - drop 진행 안하고 그대로 원핫인코딩만 진행하려고합니다. 상관 없을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 1 문제 1-2
소비량이 5번째로 많은 국가를 하는데, 3번째로 많은 국가가 2곳입니다.그러면 3번째를 공동 3위로 처리해서 1,2,3,3,5 이렇게 보는 걸까요?? 문제의 말로만 따지면 5번째로 많은 국가니까 313 다음 국가를 써야하나 싶어서 질문드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 유형 한가지 풀이 질문
안녕하세요 선생님, 9회차에서 50점으로 아쉽게 떨어지고 재수강중인 학생입니다다름이 아니라 작년 시험에서 기억이 잘 안나는데 제가 작업형 2 유형을원핫인코딩 - 랜덤포레스트 한가지로 통일해서 연습해서 9회차 시험에서도 그렇게 했던 기억이 있는데요물론 그 때 작업형 2 유형을 40점을 맞았지만뭔가 불안해서 한 번 이렇게 여쭤보게 되었습니다.작업형 2 유형은 그냥 원핫인코딩 - 랜덤포레스트 기준으로 평가지표에 맞게만 하면 되겠죠...? 스케일링이나 하이퍼 파라미터 사용 없이? 😥😥
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
실전에서 스켈링&파라미터 안쓰는게 낫나요?
안녕하세요 시험에서, 스케일링과 모델에있어 하이퍼파라미터 튜닝을 할 수 있다면 하는게 더 좋나 여쭤보려합니다 랜덤포레스트에서 max_depth, n_estimators같은 것들을 변경했을 때, 제가 보는 평가지표상에서는 더 좋아질지언정 과대학습으로 오히려 시험점수가 낮게나올수도 있다고 하더라고요. 하이퍼파라미터는 해서 평가지표가 더 좋아지면 하고 내는게 좋나요? 또한 후기를 찾아보니 수치형데이터들이 엄청 크게 나온다는데 이경우 스케일링을 하는게 더 효과적일까요
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2유형 최종 제출 질문(read_csv)
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요2유형 최종제출할 때 read_csv도 주석 처리하고 제출해야 하나요? (print는 당연히 주석 처리해야 하는 걸로 알고 있습니다)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
target pop 관련
만약에 target 값이 object라면 데이터 전처리(인코딩)를 하기 전에 pop을 적용하는 것이 맞고, int형이면 데이터 전처리 후에 해도 되는 것인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
mse 평가 관련 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요MSE 불러와서 RMSE 함수를 시험장에서 생각 못할경우 그냥 print 안에서 **0.5 를 해도 될까요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
sklearn에 rmse 지원하는지?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요rmse 쓸때 그냥 아래처럼 쓰면되나요?1.4v이상부터 된다는데, 시험장 환경을 몰라서요..from sklearn.metrics import root_mean_squared_error root_mean_squared_error(y_val,pred)추가로, mse로 변환할때,def rmse(y_true,y_pred)에서 y_true랑 y_pred 는 어디서 가져오는 값인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험을 볼 때 이면지를 사용할 수 있나요?
작업형1, 3 에서는 따로 답안 제출을 해야 되는데, 답안 제출란으로 넘어가면 메모장이 보이지 않습니다. 그래서 혹시나 하는 입력 실수를 방지하고자 이면지에 작성하고 답안 제출을 하고 싶은데... 이게 가능한지 궁금합니다.감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
6회 기출 작업형2 오류 파악
import pandas as pd train = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/6_2/energy_train.csv") test = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/6_2/energy_test.csv") X_train = train.drop(['Heat_Load'], axis = 1) y_train = train['Heat_Load'] X_test = test from sklearn.preprocessing import LabelEncoder encoder = LabelEncoder() X_train['Roof'] = encoder.fit_transform(X_train['Roof']) X_test['Roof'] = encoder.transform(X_test['Roof']) X_train['Height'] = encoder.fit_transform(X_train['Height']) X_test['Height'] = encoder.transform(X_test['Height']) X_train['Orient'] = encoder.fit_transform(X_train['Orient']) X_test['Orient'] = encoder.transform(X_test['Orient']) num_columns = X_train.select_dtypes(exclude = 'object').columns from sklearn.preprocessing import MinMaxScaler scaler = MinMaxScaler() X_train[num_columns] = scaler.fit_transform(X_train[num_columns]) X_test[num_columns] = scaler.transform(X_test[num_columns]) from sklearn.model_selection import train_test_split X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size =0.2, random_state=2025) print(X_train.shape, X_val.shape, y_train.shape, y_val.shape) from sklearn.ensemble import RandomForestRegressor model = RandomForestRegressor() model.fit(X_train, y_train) y_val_pred = model.predict(X_val) ValueError: could not convert string to float: 'High'위와 같이 작성하였는데 해당오류가 뜹니다. 라벨인코딩은 진행하였는데 왜 오류가 발생할까요??.. 원핫인코딩을 진행해야하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
마인드맵 업데이트 된 것이 어디에 올라와있을까요?
마인드맵 업데이트 된 것이 어디에 올라와있을까요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 6회 작업형 1 - 3번 질문
풀었을 때 2020년도는 11개의 월이 있고, 2021년도는 9개의 월밖에 없었습니다.왜 12로 나누나요?그냥 mean()해야하는거 아닌가요?학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
평가지표를 무시해도 되나요?
평가를 하지 않고 그냥 바로 예측해서 제출해도 된다고 여러번 말씀하신것 같은데roc_auc 일때만 제출할 pred가 pred_proba 임을 파악하는 용도로 사용하고 나머지는 그냥 무시해도 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출유형 문제와 시험장에서의 문제 차이
기출유형 문제들을 아래와 같은 형태로 주시곤 했는데 시험장 문제와 아예 같은 문제인가요? 예를 들어 시험장에서도 아래 주어진 것처럼 데이터 목록, 예측할 컬럼들을 알려주는지 평가지표가 MAE면 (Mean Absolute Error) 이렇게 풀어서 나타내주는지 궁금합니다! 작업형2 - 통신사에서 고객에게 청구될 총 금액을 예측하시오.제공된 데이터 목록:churn_train.csv(훈련 데이터)churn_test.csv(평가용 데이터)예측할 컬럼: TotalCharges(총 청구액)학습용 데이터(churn_train.csv)를 이용하여 총 청구액을 예측하는 모델을 만든 후 이를 평가용 데이터(churn_test.csv) 에 적용해 얻은 예측값을 다음과 같은 형식의 CSV 파일로 생성하시오.제출 파일은 다음 1개의 컬럼을 포함해야 한다.pred: 예측된 총 청구액제출 파일명: ‘result.csv’제출한 모델의 성능은 MAE(Mean Absolute Error) 평가지표에 따라 채점한다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
한 가지 방법으로 풀기에서
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요랜덤포레스트 분류 회기만 잘 구분하고인코딩은 원핫 인코딩으로만 진행해도 될까요?라벨인코딩도 해야할지 고민입니다.이전에 유니크가 너무 많으면 원핫인코딩이 오래걸려서 라벨 인코딩을 해야한다고 했던걸로 기억해서요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2에서 만약 데이터가 3개로 주어지면 concat 하고 작업하는 방법을 알려주셨는데
concat하는 데이터가 train데이터 두개로 나뉜것을 하나의 train으로 합치라는 뜻 맞나요? 주어지는 X_test데이터는 기존 연습하던데이터들처럼 그냥 test 데이터인거죠?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 작업형 3(Ver.2025) 소문제 3번 질문
from scipy import stats result = stats.ttest_ind(df[cond1]['Resistin'], df[cond2]['Resistin'], equal_var = True) 안녕하세요!3번 소문제 질문에서'두 집단의 로그 리지스틴 값에 유의미한 차이가 있는지...' 라고 해서 ttest 시에도 로그 값을 사용해야 하는 줄 알았습니다.from scipy import stats result = stats.ttest_ind(np.log(df[cond1]['Resistin']), np.log(df[cond2]['Resistin']), equal_var = True)위 코드처럼요. 하지만 그렇지 않더라구요.혹시 왜 그런건지 설명 좀 부탁드려도 될까요?감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
모델에서의 상수항 처리
model.summary()하면 회귀 계수들이 나오는데회귀 계수 관하여 답을 제출할때는 상수항은 고려하지 않고 제하나요? 이질문을 드리는 이유는 기출8회 작업형3 문제와 캐글 문제 때문에 여쭈어봅니다기출8회 작업형3처럼 상수항은'독립변수'에 포함시키지 않는지이에따라 항상 상수항은 연산에대해서 포함시키지않는것인지하단 캐글 문제 처럼 회귀계수 중 가장 큰값 같은 문제에서 상수항 계수가 제일 큰데 이러면 상수항 회귀계수를 내는것인지 # 모든 변수를 사용하여 OLS 모델을 적합하고, 회귀계수 중 가장 큰 값은? from statsmodels.formula.api import ols formula = 'y~x1+x2+x3+x4' model = ols(formula, data = data).fit() print(model.summary()) print(model.params[1:].max()
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2번 관련해서
1-2 번 관련해서 궁금한게 있는데 idxmax( ) 가 가장 큰 거 반환해주는걸로 알고 있는데 idxmax(axis = 1 ) 을 사용하면 컬럼이 7 개 나오는데 그게 연도별로 가장 높은걸 반환해주는걸로 이해했습니다. 근데 어떤 원리인지 잘 모르겠어요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2유형 변수 삭제
실제 시험 작업형 2유형에서설명력이 낮은 변수를 삭제하거나결측치나 이상치가 있는 데이터를 준다면 결측치를 제거하거나이런것에 기준이 있을까요?제가 문제를 읽어보고 임의로 결정해서 삭제를 해야할까요 아니면 문제에 있는 모든 변수(고유한ID컬럼제외)를 포함해서 학습해야할까요?