질문 & 답변 - 인프런 | 커뮤니티

묻고 답해요

160만명의 커뮤니티!! 함께 토론해봐요.

인프런 TOP Writers

해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

선형회귀(ols) 사용 SSR/SST 구하기

안녕하세요, 선생님 3유형 선형회귀 문제에서 model 출력시 결정계수값은 나오는데, 혹시 결정계수를 구성하는 값인 SSR/SST, SSE의 값은 별도 model에서 호출할수 있는 값인지 문의드립니다.

Jason · 2023.11.27 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

402

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

3회 기출유형(작업형)

안녕하세요. 작업형2문제 시험준비를 범주형데이터는 모두 label로 인코딩하고, 모형은 randomforest를 활용하려고 합니다.강의해주신 내용은 수치형을 분리해서 작업을 하는데 만약, 제가 한 것처럼 하면 문제는 없는지 궁금합니다.(그냥 무턱대고 외워서 진행한거라서... 오류가 안난다 뿐인지, 코딩이 맞는지 확신이 없습니다.) 추가적으로, 원래는 index 이름이 없는 첫번째 열을 삭제 하고싶엇는데... 삭제를 못하겠더라구요 이럴경우 함수를 어떻게 적어야하는지 궁금합니다.import pandas as pdtrain = pd.read_csv("train.csv")test = pd.read_csv("test.csv") # print(train.shape, test.shape) # (1490, 10) (497, 9)# print(train.info(), test.info()) # object 4개# print(train.select_dtypes(include='object').columns) # 'Employment Type', 'GraduateOrNot', 'FrequentFlyer', 'EverTravelledAbroad'# print(test.select_dtypes(include='object').columns)# print(train.isnull().sum()) # 결측치x# print(test.isnull().sum()) # 결측치x # print(train['TravelInsurance'].value_counts()) # target 변수 값 확인from sklearn.preprocessing import LabelEncodercols=train.select_dtypes(include='object').columns# print(cols)for col in cols : le=LabelEncoder() train[col]=le.fit_transform(train[col]) test[col]=le.transform(test[col])from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val=train_test_split(train.drop('TravelInsurance',axis=1), train['TravelInsurance'], test_size=0.2, random_state=2023)# print(X_tr.shape, X_val.shape, y_tr.shape, y_val.shape) # (1192, 9) (298, 9) (1192,) (298,)from sklearn.ensemble import RandomForestClassifiermodel=RandomForestClassifier()model.fit(X_tr, y_tr)pred=model.predict_proba(X_val)# print(pred[:,1])from sklearn.metrics import roc_auc_scoreroc_auc_score(y_val, pred[:,1]) # 0.7817398927392739 검증용y_pred=model.predict_proba(test)submit=pd.DataFrame({ 'index' : test.index, 'y_pred': y_pred[:,1]})# print(submit)submit.to_csv('result.csv',index=False)print(pd.read_csv('result.csv'))

POMME · 2023.11.27 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

337

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

lightgbm 관련 질문

안녕하세요 선생님!! 🙂 lightbgm을 쓰는 것도 추천해주신 글을 보고 이것도 적용해보았는데 자주 아래와 같은 워닝이 떠서 여쭤봅니다.우선 보여드리는 부분은 기출5 작업형2 문제입니다!# 평가지표 from sklearn.metrics import mean_squared_error import numpy as np def rmse(y_test, pred): return np.sqrt(mean_squared_error(y_test, pred)) # lightgbm import lightgbm as lgb model = lgb.LGBMRegressor(random_state=0, max_depth=3) model.fit(X_tr, y_tr) pred = model.predict(X_val) print(rmse(y_val, pred))그리고 다음은 워닝 코드 내용입니다. (아래보다 훨씬 길게 워닝이 뜰때도 있습니다..!)[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.000191 seconds.You can set force_row_wise=true to remove the overhead.And if memory is not enough, you can set force_col_wise=true.[LightGBM] [Info] Total Bins 384[LightGBM] [Info] Number of data points in the train set: 3195, number of used features: 8[LightGBM] [Info] Start training from score 12419.8469481119.6871943178526 워닝 아래로 출력은 잘 되긴 하나 워닝이 계속 떠서 왜그러는지 여쭤봅니다!!

dbskqnsghd · 2023.11.27 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

677

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

캐글 작업형 2 문의 사항

캐글 작업형 2 (T2-6. Bike-Regressor)파일까지 생성 후, 다운로드 후 submit을 누르면 아래와 같은메세지가 납니다. 이유 확인 부탁드립니다.캐글 작업형 (T 2-3 Adult census ~) 1) 라벨 인코딩 오류object 컬럼을 라벨 인코딩 진행 시 위와 같은 에러가 발생합니다. 인터넷을 찾아보니 문자열과 숫자가 혼합되어 있는지 확인하라고 하는데, Object 컬럼 ('workclass') 1개만 선택해서 해도 변환이 안되는데.. 확인 부탁드립니다.2) 원핫 인코딩 시 train, test 열 차이원핫 인코딩을 진행 후, 열 갯수가 1개 차이가 났다가,민맥스 스케일링 후 다시 52개로 맞춰졌습니다.test로 학습 후 결과 제출 시에는 52, 51 개로 결국 1개 차이가 나서 오류가 나는데요.. 이유를 알 수 있을까요?

baek · 2023.11.27 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

227

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

시험환경에서 xgboost 불러올 때 에러 발생

> /usr/local/lib/python3.9/dist-packages/xgboost/compat.py:31: FutureWarning: pandas.Int64Index is deprecated and will be removed from pandas in a future version. Use pandas.Index with the appropriate dtype instead. from pandas import MultiIndex, Int64Index https://dataq.goorm.io/exam/3/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B6%84%EC%84%9D%EA%B8%B0%EC%82%AC-%EC%8B%A4%EA%B8%B0-%EC%B2%B4%ED%97%98/quiz/4 시험환경에서 xgboost 를 불러올 때 위와 같은 에러가 납니다.찾아보니 'int64index'를 사용하고 있어서 발생하는 문제고, pandas와 xgboost를 업데이트 하거나 dtype을 직접 int로 변경해서 해결하도록 안내해주네요. xgboost는 제외하고 대비해도 괜찮을까요?

스툼 · 2023.11.27 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

313

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

원핫인코딩 관련

원핫인코딩 관련하여 질문이 있습니다. cols = [ object형 컬럼들, , , ] 으로 지정한 후 어떤 문제에서는 pd.get_dummies(df[cols]) 로 되어있는 곳도 있고,pd.get_dummies(df, columns=cols)로 되어있는 곳도 있는데, 둘다 마찬가지 결과가 나오는걸까요? 추가적으로, 다중분류 부분에서 보면 숫자로되어 있는 object형 변수는 자동으로 원핫인코딩이 되지 않으므로 pd.get_dummies(df[0])으로 코딩해야 한다고 하셨는데요, 그렇다면 위의 예시에서 df, columns=cols로 했을 경우에는 숫자로 되어있는 변수는 dtype이 object형이어도 자동으로 원핫인코딩이 되지않는걸까요..?

narae.park325 · 2023.11.27 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

198

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

성능이 많이 떨어지는데...?

학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 작업형 2 유형 f1_score로 랜포 돌렸을때 값이 0.4961.. 이 낮게 나오는데 시험에서 이렇게 나와도 괜찮나요? 스케일링 라벨인코딩 작업만 했습니다

2023.11.27 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

344

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

회귀모델 검증방법 rmse질문입니다

위에 코드가 모의 문제에 나온 코드이고 아래 코드가 검증방법 종합편에 나온 코드입니다.같은 rmse인데 위에는 np.sqrt을 사용했고 아래는 mse **0.5를 사용했는데 차이가 무엇일까요? 둘 중 아무거나 편한거 하나를 시험때 사용하면 되는건가요?

김건우 · 2023.11.27 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

252

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형 3 질문

' 선생님 안녕하세요! 현재 기출 5,6회 제외하고 대부분의 강의를 다 복습한 상태인데, 위의 지지도/신뢰도/향상도, 포아송분포 등의 부분은 안다룬 것으로 알고 있는데 혹시 개념으로 따로 빼지 않으시고 기출에서 알려주시는 것 대로만 공부하면 될까요??

dbskqnsghd · 2023.11.27 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

232

답변

1
미해결
[개정판] 딥러닝 컴퓨터 비전 완벽 가이드

경로 설정 문의

안녕하세요!평소 파이썬 공부를 하다가 헷갈렸던 부분이 있는데,경로를 설정할 때 ./과 /의 차이에 대해서 알 수 있을까요?cv2_image = cv2.imread('./content/data/beatles01.jpg')cv2_image = cv2.imread('/content/data/beatles01.jpg')

baehyun42 · 2023.11.27 · [개정판] 딥러닝 컴퓨터 비전 완벽 가이드

투표점수

0

조회수

270

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

test예측할 때 predict_proba 로 제출한 이유가...

학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 분류 문제 해설할 경우 test예측할 때 대부분 predict_proba 로 제출한 이유를 궁금하게 생각하였는데...제가 생각하기에 그 이유는 첫 번째로, 문제에서0과 1 중 1에 해당할 확률을 구하는 문제라는 점,(예시신용카드서비스를 떠나는 고객을 찾아라,심장마비 확률이 높은사람?,등등) 두 번째로,제출 예시가 소수점이라는 점,CLIENTNUM,Attrition_Flag 788544108,0.633 719356008,0.123 712142733,0.355id,output 41,0.633 28,0.123 222,0.355이라서 test예측할 때 predict_proba 로 제출하신거 맞죠? 반대로, 신규 고객이 어떤 분류에 속할지, 난방 부하 단계를 예측하라에서는 predict로 test를 예측하셔서... ㅠㅠ 정말 기초적인 질문 죄송합니다.

빅분기 · 2023.11.27 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

458

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

헷갈리는 부분 질문

선생님 안녕하세요!! 공부하면서 헷갈려 정확히 알고 싶은 부분 질문드립니다!! :) 1. 작업형 1과 작업형 3의 배점이 각각 어떻게 되는지 궁금합니다! 단답형이 소문제 3점씩해서 10문제, 그리고 작업형1?이 10점씩 3문제라고 하셨던것 같은데 여기서 말씀하신 단답형이 작업형 3일까요?! 2. 스케일링 할 때 target 컬럼이 붙어있을 시 이를 빼고 스케일링 해야 하는것 맞을까요?? 3. 수치형과 범주형 데이터를 나누는 경우가 어떤 것이 있을까요? - 모두 cols를 사용하여 스케일링하고 인코딩한다면 굳이 나눌 필요 없지 않을까 라는 생각이 들어서 여쭤봅니다!! 4. 섹션 4 작업형 1 모의문제 1 문제2번 하드코딩 유무위에서 예를 들어 주어진 데이터에서 결측치가 30% 이상 되는 컬럼을 찾고 -> 이 부분을 풀 때 df.isnull().sum()으로 f1 컬럼이라는 것을 알 수 있는데, 그 이후 풀어야 하는 부분(해당 컬럼에 결측치가 있는 데이터 행 삭제)을 그냥 위에서처럼 df = df.dropna(subset=['f1'])이라고 풀어도 되는것일까요? 하드코딩의 기준을 잘 모르겠어서 여쭤봅니다! 5. 분산분석 데이터 긴 데이터 형태로 무조건 바꾸어야 하나요? 이원 분산분석 때에는 안바꾸고 바로 한걸로 기억해서요!

dbskqnsghd · 2023.11.27 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

205

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

기출 5회 유형1 1번 문제 질문

조건을cond= (df['종량제봉투종류']=='규격봉투') & (df['종량제봉투용도'] == '음식물쓰레기') & (df['2ℓ가격'] != 0)이렇게 둬서 문제는 해결했는데요, 혹시 & 대신에 and로 넣으면 오류가 발생하던데, and로 해결하려면 어떤식으로 변형을 해야될까요?

sun785 · 2023.11.27 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

168

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

예시문제 작업형 2 (구버전)

print(X_train.describe()) print(X_test.describe()) cond1=X_train['총구매액']>=0 cond2=X_train['최대구매액']>=0 cond3=X_test['총구매액']>=0 cond4=X_test['총구매액']>=0x_train 과 x_test 총구매액과 최대구매액에음수가 존재하는데 이럴경우는 해당 행을 어떻게처리하면될까요? test 데이터의 경우 칼럼은 필요시 삭제 가능하다행은 삭제하면 안된다고 강의에서 배워서 질문드립니다. 수치형 데이터의 경우 민맥스 스케일, 혹은 스탠다드 스케일ㄹ로 스케일링 하므로, 음수(이상치) 처리는 크게 신경쓰지 않아도될것 같기도하구요..!

kwon10375 · 2023.11.27 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

202

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형 2 데이터 3개 주어지는 경우

작업형 2 데이터가 3개 주어지는 경우어떻게 해야하는지 강의에서 설명을 자세히 안해주신 것 같아요만약 해주셨다면, 어느 강의 보면 될지요?

aprilminji · 2023.11.27 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

179

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

3회 기출유형 작업형 2 질문이요

작업형 2 문제푸실때 어떤 경우는 범주형과 수치형 데이터분리를 하실때도있고 안하실때도있으셨는데 이번에는 하셨더라고요 어떤경우에 범주형데이터와 수치형데이터를 분리하면 되나요? 선택기준이 궁금합니다.

jms717958 · 2023.11.27 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

317

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

예시문제 작업형 2 (구버전)

학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 데이터 전처리 시 결측치 처리 할떄환불금액에 NA 가 있어서 0으로 채웠는데, 이를 환불금액의평균값으로 채우는게 점수에 영향이 있을까요?결측치 및 이상치 처리에는 정답이 있는것인지 궁금합니다. 또한 피처엔지니어링을 할때 데이터를 수치, 범주형으로 분리 하고 다시 병합하는 과정도필수가 아닐까요?아래와 피처는 같이 작업하는 과정으로 이해하고있습니다. 수치형- 민맥스 스케일링 (필수는 아님)범주형- 인코딩( 많으면 라벨, 적으면 원핫) : 필수 이렇게 생각하면 될까요?감사합니다.

kwon10375 · 2023.11.27 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

242

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

바보 같은 질문이지만... 행(가로) 열(세로)

행(row)이 가로고 열(column)이 세로 잖아요.문제를 풀다가 이 기본 개념이 헷갈리는 멘붕상태를 경험해서 글 올립니다... ㅠ axis=1 이 세로(칼럼)별로 정렬하는거라고 생각하고 있었는데sum(axis=1) 인 경우 왜 행별로 값을 구하고, sum(axis=0)은 칼럼별로 값을 구하는지 순간 이해가 안되서.... 칼럼이 a1,a2,a3 이런 식으로 있다면, axis=1일 때 각 칼럼별로 계산헤서 a1의 합, a2의 합, a3의 합, 이런식으로 나오는 줄 알았는데, axis=0일 때 a1의 합, a2의 합이 구해지더라고요.... 이걸 어떻게 하면 쉽게 이해하고 외울 수 있을까요....??

빅분기수강생 · 2023.11.26 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

383

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

lightGBM 질문입니다.

성심성의껏 답변달아주셔서 감사합니다.기출 5회 2유형에서 회귀분석에서 이렇게 작성해보았는데import lightgbm as lgb model2 = lgb.LGBMRegressor() model2.fit(X_train, y_train) pred2 = model2.predict(X_test) print(pred2) 결과가 나올때 나오는 이 설명 내용은 머 그냥 알려주는것 같긴한데 시험볼때 문제 없겠지요?[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.000194 seconds. You can set force_row_wise=true to remove the overhead. And if memory is not enough, you can set force_col_wise=true. [LightGBM] [Info] Total Bins 388 [LightGBM] [Info] Number of data points in the train set: 3759, number of used features: 8 [LightGBM] [Info] Start training from score 12353.321362 그리고 결과값이 이렇게 소수로 나오는데, 예측가격은 정수형으로 나와야 하는거아닌가요?? ㅠㅠ 아직 많이 부족합니다.[15684.51702898 16434.89804293 14563.42614282 ... 9815.50704033 13794.84066529 5558.57863346]

hbsr486 · 2023.11.26 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

977

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

평가지표가 ROC-AUC 일때, predict_proba, predict 둘다 제출해도 무관한게 맞죠?

제가 영상대로 이해한게 맞다면 평가지표가 ROC-AUC 로 나오면 predict_proba()와, predict() 둘다 해보고, 성능이 좋은 거로 최종 제출해도 되는게 맞죠?

우정은 · 2023.11.26 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

1

조회수

538

답변

1

인기 태그

주간 인기글