묻고 답해요
169만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
target 빈도 확인
print("===== target 빈도 =====") print(train['Credit_Score'].value_counts())target 빈도를 확인해서 뭘하고자했는지 기억이 안나 질문드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 연습문제 섹션 6
결측치를 처리하지 않고 그냥 랜덤포레스트를 돌리니깐 0.8933이 나오더라구요처리하지 않아도 되는걸까요? import pandas as pd train = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p2/laptop_train.csv") test = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p2/laptop_test.csv") target= train.pop('Price') df=pd.concat([train,test]) df=pd.get_dummies(df) train=df.iloc[:len(train)] test=df.iloc[len(train):] from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.1, random_state=0) from sklearn.ensemble import RandomForestRegressor rf=RandomForestRegressor(random_state=0) rf.fit(X_tr,y_tr) pred1=rf.predict(X_val) from sklearn.metrics import r2_score print(r2_score(y_val, pred1)) pred=rf.predict(test) result=pd.DataFrame({ 'pred':pred }) result.to_csv('result.csv',index=False) pd.read_csv('result.csv')
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
F1-score
import pandas as pd train = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p2/drug_train.csv") test = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p2/drug_test.csv") target=train.pop('Drug') df=pd.concat([train,test]) df=pd.get_dummies(df) train=df.iloc[:len(train)] test=df.iloc[len(train):] from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=2022) from sklearn.ensemble import RandomForestClassifier rf=RandomForestClassifier(random_state=2022) rf.fit(X_tr, y_tr) pred1=rf.predict(X_val) import lightgbm as lgb lg=lgb.LGBMClassifier(random_state=2022,verbose=-1) lg.fit(X_tr, y_tr) pred2=lg.predict(X_val) from sklearn.metrics import f1_score print(f1_score(y_val, pred1, average='macro')) print(f1_score(y_val, pred2, average='macro'))lightgbm으로 진행해서 random_state=0으로 진행하면 0.9415가 나오고 42나 2022나 로 바꾸면 1.0이 나오는데random_state를 0으로 해야할까요 42나 2022로 해야할까요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2번 섹션 3
랜덤포레스트로 돌리다보니 test_size=0.05로 했을 때 가장 에러가 작더라구요..근데 이렇게 test_size를 작게 둬도 되는걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 인코딩, 결측치, 모델 선택 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요# 레이블 인코딩, 랜덤포레스트: 807.8000397227841# 원핫 인코딩, 랜덤포레스트: 819.45688399024339# 레이블 인코딩, lgb: 779.846084731424# 원핫 인코딩, lgb: 786.6443289033147# 모델은 lgb로 선택# 모델 선택 후 튜닝, 결측치 처리 유무, 인코딩 유무 확인하며 성능 비교하기# 튜닝 X -> 더 높아짐# 결측치 0으로 처리, 카테고리로 인코딩: 772.4958384891883# 결측치 처리 X, 카테고리 인코딩: 768.6458172187305# 결측치 처리 X, 레이블 인코딩: 782.66052200386# 결측치 0으로 처리, 레이블 인코딩: 779.8460847311424위의 과정을 거쳐 lgb모델, 결측치 처리 X, 카테고리 인코딩으로 선택하여 진행하였는데, 이렇게 하는 것이 맞는지 확인차 질문드립니다 !!!그리고, 다 선택 후, train, target 전체 데이터로 재학습 후 test 예측하는 것이 더 좋을지 질문드립니다 !
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
인코딩 방식 문의
안녕하세요,train 데이터에는 없지만 test 데이터에는 있는 범주형 데이터를 인코딩하기 위해서 train test를 다 합친 후에 인코딩을 수행하는 것으로 알고 있는데요, (라벨인코딩, 원핫인코딩) 만약 train test 두 데이터를 합친 데이터를 fit 하고 train, test 별로 transform 하면 이것도 결국엔 Data Leakage가 되는 것이 아닌지 여쭙고 싶습니다. 만약 시험 환경에서 저런 상황이 나타난다면 Data Leakage는 감수하고 인코딩을 수행해야 하는 것인지 궁금합니다. 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
9회 3유형 ==> 7회 3유형 질문드려요
# 1) 학습, test데이터를 사용해 예측 (0.5 미만: 0, 0.5 이상 1) model = logit("gender ~ weight", data=train).fit() target = test.pop("gender") pred = model.predict(test) > 0.5 7회에서 젠더를 타겟으로 빼 놓았는데요# 1) test데이터에서 design값 계산 test['pred_design'] = model.predict(test) # 2) test데이터에 대한 RMSE 계산 from sklearn.metrics import root_mean_squared_error rmse = root_mean_squared_error(test['design'], test['pred_design']) round(rmse, 3)9회 디자인은 타겟으로 빼놓는게 아닌가요? 타겟을 했더니 에러가 나서 ㅠㅠ 잘 모르겠습니다 알려주세요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2관련 질문입니다
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요2유형을 푸는 과정에서 eda에 관한 코드는 삭제하고 실행해야하는지 궁금합니다 !
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 카테고리
작업형 2를 풀때 회귀문제에서 카테고리가 다른 경우는 기출에서는 나오지 않았고 연습문제에서만 나왔는데 지금까지 카테고리가 같은 것만 공부해서 카테고리가 다른 경우는 공부하지 않았습니다 카테고리가 다른 경우가 나올 확률이 높아서 공부하는게 좋을지 시험3일 전에 여쭤봅니다..!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
110강 회귀_8번 문의
mse구할때 model.mse_resid와 값이 다른데 뭐가 맞나요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
XGBRegressor 학습 시 warning 출력
안녕하세요, XGBRegressor 학습 시 나타나는 warning으로 실제 오류와 자주 헷갈려서, import warningswarnings.filterwarnings('ignore') 실행 후 코드를 계속 실행해도 괜찮을 지 여쭤보고자 문의 드립니다. 좋은 강의 감사합니다.
-
해결됨베개투자법 완성: 아침이 설레는 AI 완전 자동매매 Claude 바이브코딩
LLM판단에 문제가 있는 것 같습니다
강의를 수강하시다가 막히는 부분이 있는 경우는 "자주 묻는 질문"을 먼저 참고 부탁드립니다.막히는 부분에 대해서 질문을 주실 때에는 꼭 강의 제목과 타임라인도 같이 작성 부탁드립니다 오늘 판단을 분석해봤는데요데드크로스를 들어갔는데, 골든크로스가 견고하다고 잘못 판단하는 것 같습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 프레임을 변경해도 되나요?
'views' 컬럼의 1사분위수, 3사분위수 그리고 IQR을 계산하시오.이상치 조건에 맞는 데이터를 찾으시오. (이상치는 1사분위수 – (IQR 1.5)보다 작은 값과 3사분위수 + (IQR 1.5)보다 큰 값)이상치 데이터의 'views' 컬럼 합을 정수로 구하시오. 문제를 푸는데 1사분위수와 3사분위수를 새로운 df['1qr'] df['3qr''] 이라는 컬럼을 생성해서 저장하고싶은데 시험 점수에는 영향이없나요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
10회 기출 작업형3 문제 2-1 질문
안녕하세요. 해당 문제를 아래와 같이 풀었는데 저는 계속 0.253이 나오는데 정답이 0.254여서 제가 어떤 부분에서 틀렸는지 알고 싶습니다. 감사합니다. [출력결과] OLS Regression Results ============================================================================== Dep. Variable: heating_load R-squared: 0.754 Model: OLS Adj. R-squared: 0.752 Method: Least Squares F-statistic: 417.8 Date: Tue, 16 Jun 2026 Prob (F-statistic): 2.02e-164 Time: 12:24:27 Log-Likelihood: -1772.0 No. Observations: 550 AIC: 3554. Df Residuals: 545 BIC: 3576. Df Model: 4 Covariance Type: nonrobust ============================================================================== coef std err t P>|t| [0.025 0.975] ------------------------------------------------------------------------------ Intercept 38.3821 1.504 25.517 0.000 35.427 41.337 wall 0.0304 0.030 1.012 0.312 -0.029 0.090 roof 0.2483 0.006 39.564 0.000 0.236 0.261 glazing 0.2217 0.023 9.693 0.000 0.177 0.267 height -0.2469 0.077 -3.212 0.001 -0.398 -0.096 ============================================================================== Omnibus: 0.698 Durbin-Watson: 1.896 Prob(Omnibus): 0.705 Jarque-Bera (JB): 0.785 Skew: -0.077 Prob(JB): 0.675 Kurtosis: 2.899 Cond. No. 805. ============================================================================== Notes: [1] Standard Errors assume that the covariance matrix of the errors is correctly specified. 0.25349999999999995 [코드]# 1) 데이터 불러오기 df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/10_3/heating.csv") # 모든 독립변수를 포함한 회귀모형을 적합하시오. 다중 선형 회귀 분석 from statsmodels.formula.api import ols model = ols("heating_load ~ wall + roof + glazing + height", data = df).fit() print(model.summary()) # 이때 절편을 제외한 회귀계수의 합을 구하시오. print(0.0304+ 0.2483+ 0.2217+ ( -0.2469) ) # 0.253
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 질문
작업형2를 할때 원-핫 인코딩이나 레이블인토딩을 진행해서 더 성능이 좋은 모델을 쓰고 있는데 강의에서 불균형일때 원-핫인코딩처럼 합쳣다가 푸는 방식으로 추천해주셨는데 레이블도 합쳤다가 푸는형식으로 해도 상관이 없는지? 와 안전하게 그냥 둘다 합쳐서 인코딩하는 방식으로 해도 상관없는지 궁금합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 템플릿 확인 요청
안녕하세요전체적으로 이런 식으로 작업형 2를 풀어왔는데,시험 전 마지막으로 올바른 코드인지 점검 부탁 드리고 싶습니다.EDA -> target값 분리 -> 스케일링 -> 인코딩 -> 데이터 분리 -> 머신러닝 -> 평가 -> 테스트 예측 순서로 풀어왔는데,AI한테 질문하니카테고리가 안맞아 train, test를 불가피하게 합쳐서 풀어야 할 땐, 인코딩을 먼저 하라는 말에 혼란스러워 질문 드립니다.import pandas as pd train = pd.read_csv("data/customer_train.csv") test = pd.read_csv("data/customer_test.csv") # 평가: RMSE (회귀) # target: 총구매액 (2482개의 행) # 결측값: 환불금액 # object 컬럼: 주구매상품, 주구매지점 (2개) / num 컬럼: 그외 (7+1개) pd.set_option('display.max_columns', None) print(train.shape, test.shape) # print(train.info()) # print(test.info()) # print(train.head()) # print(test.head()) # print(train.describe(include ='O')) # print(test.describe(include = 'O')) # 카테고리 확인 (주구매 불일치 -> 합쳐서 인코딩) o_cols = train.select_dtypes(include = 'O').columns # for col in o_cols: # if (set(train[col]) == set(test[col])): # print(col, '카테고리 일치') # else: # print(col, '카테고리 불일치') # 결측치 채우기 train['환불금액'] = train['환불금액'].fillna(0) test['환불금액'] = test['환불금액'].fillna(0) # print(train.isnull().sum().sum()) # print(test.isnull().sum().sum()) # id, target 분리 train_id = train.pop('회원ID') test_id = test.pop('회원ID') target = train.pop('총구매액') print(train.shape, test.shape) print(target.describe()) # 스케일링 n_cols = train.select_dtypes(exclude = 'O').columns # print(n_cols) # print(train.head()) from sklearn.preprocessing import MinMaxScaler scaler = MinMaxScaler() train[n_cols] = scaler.fit_transform(train[n_cols]) test[n_cols] = scaler.transform(test[n_cols]) # print(train.head()) # 인코딩 # 데이터 합치기 combined = pd.concat([train, test]) # 원핫 # combined = pd.get_dummies(combined) # train = combined[:len(train)] # test = combined[len(train):] # print(train.shape, test.shape) # 라벨인코더 from sklearn.preprocessing import LabelEncoder o_cols = train.select_dtypes(include = 'O').columns for col in o_cols: le = LabelEncoder() combined[col] = le.fit_transform(combined[col]) train = combined[:len(train)] test = combined[len(train):] print(train.shape, test.shape) # 데이터 분리 from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size = 0.2, random_state = 0) print(X_tr.shape, X_val.shape, y_tr.shape, y_val.shape) # 머신러닝 # 랜포 # from sklearn.ensemble import RandomForestRegressor # rf = RandomForestRegressor(random_state = 0) # rf.fit(X_tr, y_tr) # pred = rf.predict(X_val) # lightgbm import lightgbm as lgb model = lgb.LGBMRegressor(random_state = 0, verbose = -1) model.fit(X_tr, y_tr) pred = model.predict(X_val) # 평가 from sklearn.metrics import root_mean_squared_error rmse = root_mean_squared_error(y_val, pred) print(rmse) # 813.2017203251257 (원핫, 랜포) # 808.845167469651 (라벨, 랜포) # 779.7626410741833 (라벨, lgb) - 채택 # 779.7626410741833 (원핫, lgb) # 테스트 예측 (전체 train으로 학습) model.fit(train, target) pred = model.predict(test) submit = pd.DataFrame({'pred': pred}) submit.to_csv('result.csv', index = False) print(pd.read_csv('result.csv').head()) print(pd.read_csv('result.csv').shape)
-
해결됨베개투자법 완성: 아침이 설레는 AI 완전 자동매매 Claude 바이브코딩
실습 2인데 커서아이디 같은거 다운로드 안내같은건 따로없나요??
안녕하세요.실습 2인데 커서 아이디라던지 git 설치의 안내는 다른강의에 있는 것들을 선행해야하는건가요?? 과정이없이 바로 실행하라고만해서 따라가질 못하고있어요 ;;
-
미해결베개투자법 완성: 아침이 설레는 AI 완전 자동매매 Claude 바이브코딩
5. 실습 (1) 개발 환경 준비와 프로젝트 구조 03:11
강의 제목/ 베게 투자법완성: 아침이 설레는 AI완전 자동매매 CLAUDE 바이브코딩터미널 이라고 말씀하셨는데 터미널은 무엇이며 어디에 가서 봐야 하는지 갑자기 전문용어로 넘어가서 깜짝 놀랬습니다 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 인코딩 질문
안녕하세요 현재 작업형 2 문제 풀이 중 인코딩을 하는 경우 아래와 같이 코드를 작성하고 있습니다 import pandas as pd train= pd.read_csv('/content/churn_train.csv') test= pd.read_csv('/content/churn_test.csv') #(4116, 19) (1764, 18) target= train.pop('TotalCharges') #1. 인코딩 df= pd.concat([train, test]) df1= pd.get_dummies(df) train= df1.iloc[:len(train)].copy() test= df1.iloc[len(train):].copy() 인코딩 후 train, test로 나누는 과정에서 미리 train의 길이를 지정하고 그 변수를 넣는 것이 맞는 걸까요? 아니면 기존의 방식 (위) 처럼 해도 무관한지 궁금합니다 import pandas as pd train= pd.read_csv('/content/churn_train.csv') test= pd.read_csv('/content/churn_test.csv') #(4116, 19) (1764, 18) target= train.pop('TotalCharges') train_len= len(train) #1. 인코딩 df= pd.concat([train, test]) df1= pd.get_dummies(df) train= df1.iloc[:train_len].copy() test= df1.iloc[train_len:].copy()
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 3 벼락치기 공부방법 질문
안녕하세요. 원래는 작업형3을 아예 버리려고 했는데 남은 시간동안 작업형3을 조금이라도 공부하려고 하는데 어떻게 해야될지 모르겠어서 질문글 남깁니다.우선 빅이시 영상에서 소개하는 summary 확인하는 방법은 숙지해두었는데, 그외에 직접 검정을 하거나, 기초통계에 대한 지식은 거의 없는 상황입니다. 현재 상황에서 어떤걸 하는게 가장 좋은 전략일까요? 기출에 나온 작업형 3 관련 개념들이라도 숙지하고 시험장 들어가는게 현재로선 최선일까요? 감사합니다.