묻고 답해요
158만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출9회 작업형 3유형 2-2 질문드립니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 2-2번을 동일한 코드를 넣어도 저는 답이 0.692가 나오는데 데이터가 제가 틀리게 작성한부분이 있을까요?2-1번까지는 답이 동일하게 나왔습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
csv 저장 오류
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요마지막에 csv 파일 저장할때 오류 문의pd.DataFrame({'index':test.index, 'y_pred':pred}).to_csv('000000000.csv', index=False)--> 664raise ValueError("Per-column arrays must each be 1-dimensional")
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 답안제출
작업형 2를 만들떄 변수.to_csv("수험번호.csv", index=False)이렇게 만들고 pd.read_csv("수험번호.csv")이렇게 해서 확인할떄이부분도 같이 제출 해도되나요? 아니면 print문이나 이런불필요한 코드는 다 주석처리하거나 지워야하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫 인코딩 후 검증데이터 분리
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요수치형이랑 범주형 따로 안나누고 한번에 원핫인코딩을 train_oh, test_oh로 한 다음에는display(train.head()) train_oh=pd.get_dummies(train) test_oh=pd.get_dummies(test) train_oh.head()검증데이터 분리할때 train_oh,y_train 으로 하는게 맞나요?from sklearn.model_selection import train_test_split X_tr,X_val,y_tr,y_val=train_test_split(train_oh,y_train,test_size=0.2,random_state=0)참고로 인코딩전 에, y_train 분리했습니다.y_train = train.pop("TravelInsurance")
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 성능개선
안녕하세요! 궁금한게 있어 질문 남깁니다.작업형2유형에서 랜덤포레스트 모델을 사용할 예정인데 혹시 max_depth,n_estimators 로 성능 개선해서 더 좋은 평가지표가 나온 것으로 제출하면 괜히 감점을 당할까요??괜히 성능개선을 해서 감점을 당했다는 후기를 봐서 여쭤봅니다..! +) 그리고 lightGBM 모델 사용 시 범주형 데이터 인코딩이 필요없다고 하셨는데,혹시 라벨or원핫인코딩 후에 lightGBM 모델을 사용해도 상관없을까요??(보통 데이터 전처리 후에 랜덤포레스트 한번 돌려보고,lightGBM 모델 돌려보는 식으로 작업했어서 여쭤봅니다!)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 작업형1 - 38번 문제 (4-2) 문의
4-1에서는 12353774 로 나왔는데4-2에서는 갑자기 8870004가 분자로 입력된 걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 모의문제3
선생님의 답과 제 예측결과가 조금씩 다른데, 괜찮은건가요..??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
강의 수강 순서
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요강사님 현재 순차적으로 강의 듣고 있는데 각 작업형 섹션 끝나고 바로 모의 문제들이 있고, 기출문제는 밑에 있는데 이 순서로 듣는게 맞나요? 기출문제를 먼저 듣는게 맞다고 생각되는데 그냥 순서대로 쭉 들으면 되는건지, 아니면 기출부터 듣는 게 맞는건지 궁금합니다.수강순서에 관한 가이드를 찾아봐도 없길래 여쭤봅니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 제2유형
제2유형에서 시작전에train.info()test.info()하잖아요. 이후에 타입유형(int / float /object) 을 확인 한 후에 어떤 부분을 바꿔줘야하는건가요? 어차피 원핫인코딩 pd.get_dummies와 train, test = train.align(test, join ='left', axis=1, fill_value=0) 해주면 어느정도 형식이 정리되는거 아닌가요? 별도로 처리해줘야 할 게있는지 문의드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
5회 기출유형 작업형1 2번문제
import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/5_1/5-2bmi.csv") # your code print(df) df['bmi']= df['Weight']/(df['Height']*0.01*df['Height']*0.01) lbmi = df['bmi']<18.5 jbmi = (18.5<= df['bmi'])&(df['bmi']<23) hbmi = (23 <=df['bmi'])&(df['bmi']<25) print(len(df[jbmi]),len(df[hbmi])) print(abs(len(df[jbmi]) - len(df[hbmi]))) 결과값이 1다르게 나옵니다무엇이 잘못된건지 잘 모르겠습니다ㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험때 필기 가능 여부?
실기 시험때 종이에 필기가 가능한가요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
로지스틱회귀 질문
import pandas as pd from statsmodels.formula.api import logit from sklearn.metrics import accuracy_score # 1. 로지스틱 회귀 모델 적합 (test로 직접 학습 — 실전에서는 train 사용 권장) model = logit('target ~ age + sex + cp + trestbps + chol + fbs + restecg + thalach + exang + oldpeak + slope + ca + thal', data=test).fit() # 2. 예측 수행 (test 그대로 사용) pred_probs = model.predict(test) pred = (pred_probs > 0.5).astype(int) # 3. 정확도 → 오류율 계산 error_rate = 1 - accuracy_score(test['target'], pred) print(f'오류율: {error_rate:.4f}') Optimization terminated successfully. Current function value: 0.310865 Iterations 8 오류율: 0.1034 # model = logit('target~age+sex+cp+trestbps+chol+fbs+restecg+thalach+exang+oldpeak+slope+ca+thal',test).fit() import statsmodels.api as sm X2 = test.drop(columns = ['target']) X2 = sm.add_constant(X2) pred = model.predict(X2) pred = (pred>0.5).astype(int) pred from sklearn.metrics import accuracy_score 1-accuracy_score(test['target'],pred) 0.1954022988505747 문제는 test데이터의 독립변수로 target 예측 후 오류율을 구하여라 입니다. 근데 로짓이랑 sm이랑 차이가 좀 심하게 나는데 원래 로지스틱 회귀분석할때 sm으로 해야하나요..?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
test data 이상치 관련
test data는 이상치와 결측치가 있어도 행을 삭제하면 안 된다고 하셨는데 그럼 만약에 이상치 혹은 결측치가 하나 정도 있어도 그냥 무시하고 진행해도 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2유형 test_size
test_size값을 항상 0.2로 해왔었는데 어떤 기준에 따라 조정하는 건지 궁금합니다!그냥 시험에서도 0.2로 해도 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
실기 제2유형 기출 문의
제2유형에서, 데이터 과적합에 영향을 줄 수 있는 열은 drop 진행해야 되나요? 일반적으로 실제 시험에는 drop을 대부분 안하고 시험문제 푸는 것 같은데 시험이 며칠 안남아서 랜포+원핫인코딩만 달달외우고 시험보는데 drop별도로 공부해야하나 문의드립니다 ㅜ_ㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 문제 푸는 방법
아래와 같이 train과 test를 합해서 스케일링과 인코딩을 모두 진행할 경우, 각각 진행하는 것과 차이가 있나요?그리고 스케일링과 인코딩에 추천하는 함수가 있으신가요?df= pd.concat([x_train, x_test], axis=0) num = df.select_dtypes(exclude='object').columnsfrom sklearn.preprocessing import RobustScalerscaler = RobustScaler()df[num] = scaler.fit_transform(df[num]) objs = df.select_dtypes(include='object').columnsfrom sklearn.preprocessing import LabelEncoderfor obj in objs :encoder = LabelEncoder()df[obj] = encoder.fit_transform(df[obj]) x_train2 = df[:len(x_train)]x_test2 = df[len(x_train):]
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
loc[2000]
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요아래처럼 코드 짜도 되는지?m = df.loc[2000] > df.loc[2000].mean() print(sum(m))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 문제 질문
안녕하세요이번 t1-38.pivot-py 문제에서 C303지점 50대 2번 성별이 NaN 값으로 나오는데이거 0으로 처리해서 차이가 가장 큰 값은 50대가 될 여지가 있어보이는데실제 시험이라면 어떻게 해야될까요??
-
미해결[2025년 최신 기출 반영] 빅데이터 분석 기사 실기 시험 100% 합격 ! 기출 문제의 패턴이 보인다 !
작업형 유형 2에서,,, train, test, split 시 성능
안녕하세요선생님 덕분에 열심히 공부하고 있습니다. 질문 있습니다. 작업형 유형 2 분류든 회귀든 랜덤포레스트 할때,train_test_split 할때와 하지 않을때f1_score나 accuracy_score 등 성능점수에 차이가 보입니다. (데이터 분할 시 성능이 더 낮게나옴) 제가 직접 해봤을 때 1. train_test_split 한 이후x_val_pred = model.predict(x_val)accuracy_score(x_val_pred, y_val) 성능 점수 2.별도 train_test_split 안하고 y_hat = model.predict(x_train)accuracy_score(y_hat, y_train)시 성능점수 데이터를 분리한 1의 성능점수가 더 낮게 나오는데왜 그럴까요,,,, ㅜㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
실기환경에서 오류 문의
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 실기체험하는대서 아래처럼 쓰고 실행했더니import pandas as pd df = pd.DataFrame({ '키': [150, 160, 170, 175, 165, 155, 172, 168, 174, 158, 162, 173, 156, 159, 167, 163, 171, 169, 176, 161], '몸무게': [74, 50, 70, 64, 56, 48, 68, 60, 65, 52, 54, 67, 49, 51, 58, 55, 69, 61, 66, 53]}) from statsmodels.formula.api import ols model = ols('키 ~ 몸무게', data=df).fit() print(model.summary())아래처럼 나오는데, 왜 그런건가요?Notes:[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.