묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 작업형3(2025)
안녕하세요! 빠른 반영 감사합니다 ㅠㅠ!대체로 질문해석이 좀 어려운데요..이번꺼 보면서 궁금한게 들어서 질문 드립니다!*시험용 공부만 해서, 이론개념이 거의없는 점 참고바랍니다..! 1) ① - 분산을 구해서 조건에 맞는(단, ~) 계산을 한게 검정통계량인걸까요..?아니면 결국 핵심이 '분산에 차이가 있는지를 알아보기 위해' 이기 때문에 분산을 통해 계산을 하면 되는것인지 궁금합니다. 2)③ - '정규성,등분산 검정 후' 라는 언급이 없으면 무조건 등분산 true로 두고 진행하면 될까요?*cond1 샤피로검정해보니 0.03으로 귀무가설 기각이여서 문의드립니다..!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
인코딩 train + test
안녕하세요 강사님. 머신러닝 학습 및 평가(회귀) 강의 관련 질문 드립니다.인코딩을 위해 train + test 데이터를 합친 후, 다시 분리시키는 방법을 알려주셨는데요,train / test 데이터 개수가 불균형일 때만 이렇게 진행하면 될까요? 합치고 분리하지 않고, 그냥 바로 인코딩 진행해도 문제가 없을지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
고유값이 가장 많은 컬
print(a.nunique().sort_values(ascending=False).idxmax()) 코드를 이렇게 작성해도 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
체험환경 제3유형
체험환경 제3유형 새로나온 강의 잘들었습니다. 감사합니다. 하나 여쭤보고싶은데질문2번에서합동분산추정량 공식이분모에 자유도합친 후 -2는 안해주나요? # ((자유도1 분산1) + (자유도2 분산2)) / (자유도1+자유도2 ) - 2 n1 = sum(cond1) n2 = sum(cond2) result = (((n1-1) var1) + ((n2-1) var2)) / ((n1-1) + (n2-1)) print(round(result,3))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 전처리2 강의 질문
안녕하세요 강사님 :) 스케일링 방법 강의에서 아래 코드는 외울 필요가 없다고 말씀 주셨는데요,# 데이터를 매번 새롭게 불러오기 위해 함수로 제작 함 def get_data(): train_copy = train.copy() test_copy = test.copy() return train_copy, test_copy 시험 볼 때 스케일링을 한 가지 하는 게 아니라 세 개 다 한다고 가정했을 때,copy 하지 않으면 처리 결과에 영향을 미치지 않나요? 어떻게 하면 될지 문의드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
체험환경 제2유형
체험환경 제2유형랜포로 한번에 풀기 진행하고있는데요. import pandas as pdtrain = pd.read_csv("data/customer_train.csv")test = pd.read_csv("data/customer_test.csv")# 사용자 코딩# print(train.info())# print(test.info()) # 2482target = train.pop('총구매액')train = pd.get_dummies(train)test = pd.get_dummies(test)train, test = train.align(test, join='left', axis=1)from sklearn.model_selection import train_test_splitx_tr, x_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=0)from sklearn.ensemble import RandomForestRegressorrf = RandomForestRegressor(random_state=0)rf.fit(x_tr, y_tr)pred = rf.predict(test) rf.fit에서 계속 에러가 납니다. 시험볼때도 아래와 같이 계속 에러가 날 것 같은데 방법없을까요? ㅜ_ㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫인코딩
안녕하세요.2유형에서 어떤 문제든 원핫인코딩(get_dummies)으로만 진행해도 될까요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
실기체험환경 변경된 문제풀이
안녕하세요. 실기체험환경에서 문제들이 변경된것 같은데2유형도 결측치가 있어서 처리해야 할 것 같은데 하는 방법을 몰라서요 변경된 문제들 문제풀이 해주실 수 있을까요??
-
해결됨[2025년 최신 기출 반영] 빅데이터 분석 기사 실기 시험 100% 합격 ! 기출 문제의 패턴이 보인다 !
최근 변경된 시험 체험 환경 예시문제 관련 문의드립니다.
먼저 양질의 강의를 제공해주셔서 감사합니다.코딩 대한민국님의 유튜브 채널에서 데이터 전처리 관련 판다스 100제로 도움을 받고인프런 강의를 수강하게 된 '제10회 빅분기 실기 시험 수험생'입니다. 최근 데이터자격검정 사이트 공지에 제10회 빅데이터분석기사 실기 시험 공지가 올라와서 확인 후시험 환경 체험을 이용하던 중 예시문제가 변경되었다는 것을 알게 되었습니다.관련해서 수험생분들의 후기를 보니 아래와 같은 내용이 있었습니다.- 1유형 예시문제: 지시문이 조금 더 구체적으로 변경- 3유형 예시문제: 난이도 상승 혹시 변경된 시험 체험 환경 예시문제를 학습하면서 어려운 부분에 대해 질문을 드려도 될지 조심스럽게 문의드립니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
전처리 방식과 모델 성능 차이
7회 2유형을 전처리 방식을 원핫인코딩과 레이블인코딩으로 나눠서 해보았는데,rmse가 원핫인코딩의 경우 38만정도가 나왔는데, 레이블인코딩의 경우 2100정도가 나옵니다. 전처리 방식에 따라서 이렇게 큰 차이가 날 수가 있는건가요..? 아니면 모델 학습단계에서 제가 오류를 범한걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 질문 드립니다.
logit('Survived ~ C(Gender) + SibSp + Parch + Fare')C(Gender)와 Gender를 미리 원/핫 인코딩을 한거랑 동일한 것인지 궁금합니다.원/핫 인코딩 후 logit('Survived ~ Gender + SibSp + Parch + Fare')
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
print(len(df[cond1 & cond2 & cond3])) 출력시 해당 에러 발생 > 'float' object is not callable
안녕하세요.61강 4회 기출유형 (작업형 1) 문제를 풀었을 경우 아래와 같은 에러가 출력되네요'float' object is not callable 참고로 코드는 이렇게 작성하였습니다. import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/4_1/basic1.csv") df.head()
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제1 질문
위 화면은 선생님이 풀이해주신거고아래는 제가 작성한 코드입니다. # your code import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p1/members.csv") # print(df.isnull().sum()) # print(df.shape) df=df.dropna(subset=['views']) # print(df.shape) df['f3']=df['f3'].map({'silver':1,'gold':2,'vip':3}) df['f3']=df['f3'].fillna(0) int(sum(df['f3'])) 결측치 처리를 할때선생님은 numpy 라이브러리를 통해replace(np.nan,0) 을 사용했습니다. 저는 아래와 같이 실버,골드,vip를 맵핑해준 후, 결측치를 0으로 처리했습니다.df['f3']=df['f3'].map({'silver':1,'gold':2,'vip':3}) df['f3']=df['f3'].fillna(0) 질문1) 위와 같이 결측치 따로, 맵핑 따로 작성 해도 되나요? 총계합은 동일하게 나오면 상관없나요? 질문2) 위 코드에서 제가 처음에는 결측치를 먼저 처리하고 맵핑을 했더니, 맵핑한 이후에는 0으로 처리했던 결측치가 다시 NaN 이 되어서 작성 순서를 맵핑 후 결측치 처리로 변경했는데.. 왜 그런건가요? 순서에 따라 결과가 달랐습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
잔차 계산할떄
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요관측값 - 예측값이 잔차인데df['키] - model.predict(df['몸무게']) 인 이유가 어떤건가요?? 종속변수가 실제값이고 독립변수가 예측값이라고 생각하고 하면 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[기출문제 4회] 질문드립니다.
제출 형식:ID,Segmentation 458989,1 458994,2 459000,3 459003,4이렇게 되어 있습니다.한가지 방법으로 풀기 진행시 pred = rf.predict(test)submit = pd.DataFrame({'ID' : ???, 'pred' : pred})???를 어떻게 처리해야 하나요?저는 # ID, 예측값: Segmentation test_id = train.pop('ID') target = train.pop('Segmentation') ~~ pred = rf.predict(test) submit = pd.DataFrame({'ID' : test_id,'pred' : pred})마지막 줄 코드에서 에러가 발생합니다. 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
판다스 - 파이썬 질문
판다스 수강중입니다.문득 궁금한게, 판다스 데이터 프레임 함수 활용시df.sum() 등이 있는데요그냥 sum(df['f1']=='gold') 도 있던데, 파이썬 함수형태로도 작성해도 시험에서 문제없나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 예시문제에
import pandas as pdtrain = pd.read_csv("data/customer_train.csv")test = pd.read_csv("data/customer_test.csv")print(train.shape) 출력값이 (3500,10)으로성별컬럼이 안나오는데 왜그런건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 다중분류 문제 roc_auc 적용가능 문의
작업형2 다중분류 문제에서예측할 컬럼: 농약검출여부 (0:미검출, 1:검출, 2:재검사 필요) 일때, roc_auc_score는 적용할 수 없는지 문의드립니다. 예를 들면 이진분류에서는 pred[ : , 1]로 설정을 하게 되는데,다중분류 문제에서 농약검출여부 중 어떤 결과값을 물어보지 않게 되면pred [ : , 0 또는 1또는 2]를 적용할 수 없어 roc_auc는 사용할 수가 없는 것인지 궁금합니다~!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
9회기출 작업형2에서 light GBM 적용
작업형 2에서 ligtGBM 적용시 인코딩 필요없다고 하셨는데 기출 풀이에서는 원핫 인코딩이 된 이후에 적용하신 거로 보입니다. 원핫 인코딩 후 ligt GBM을 사용해도 되는 건가요? 만약 기출풀이처럼 원핫 인코딩을 하지 않았을때는 카테고리화 작업을 한 후에 ligtht GBM을 적용하면 되는건가요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
train, test가 3개 이상 주어질때 concat 필수여부
기출 한번씩 보고, 캐글에 올려주신 문제를 풀다가X_train, X_test, y_train, y_test이렇게 주어졌는데 concat을 까먹고X_train,X_test만 활용했습니다.*target값은 y_train.pop으로 분리함. 성능이 0.87수준으로 나쁘지않아서 그냥 지나쳤는데 뭔가 찝찝해서 생각해보니 concat으로 합치셨더라구요. 그래서 궁금한게,데이터파일이 3개이상 주어졌을때 train,test 한개씩 합치고 이후 전처리 단계 수행하는게 적합할지 질문드립니다! train = pd.concat([X_train,y_train['SalePrice']],axis=1)test = pd.concat([X_test,y_test['SalePrice']],axis=1)