묻고 답해요
164만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[작업형3] 4~5 분산 분석
답안 풀이는 anova_lm을 불러올 때import statsmodels.api as sm from statsmodels.formula.api import ols # 1~9 이원 분산 분석 model = ols('수확량 ~ C(비료유형) * C(물주기)', data=df).fit() anova_table = sm.stats.anova_lm(model) print(anova_table)이런식으로 불러오는데 아래와 같이 import하면 결과가 다른데 문제가 있나요? 뭐가 맞을까요from statsmodels.stats.anova import anova_lm
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 1 연습문제 18 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요index '2001' 데이터(행)에서 평균보다 큰 값의 개수를 구하시오. -> 평균보다 큰 값의 개수를 구한다고 해서 len을 썼는데 코랩에 있는 정답은 sum을 써서 다른 답이 도출 되는 것으로 확인됩니다. len이 아닌 sum이 쓰인 이유가 뭔지 알 수 있을까요?import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p1/type1_data2.csv", index_col="year") df.head() df=df.T ma=df[2003].mean() cond1=df[2003]<ma len(cond1)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
머신러닝 학습 및 평가
랜덤포레스트, lightgbm 이거 둘 중에 급하면,, 랜덤포레스트만 사용해도 괜찮을까요?둘 중에 하나만 사용한다면 더 좋은게 있는건가요? 정석대로 한다면, 둘다 진행해서 값이 error일때는 작은걸로 사용하면 되는건가요?단순한 질문 같은데 아직 감이 잡힐듯말듯해서 질문드립니다..ㅠ감사합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 전처리 질문
복습강의에서train = train.drop('customerID', axis=1) # 값이 모두 유니크해도 숫자형이면 유지하지만, 문자형이라 ID는 삭제했습니다 test = test.drop(['customerID'], axis=1customerID를 지웠는데.. 매번 전처리할때 그냥 target = train.pop만 해서 실전에서 잘 못할 것 같아서요..ㅠcustomerID처럼 문자로 된게 고유값이 많으면? 해야하는 것 같은데? 이런 상황일때 무조건 하는게 좋은건가요?실수로 다른 productID 이런거랑 헷갈려서 그런거까지 실수할까봐ㅠ그냥 단순하게 target=train.pop~만 해도 될런지... 질문드립니다 감사합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 연습문제 1 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요ROC-AUC로 평가하는데 데이터 전처리를 아래와 같이하고 y=train.pop('Outcome') 아래와 같이 코드를 작성해도 평가에는 지장이 없을까요?혹시 꼭 검증데이터 분할을 진행해야 평가를 진행할 수 있는 건지 궁금합니다.df=pd.concat([train, test]) df=pd.get_dummies(df) train=df.iloc[:len(train)] test=df.iloc[len(train):] from sklearn.ensemble import RandomForestClassifier rf =RandomForestClassifier(random_state=0) rf.fit(train,y) pred=rf.predict(test) submit = pd.DataFrame({'pred':pred}) submit.to_csv('result.csv', index=False)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 작업형2(ver.2025) 모델은 하나만 해도 되나요?
제목 그대로예시문제 작업형2(ver.2025) 모델은 하나만 해도 되는지 궁금합니다.인코딩을 레이블과 원핫으로 해서 rmse가 더 작은 걸로 구하셨는데, 이과정에서 모델은 랜덤포레스트 하나만 하시더라구요.xgb나 다른 모델로 비교 안해도 되는지 궁금합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
체험환경에 데이터 연동하기
체험환경에 코랩 노트북에서 제공한 데이터셋들을 올릴 수 있는 방법이 없을까요?예를 들어 6회 기출문제 작업형1 데이터는 아래 링크입니다. df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/6_1/data6-1-1.csv")
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
파일 불러오기 코드 외워야 하나요?
import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p1/members.csv")작업형1 연습문제마다 매번 파일 불러오는 게 친절하게 쉬프트 엔터만 누르면 되도록, 코드가 다 쓰여져 있더라구요. 실제 시험가도 파일 불러오는 거 코드는 따로 안외워가도 되나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 8회 작업형2 질문
위와 같이 코드 작성하면 해당 오류가 뜨는데, 이게 어떤 문제 때문인 건지 궁금합니다. 코드는 맞게 적지 않았나 해서요............
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험환경체험링크
자료에서시험환경 체험링크 : https://bit.ly/3H64wpG 여기 들어가면 페이지를 찾을 수 없습니다.페이지의 주소가 잘못되었거나 변경되어요청한 페이지를 찾을 수 없습니다.입력하신 주소를 다시 한 번 확인해주시고문제가 반복되는 경우 아래 메일로 문의 부탁드립니다. 라고 에러가 뜹니다ㅠ어떻게 해결할 수 있죠? 11회 빅데이터분서기사 실기시험 가이드pdf파일에 나와있는https://dataq.goorm.io 여기에 미리 들어갈 수있는건가요? 로그인 하려니까 안되던데ㅠ 한국데이터산업진흥원 ID 비번이랑 동일한가요??감사합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
하이퍼파라미터튜닝
하이퍼파라미터튜닝 잘 못하겠으면 안해도 되나요?? light gbm할때는 하는 것 같은데, 랜덤포레스트 사용경우에는 안하는건가 해서요 감사합니다
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
6회 작업형 1 마지막 문제
6회 작업형 1 마지막 문제 총범죄율이 가장 많은 연도가 2024년이 아닌가요..?ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 3번 답 제출할 때 pred[0]꼭 해야 하나요?
print(round(pred[0], 3)) 작업형 3번 답 제출할 때 pred[0]꼭 해야하나요?pred[0] 안하고, pred로 넣으면 인덱스까지 출력되어서 문의드립니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
결측치 질문
10회 작업형2타겟 변수(총가스사용량)는 일부 값이 0으로 기재되어 있으며, 이는 결측치를 대체한 값임. 관련하여두번째 방법인target=target[~cond] 로 했을때오류가 줄어들어 더 좋은 값이면이걸로 하는게 더 좋은건가요? 보통 결측치가 있을때는그럼 결측치를 다른 값으로 대체하거나, 그렇게 하라고 문제에서 주어지나요?그럼 fillna()로 사용해서 넣는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
변수명?? 설정관련 질문
10회 기출 작업형11. 문제 1에서df=df.groupby('sub_topic')['is_correct'].mean()df.sort_values('is_correct', ascending=False).drop_duplicates()이렇게 했는데 오류가 나타나던데,, 이렇게 하면 안되는건가요?해설에는result = acc.sort_values(ascending=False).drop_duplicates()sort_values('컬럼명', ~~)이라고 보아서,, 해설처럼 ('컬럼명')을 안해도되나요?2. 문제2-2에서cond=df['year-month']=='2024-10'targetdata=df[cond]df.groupby('category')['price'].sum()이렇게 해도 괜찮을까요?targetdata.groupby~df.groupby차이점을 정확하게 잘 르겠습니다ㅠ df를 일단 계속 쓰다보니까 헷갈려서요ㅠ변수명 설정? 하는게 좀 헷갈리는 것 같습니다ㅠgroupby나 cond하고 나서 새로운 변수?로 설정하는것인가요?뭔가 df=df~~랑 헷갈리는 것 같습니다ㅠ좋은강의 감사드립니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 8회 작업형 2 질문
데이터 전처리 과정에서train= train.drop('customerID', axis=1)test = test.drop('customerID', axis=1)target=train.pop('TotalCharges') train = pd.get_dummies(train)test = pd.get_dummies(test) 이렇게 customerID를 drop하는 처리 진행 후 인코딩을 해서 학습 평가 까지는 잘 진행이 되는데, 예측단계(pred=rf.predict(test))에서 아래와같은value에러가 뜹니다.ValueError: The feature names should match those that were passed during fit. Feature names unseen at fit time: - customerID_CUST0001 이런 경우는 무조건 train과 test를 하나로 묶어서 원핫인코딩을 진행해야하나요? train, test 각각 개별로 진행하면 안되는 떄의 기준이 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
rmse
rmse 할때 이전 강의에서는 mse 에 **1/2 인가? 해서 루트 씌어주라고 했는데from sklearn.metrics import root_mean_squared_error이렇게 rmse 로 써도되는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 1 질문
1. df.groupby(['지역코드','성별'])['총대출액'].sum()그룹화할떄 지역코드, 성별 둘다 할때 보통 groupby('컬럼명') 인데 이때는 ( ) 안에 [ ] 이걸 해야하는건가요?두개이상으로 그룹화할때 (['지역코드'], ['성별'] ) 이 아니라 (['지역코드', '성별'])인 이유가 있을까요2. 1) "발생건수"와 "검거건수"를 따로 분리cond1 = df['구분'] == "발생건수"cond2 = df['구분'] == "검거건수"df1 = df[cond1].iloc[:, 2:]df2 = df[cond2].iloc[:, 2:]검거율을 바로 계산하지 않고, 따로 분리하는 이유가? 이해가 잘 안갑니다3. df.groupby(['부서', '성과등급'])['근속연수'].mean() 이것과df.groupby(['부서', '성과등급'])['근속연수'].transform("mean")이것은 다른가요?transform("mean")으로 써야하는건가요?df.groupby('기준컬럼')['값컬럼'].mean()이랑df.groupby('기준컬럼')['값컬럼'].transform('mean')이랑 차이점을 잘 모르겠습니다그럼 그룹별로 합계? 이런거 할떄도 df.groupby('기준컬럼')['값컬럼'].transform('sum') 이렇게 해야하나요? 뒤에 transform('')괄호 부분에 max,min 등등을 넣는건가요? 4. 각 직원의 '연봉 / 근속연수' 값을 계산하여, 그 값이 세 번째로 큰 직원의 근속연수 구할때sort_values로 데이터 본 다음에 눈으로 본 값으로 알아서 1을 (loc 이런걸로 구하지 않고)a=1 이렇게 코딩해도 괜찮나요? 감사합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
모델 질문
2회차 모의고사의 인강에서는 labelencoding을 사용후에 여러개의 모델을 사용하였는데, 꿀팁? 인강에서는 LGBM을 사용하면 obj 타입을 category로 변경만 해주면 된다고 하셨습니다.어떤 방식이 더 낫고 맞는걸까요?현재 상황은 라벨인코딩 사용 가능하며, 시험 때 랜덤포레스트와 LGBM을 사용하려 계획중입니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
정답 적을 때 질문
1. 유의하지 않은 독립변수 개수 구할때 summary보고 바로 8이라고 적어도되나요?print(sum(model.pvalues[1:] >0.05)) 이 코딩도 해야하는지 궁금합니다2. 2-1, 2-2(결정계수) 구하는것도 그냥 summary 보고 바로 적어도되나요?3. 반올림이나 정수 구하는것도 그냥 기본 수치 보고 코딩 안하고 바로 적어도되는지 궁금합니다. 점수엔 영향을 미치지 않나요?감사합니다