묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 제출
작업형2 제출 방식에 대해 질문 있습니다! print(submit.to_csv(‘result.csv', index=False)를 작성한 후에 확인하기 위해print(pd.read_csv('result.csv'))print(pred.shape)등을 실행하며 진행하고 있는데 이런 코드는 주석처리나 삭제할 필요 없이 그대로 제출해도 괜찮은지, 그리고 그 전에 EDA등을 하며 print문으로 작성한 것들도 주석처리 없이 그대로 제출해도 괜찮은지 문의드립니다!😊
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
Section 4. 값 변경, 정렬, 합계 문제 질문
위는 제가 푼 풀이, 아래는 선생님의 답변입니다. 해당 문제에서 왜 최소값을 구하고 대입하는지 모르겠습니다.문제에서 말하는 상위는 큰 숫자부터 작은 숫자로 정렬했을 때, 10번째로 큰 숫자를 말하는 상위인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
범주형 변수에서 C(변수) 형태 입력 문의
분산분석 강의노트(가정에서 재배하고 있는 네 가지 토마토 종자(A, B, C, D)에 대해 세 가지 종류의 비료 (11, 12, 13)를 사용하여 재배된 토마토 수를 조사하였다. 종자 및 비료 종류 간의 토마토 수의 차이가 있는지 유의수준 0.05하에서 검정하시오. (단, 정규성, 등분산성에 만족한 데이터)) 문제에서 종자, 비료가 범주형 데이터여서 C를 씌워준 걸로 아는데, 회귀 분석 시에도 0, 1로만 나타나거나 A, B, C로만 나타나는 변수에 대해서 logit 또는 ols 안에서도 변수에 C를 작성해야 하는지 궁금합니다..!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[작업형3] 4~5 분산 분석
답안 풀이는 anova_lm을 불러올 때import statsmodels.api as sm from statsmodels.formula.api import ols # 1~9 이원 분산 분석 model = ols('수확량 ~ C(비료유형) * C(물주기)', data=df).fit() anova_table = sm.stats.anova_lm(model) print(anova_table)이런식으로 불러오는데 아래와 같이 import하면 결과가 다른데 문제가 있나요? 뭐가 맞을까요from statsmodels.stats.anova import anova_lm
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 1 연습문제 18 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요index '2001' 데이터(행)에서 평균보다 큰 값의 개수를 구하시오. -> 평균보다 큰 값의 개수를 구한다고 해서 len을 썼는데 코랩에 있는 정답은 sum을 써서 다른 답이 도출 되는 것으로 확인됩니다. len이 아닌 sum이 쓰인 이유가 뭔지 알 수 있을까요?import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p1/type1_data2.csv", index_col="year") df.head() df=df.T ma=df[2003].mean() cond1=df[2003]<ma len(cond1)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
머신러닝 학습 및 평가
랜덤포레스트, lightgbm 이거 둘 중에 급하면,, 랜덤포레스트만 사용해도 괜찮을까요?둘 중에 하나만 사용한다면 더 좋은게 있는건가요? 정석대로 한다면, 둘다 진행해서 값이 error일때는 작은걸로 사용하면 되는건가요?단순한 질문 같은데 아직 감이 잡힐듯말듯해서 질문드립니다..ㅠ감사합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 전처리 질문
복습강의에서train = train.drop('customerID', axis=1) # 값이 모두 유니크해도 숫자형이면 유지하지만, 문자형이라 ID는 삭제했습니다 test = test.drop(['customerID'], axis=1customerID를 지웠는데.. 매번 전처리할때 그냥 target = train.pop만 해서 실전에서 잘 못할 것 같아서요..ㅠcustomerID처럼 문자로 된게 고유값이 많으면? 해야하는 것 같은데? 이런 상황일때 무조건 하는게 좋은건가요?실수로 다른 productID 이런거랑 헷갈려서 그런거까지 실수할까봐ㅠ그냥 단순하게 target=train.pop~만 해도 될런지... 질문드립니다 감사합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 연습문제 1 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요ROC-AUC로 평가하는데 데이터 전처리를 아래와 같이하고 y=train.pop('Outcome') 아래와 같이 코드를 작성해도 평가에는 지장이 없을까요?혹시 꼭 검증데이터 분할을 진행해야 평가를 진행할 수 있는 건지 궁금합니다.df=pd.concat([train, test]) df=pd.get_dummies(df) train=df.iloc[:len(train)] test=df.iloc[len(train):] from sklearn.ensemble import RandomForestClassifier rf =RandomForestClassifier(random_state=0) rf.fit(train,y) pred=rf.predict(test) submit = pd.DataFrame({'pred':pred}) submit.to_csv('result.csv', index=False)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 작업형2(ver.2025) 모델은 하나만 해도 되나요?
제목 그대로예시문제 작업형2(ver.2025) 모델은 하나만 해도 되는지 궁금합니다.인코딩을 레이블과 원핫으로 해서 rmse가 더 작은 걸로 구하셨는데, 이과정에서 모델은 랜덤포레스트 하나만 하시더라구요.xgb나 다른 모델로 비교 안해도 되는지 궁금합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
체험환경에 데이터 연동하기
체험환경에 코랩 노트북에서 제공한 데이터셋들을 올릴 수 있는 방법이 없을까요?예를 들어 6회 기출문제 작업형1 데이터는 아래 링크입니다. df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/6_1/data6-1-1.csv")
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
파일 불러오기 코드 외워야 하나요?
import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p1/members.csv")작업형1 연습문제마다 매번 파일 불러오는 게 친절하게 쉬프트 엔터만 누르면 되도록, 코드가 다 쓰여져 있더라구요. 실제 시험가도 파일 불러오는 거 코드는 따로 안외워가도 되나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 8회 작업형2 질문
위와 같이 코드 작성하면 해당 오류가 뜨는데, 이게 어떤 문제 때문인 건지 궁금합니다. 코드는 맞게 적지 않았나 해서요............
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험환경체험링크
자료에서시험환경 체험링크 : https://bit.ly/3H64wpG 여기 들어가면 페이지를 찾을 수 없습니다.페이지의 주소가 잘못되었거나 변경되어요청한 페이지를 찾을 수 없습니다.입력하신 주소를 다시 한 번 확인해주시고문제가 반복되는 경우 아래 메일로 문의 부탁드립니다. 라고 에러가 뜹니다ㅠ어떻게 해결할 수 있죠? 11회 빅데이터분서기사 실기시험 가이드pdf파일에 나와있는https://dataq.goorm.io 여기에 미리 들어갈 수있는건가요? 로그인 하려니까 안되던데ㅠ 한국데이터산업진흥원 ID 비번이랑 동일한가요??감사합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
하이퍼파라미터튜닝
하이퍼파라미터튜닝 잘 못하겠으면 안해도 되나요?? light gbm할때는 하는 것 같은데, 랜덤포레스트 사용경우에는 안하는건가 해서요 감사합니다
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
6회 작업형 1 마지막 문제
6회 작업형 1 마지막 문제 총범죄율이 가장 많은 연도가 2024년이 아닌가요..?ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 3번 답 제출할 때 pred[0]꼭 해야 하나요?
print(round(pred[0], 3)) 작업형 3번 답 제출할 때 pred[0]꼭 해야하나요?pred[0] 안하고, pred로 넣으면 인덱스까지 출력되어서 문의드립니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
결측치 질문
10회 작업형2타겟 변수(총가스사용량)는 일부 값이 0으로 기재되어 있으며, 이는 결측치를 대체한 값임. 관련하여두번째 방법인target=target[~cond] 로 했을때오류가 줄어들어 더 좋은 값이면이걸로 하는게 더 좋은건가요? 보통 결측치가 있을때는그럼 결측치를 다른 값으로 대체하거나, 그렇게 하라고 문제에서 주어지나요?그럼 fillna()로 사용해서 넣는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
변수명?? 설정관련 질문
10회 기출 작업형11. 문제 1에서df=df.groupby('sub_topic')['is_correct'].mean()df.sort_values('is_correct', ascending=False).drop_duplicates()이렇게 했는데 오류가 나타나던데,, 이렇게 하면 안되는건가요?해설에는result = acc.sort_values(ascending=False).drop_duplicates()sort_values('컬럼명', ~~)이라고 보아서,, 해설처럼 ('컬럼명')을 안해도되나요?2. 문제2-2에서cond=df['year-month']=='2024-10'targetdata=df[cond]df.groupby('category')['price'].sum()이렇게 해도 괜찮을까요?targetdata.groupby~df.groupby차이점을 정확하게 잘 르겠습니다ㅠ df를 일단 계속 쓰다보니까 헷갈려서요ㅠ변수명 설정? 하는게 좀 헷갈리는 것 같습니다ㅠgroupby나 cond하고 나서 새로운 변수?로 설정하는것인가요?뭔가 df=df~~랑 헷갈리는 것 같습니다ㅠ좋은강의 감사드립니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 8회 작업형 2 질문
데이터 전처리 과정에서train= train.drop('customerID', axis=1)test = test.drop('customerID', axis=1)target=train.pop('TotalCharges') train = pd.get_dummies(train)test = pd.get_dummies(test) 이렇게 customerID를 drop하는 처리 진행 후 인코딩을 해서 학습 평가 까지는 잘 진행이 되는데, 예측단계(pred=rf.predict(test))에서 아래와같은value에러가 뜹니다.ValueError: The feature names should match those that were passed during fit. Feature names unseen at fit time: - customerID_CUST0001 이런 경우는 무조건 train과 test를 하나로 묶어서 원핫인코딩을 진행해야하나요? train, test 각각 개별로 진행하면 안되는 떄의 기준이 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
rmse
rmse 할때 이전 강의에서는 mse 에 **1/2 인가? 해서 루트 씌어주라고 했는데from sklearn.metrics import root_mean_squared_error이렇게 rmse 로 써도되는건가요?