묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 전처리 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 실제시험에서 제가 선생님처럼 데이터전처리하면서 커스터머아이디를 드랍할 여유가 없을것같은데 그냥 타겟에다가 팝만 하면 안될까요? 그러면 아예 오답이 돼버릴까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
코드 제출 질문
1.코드를 이렇게 작성했는데 시험환경에서 이 상태로 바꿀것 없이 그냥 제출 버튼 누르면 되는건가요?2.원핫인코딩 진행시 데이터가 10,000개가 넘어가서 45초정도 걸리는데 레이블인코딩을 진행할시 코드는 df로 concat하고 그대로 레이블인코딩 진행 후 다시 나누어 주면 되나요?import pandas as pd train = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p2/flight_train.csv") test = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p2/flight_test.csv") # print(train.info()) target = train.pop('price') # print(train.shape, test.shape) df = pd.concat([train,test]) df = pd.get_dummies(df) train = df.iloc[:10505,:] test = df.iloc[10505:,:] # print(train.shape, test.shape) # 라벨인코더 # from sklearn.preprocessing import LabelEncoder # cols = train.select_dtypes(include = 'object') # for col in cols: # le = LabelEncoder() # train[col] = le.fit_transform(train[col]) # test[col] = le.transform(test[col]) # 데이터 분리 from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train,target,test_size=0.2,random_state=0) # 랜덤포레스트 from sklearn.ensemble import RandomForestRegressor rf = RandomForestRegressor(random_state = 0) rf.fit(X_tr, y_tr) pred = rf.predict(X_val) # # LightGBM # import lightgbm as lgb # lg = lgb.LGBMRegressor(random_state = 0, verbose=-1) # lg.fit(X_tr,y_tr) # pred = lg.predict(X_val) #평가지표 RMSE from sklearn.metrics import root_mean_squared_error rmse = root_mean_squared_error(y_val, pred) # print(rmse) # 원핫 + 랜포 = 3779.676969452687 선택 # 원핫 + LGB = 4216.406340322749 pred_final = rf.predict(test) # 제출 submit = pd.DataFrame({'pred':pred_final}) submit.to_csv('result.csv',index=False) pd.read_csv('result.csv')
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 전처리(인코딩)
강의에서 '데이터 전처리2(인코딩, 스케일링)' 부분 중 인코딩 부분에 대해 질문드립니다. 영상 중 7분 50초 쯤에 심화 내용으로 train, test 데이터를 concat으로 합쳐서 원핫 인코딩을 하는 방법이 있다고 하셨습니다. 그런데 학습 과정에 이 합쳐진 데이터를 넣어서 해도 되는건가요? test 데이터를 모델에 넣어서 학습시키는게 맞는건지 헷갈려서 질문드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
10f질문
안녕하세요시간이 별로 남지 않아 일단 강의만 후루루룩 본 상태라 이제 중요사항만 다시 반복하려고 합니다ㅠ pd.set_option('display.float_format, '{:.10f}.format()제 기억엔..이거랑 하나 더 있었던 것 같은데 외우라고 하셨는데ㅠ 강의를 일단 후루룩 본 상태라서ㅠ어디 강의에서 말씀하셨는지 기억이 잘 안나네요ㅠ (혹시 알 수 있을까요..) 그리고 저 코드랑 비슷한거 하나 더 해서 외우라고 하셨는데.. 그 나머지 하나랑.... 저게 어떤 상황에서 쓰는 코드인지 다시 질문드립니다데이터가 저런 식으로도 자주 나오는지도 궁금합니다! 좋은 강의 항상 감사드립니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
test.pop
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요기출7회 작업형 3 강의 때는 accuracy_score 구할 때, target = test.pop('gender')을 하는 단계가 있었는데요, (아래코드)from sklearn.metrics import accuracy_scorefrom statsmodels.formula.api import logit# 데이터셋 분할train = df.iloc[:210]test = df.iloc[210:]# 1) 학습, test데이터를 사용해 예측 (0.5 미만: 0, 0.5 이상 1)model = logit("gender ~ weight", data=train).fit()target = test.pop("gender")pred = model.predict(test) > 0.5# 2) 실제 값과 예측 값을 사용하여 정확도 계산acc = accuracy_score(target, pred)# 3) 오류율 계산print(round(1-acc,3)) 지금 예시문제에서는 따로 없어서 작업형 3에서는 어떨 때 target = test.pop('gender') 를 해야하는지 궁금해요.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
임계값조건
자료에는 0.5 미만 : 00.5 이상 : 1이라고 되어있는데, 코드 및 설명은0.5 이하 : 00.5 초과 : 1이라고 보여져요. 어떤게 맞나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 제출
작업형2 제출 방식에 대해 질문 있습니다! print(submit.to_csv(‘result.csv', index=False)를 작성한 후에 확인하기 위해print(pd.read_csv('result.csv'))print(pred.shape)등을 실행하며 진행하고 있는데 이런 코드는 주석처리나 삭제할 필요 없이 그대로 제출해도 괜찮은지, 그리고 그 전에 EDA등을 하며 print문으로 작성한 것들도 주석처리 없이 그대로 제출해도 괜찮은지 문의드립니다!😊
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
Section 4. 값 변경, 정렬, 합계 문제 질문
위는 제가 푼 풀이, 아래는 선생님의 답변입니다. 해당 문제에서 왜 최소값을 구하고 대입하는지 모르겠습니다.문제에서 말하는 상위는 큰 숫자부터 작은 숫자로 정렬했을 때, 10번째로 큰 숫자를 말하는 상위인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
범주형 변수에서 C(변수) 형태 입력 문의
분산분석 강의노트(가정에서 재배하고 있는 네 가지 토마토 종자(A, B, C, D)에 대해 세 가지 종류의 비료 (11, 12, 13)를 사용하여 재배된 토마토 수를 조사하였다. 종자 및 비료 종류 간의 토마토 수의 차이가 있는지 유의수준 0.05하에서 검정하시오. (단, 정규성, 등분산성에 만족한 데이터)) 문제에서 종자, 비료가 범주형 데이터여서 C를 씌워준 걸로 아는데, 회귀 분석 시에도 0, 1로만 나타나거나 A, B, C로만 나타나는 변수에 대해서 logit 또는 ols 안에서도 변수에 C를 작성해야 하는지 궁금합니다..!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[작업형3] 4~5 분산 분석
답안 풀이는 anova_lm을 불러올 때import statsmodels.api as sm from statsmodels.formula.api import ols # 1~9 이원 분산 분석 model = ols('수확량 ~ C(비료유형) * C(물주기)', data=df).fit() anova_table = sm.stats.anova_lm(model) print(anova_table)이런식으로 불러오는데 아래와 같이 import하면 결과가 다른데 문제가 있나요? 뭐가 맞을까요from statsmodels.stats.anova import anova_lm
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 1 연습문제 18 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요index '2001' 데이터(행)에서 평균보다 큰 값의 개수를 구하시오. -> 평균보다 큰 값의 개수를 구한다고 해서 len을 썼는데 코랩에 있는 정답은 sum을 써서 다른 답이 도출 되는 것으로 확인됩니다. len이 아닌 sum이 쓰인 이유가 뭔지 알 수 있을까요?import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p1/type1_data2.csv", index_col="year") df.head() df=df.T ma=df[2003].mean() cond1=df[2003]<ma len(cond1)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
머신러닝 학습 및 평가
랜덤포레스트, lightgbm 이거 둘 중에 급하면,, 랜덤포레스트만 사용해도 괜찮을까요?둘 중에 하나만 사용한다면 더 좋은게 있는건가요? 정석대로 한다면, 둘다 진행해서 값이 error일때는 작은걸로 사용하면 되는건가요?단순한 질문 같은데 아직 감이 잡힐듯말듯해서 질문드립니다..ㅠ감사합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 전처리 질문
복습강의에서train = train.drop('customerID', axis=1) # 값이 모두 유니크해도 숫자형이면 유지하지만, 문자형이라 ID는 삭제했습니다 test = test.drop(['customerID'], axis=1customerID를 지웠는데.. 매번 전처리할때 그냥 target = train.pop만 해서 실전에서 잘 못할 것 같아서요..ㅠcustomerID처럼 문자로 된게 고유값이 많으면? 해야하는 것 같은데? 이런 상황일때 무조건 하는게 좋은건가요?실수로 다른 productID 이런거랑 헷갈려서 그런거까지 실수할까봐ㅠ그냥 단순하게 target=train.pop~만 해도 될런지... 질문드립니다 감사합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 연습문제 1 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요ROC-AUC로 평가하는데 데이터 전처리를 아래와 같이하고 y=train.pop('Outcome') 아래와 같이 코드를 작성해도 평가에는 지장이 없을까요?혹시 꼭 검증데이터 분할을 진행해야 평가를 진행할 수 있는 건지 궁금합니다.df=pd.concat([train, test]) df=pd.get_dummies(df) train=df.iloc[:len(train)] test=df.iloc[len(train):] from sklearn.ensemble import RandomForestClassifier rf =RandomForestClassifier(random_state=0) rf.fit(train,y) pred=rf.predict(test) submit = pd.DataFrame({'pred':pred}) submit.to_csv('result.csv', index=False)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 작업형2(ver.2025) 모델은 하나만 해도 되나요?
제목 그대로예시문제 작업형2(ver.2025) 모델은 하나만 해도 되는지 궁금합니다.인코딩을 레이블과 원핫으로 해서 rmse가 더 작은 걸로 구하셨는데, 이과정에서 모델은 랜덤포레스트 하나만 하시더라구요.xgb나 다른 모델로 비교 안해도 되는지 궁금합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
체험환경에 데이터 연동하기
체험환경에 코랩 노트북에서 제공한 데이터셋들을 올릴 수 있는 방법이 없을까요?예를 들어 6회 기출문제 작업형1 데이터는 아래 링크입니다. df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/6_1/data6-1-1.csv")
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
파일 불러오기 코드 외워야 하나요?
import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p1/members.csv")작업형1 연습문제마다 매번 파일 불러오는 게 친절하게 쉬프트 엔터만 누르면 되도록, 코드가 다 쓰여져 있더라구요. 실제 시험가도 파일 불러오는 거 코드는 따로 안외워가도 되나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 8회 작업형2 질문
위와 같이 코드 작성하면 해당 오류가 뜨는데, 이게 어떤 문제 때문인 건지 궁금합니다. 코드는 맞게 적지 않았나 해서요............
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험환경체험링크
자료에서시험환경 체험링크 : https://bit.ly/3H64wpG 여기 들어가면 페이지를 찾을 수 없습니다.페이지의 주소가 잘못되었거나 변경되어요청한 페이지를 찾을 수 없습니다.입력하신 주소를 다시 한 번 확인해주시고문제가 반복되는 경우 아래 메일로 문의 부탁드립니다. 라고 에러가 뜹니다ㅠ어떻게 해결할 수 있죠? 11회 빅데이터분서기사 실기시험 가이드pdf파일에 나와있는https://dataq.goorm.io 여기에 미리 들어갈 수있는건가요? 로그인 하려니까 안되던데ㅠ 한국데이터산업진흥원 ID 비번이랑 동일한가요??감사합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
하이퍼파라미터튜닝
하이퍼파라미터튜닝 잘 못하겠으면 안해도 되나요?? light gbm할때는 하는 것 같은데, 랜덤포레스트 사용경우에는 안하는건가 해서요 감사합니다