묻고 답해요
169만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
ols
6:27초에서 df_metl에 존재하는 variable 변수가 범주형 변수인데 ols('value ~ C(variable)', ~~~~) 이런 식으로 적지 않아도 되나요? 영상에서는 C로 감싸지 않았는데요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2유형 작성관련 질문(일반 심화)
샘 일반에서 (3가지 돌렸을때 에러일때 작은숫자를 선택하라하셨느데요) 일반에서는 거의 (960, 1000) 이란 숫자가 심화에선(600, 700대 숫자가나왔으면) 이건 일반과 심화를 비교하는건 아니죠? 심화한사람들인 훨 점수가 더 높은건가요? 숫자가 훨씬 더 작은니까요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2유형 작성관련 질문
2유형 보내주신 메일 잘 받았습니다. 감사합니다샘 3가지 유형을 돌리고 나서 가장 좋은거 선택하고 나머지 2개는 주석처리 하면 5번 새로생긴항목 안해도 되는거죠~~
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2유형 object컬럼 개수 다르면
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요2유형 object컬럼에서 개수 다르면 어떻게 해야하나요? 확인 안 하고 레이블인코딩, 랜덤포레스트, lgbm으로만 연습하고 있었는데 object 컬럼에서 안에 개수가 다르면 레이블인코딩을 못 쓰는게 아닐까요..?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
코딩팡질문이요ㅠㅠ
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요코딩팡학습하다가 의문이 생겨서요작업형2 문제에서 나머지문제는 다 40점 나오는데 3번문제만 어떤방법을 써도 25점 이상 안올라가요..ㅠㅠ이유가 뭔지 알길이 없네요.. 문제 다 똑같은 형식으로 제출했습니다.train = pd.get_dummies(train)test = pd.get_dummies(test)from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=0)from sklearn.ensemble import RandomForestRegressorrf = RandomForestRegressor(random_state=0)rf.fit(X_tr, y_tr)pred = rf.predict(X_val)from sklearn.metrics import root_mean_squared_errorprint(root_mean_squared_error(y_val, pred))import lightgbm as lgblg = lgb.LGBMRegressor(random_state=0, verbose=-1)lg.fit(X_tr, y_tr)pred = lg.predict(X_val)print(root_mean_squared_error(y_val, pred))import xgboost as xgbxg = xgb.XGBRegressor(random_state=0, n_estimators = 400)xg.fit(X_tr, y_tr)pred = xg.predict(X_val)print(root_mean_squared_error(y_val, pred))lg.fit(train, target) -> pred = lg.predict(test) 로도 해봤어요!pred = lg.predict(test)submit = pd.DataFrame({'pred':pred})submit.to_csv('result.csv', index=False)print(pd.read_csv('result.csv'))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
관찰값과 기대값의 개념이 헷갈립니다.
관찰값이라면 말그대로 실제로 관측된값이고기대값은 관측이 되지않았지만 기대할 값이라는것 같은데 이문제에서는 이번회차를 관측값으로 두고지난 3년을 기대값으로 뒀는데 왜 지난3년이 기대값이 되는건가요..?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 ID 컬럼 삭제 질문
안녕하세요 작업형2에 대한 질문입니다.train, test 모두 id 컬럼이 있는 경우에 train, test 모두 id 컬럼을 제외해도 되는지 궁금합니다.제외하려는 이유는 모델의 예측결과가 id 컬럼과는 무관할 것 같기 때문인데 test 셋을 건드는게 조심스러워 질문드립니다.만약에 제거하게 된다면 train, test 모두에서 제거해야 하는지, train에서만 제거해야 하는지 궁금합니다.데이터 예시는 아래와 같습니다.ID 연월 업종명 이용자구분 성별 이용자수 이용건수 0 ID_6105 202212 비알콜 음료점업 동남아 알수없음 151 173.0 1 ID_6125 202212 슈퍼마켓 기타외국 알수없음 66 71.0 2 ID_6773 202306 한식 음식점업 법인 알수없음 146682 165699.0감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2유형 작성관련 질문
2유형 보내주신 메일 잘 받았습니다. 감사합니다샘 3가지 유형을 돌리고 나서 가장 좋은거 선택하고 나머지 2개는 주석처리 하면 5번 새로생긴항목 안해도 되는거죠~~
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
memoryerror 질문
안녕하세요. 올려주신 모의문제 작업형 2유형 2번 문제를 푸는 도중 아래와 같은 에러가 발생했습니다. 코드 문법 관련된 오류는 아닌 것 같은데, 시험장에서도 이런 오류가 발생할 가능성이 있을까요? 감사합니다. Traceback (most recent call last): File "<exec>", line 22, in <module> File "/lib/python3.12/site-packages/sklearn/base.py", line 1389, in wrapper return fit_method(estimator, *args, **kwargs) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "/lib/python3.12/site-packages/sklearn/ensemble/_forest.py", line 487, in fit trees = Parallel( ^^^^^^^^^ File "/lib/python3.12/site-packages/sklearn/utils/parallel.py", line 77, in __call__ return super().__call__(iterable_with_config) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "/lib/python3.12/site-packages/joblib/parallel.py", line 1918, in __call__ return output if self.return_generator else list(output) ^^^^^^^^^^^^ File "/lib/python3.12/site-packages/joblib/parallel.py", line 1847, in _get_sequential_output res = func(*args, **kwargs) ^^^^^^^^^^^^^^^^^^^^^ File "/lib/python3.12/site-packages/sklearn/utils/parallel.py", line 139, in __call__ return self.function(*args, **kwargs) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "/lib/python3.12/site-packages/sklearn/ensemble/_forest.py", line 189, in _parallel_build_trees tree._fit( File "/lib/python3.12/site-packages/sklearn/tree/_classes.py", line 472, in _fit builder.build(self.tree_, X, y, sample_weight, missing_values_in_feature_mask) File "_tree.pyx", line 153, in sklearn.tree._tree.DepthFirstTreeBuilder.build File "_tree.pyx", line 268, in sklearn.tree._tree.DepthFirstTreeBuilder.build File "_tree.pyx", line 923, in sklearn.tree._tree.Tree._add_node File "_tree.pyx", line 892, in sklearn.tree._tree.Tree._resize_c File "_utils.pyx", line 29, in sklearn.tree._utils.safe_realloc MemoryError: could not allocate 63832064 bytes
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 유형2 이렇게 고정 템플릿으로 가져가도 될까요?
안녕하세요. 시험이 얼마 남지 않은 상황에서 아래와 같은 템플릿을 작업형 2유형에 대한 고정 템플릿으로 가져가는게 괜찮은지 여쭤보고싶습니다. 올려주신 모의문제 기준으로는 25/40점을 기록하여 노파심에 여쭤봅니다. 감사합니다. *분류 문제는 RandomForestClassifier, 회귀문제는 RandomForestRegressor 쓸 예정이며, 평가지표가 roc-auc인 경우 predict()를 predict_proba로 바꿔야한다는 점까지는 인지하고 있습니다. import pandas as pd train = pd.read_csv('data/car_train.csv') test = pd.read_csv('data/car_test.csv') # print(train.head()) # print(test.head()) # target : target (분류) # 데이터 전처리 target = train.pop('target') temp = pd.concat([train, test]) temp = pd.get_dummies(temp) train = temp.iloc[:len(train)] test = temp.iloc[len(train):] # 모델 정의 및 훈련 from sklearn.ensemble import RandomForestClassifier model = RandomForestClassifier() model.fit(train, target) p = model.predict(test) # csv 파일 만들기 및 확인 submit = pd.DataFrame({'pred': p}) submit.to_csv("result.csv", index = False) result = pd.read_csv("result.csv") print(result.head())
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
ID 삭제 필수 인가요?
ID 삭제하고 돌리면 평가점수가 떨어지는거같은데. 시험 가서는 어떻게 해야할까요? 평가점수가 떨어지더라도 ID는 삭제하고 진행해야하는게 맞을지. 무조건 평가점수가 높게 나오는 방향으로 하는게 맞는지 혼란스럽습니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회 기출문제 작업형1번 df 변환 후 저장되는 방식 질문
7회 기출문제 작업형 1을 풀다가 조건 cond를 설정해서 문제에서 정해준 조건에 만족하는 위치에 score 컬럼 값을 표준화해 저장하려 했습니다.그래서 아래의 코드와 같이 df[cond1 & cond2]로 스케일링을 했는데 이후에 print(df)를 하면 score 컬럼의 값이 스케일링하기 전의 값들로 결과가 출력되는지 궁금합니다.다른 문제들도 어떨때는 df = df.변환 하면 저장되어서 출력되고, 또 어떤 경우에는 안되고에 대한 기준을 모르겠습니다. import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/7_1/student_assessment.csv") # 결측치 제거 # print(df.head(5)) # print(df.info()) # print(df.isnull().sum()) df = df.dropna() # print(df.isnull().sum()) # 가장 많은 학생이 수강한 과목 = 12 # print(df['id_assessment'].value_counts()) # print(df.head(5)) # 12 과목의 score 컬럼을 표준화 한 뒤에 표준화 from sklearn.preprocessing import StandardScaler # print(dir(preprocessing)) scl = StandardScaler() cond1 = df['id_assessment'] == 12 cond2 = df['score'] # 질문 부분 시작 print("스케일링 전: ",df[cond1 & cond2].describe()) df[cond1 & cond2] = scl.fit_transform(df[cond1 & cond2]) print("스케일링 후: ",df[cond1 & cond2].describe()) print(df) # 질문 부분 마침 # print(df[cond1 & cond2].max()) # print(round(2.183422, 3)) # 답: 2.183
-
해결됨베개투자법 완성: 아침이 설레는 AI 완전 자동매매 Claude 바이브코딩
매일 사용시 토큰사용량
안녕하세요 !치알남님!클로드 api 월 3만원정도 충전하면 충분하다고 하셨는데,코드수정을 클로드에게 계속 부탁해서인지 토큰사용량이 많아서 금방 소진되더라구요.코드작성이나 수정없이,매일 자동매매 프로그램만 켰을경우 사용토큰량이 얼마정도 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3 유형 귀무가설, 대립가설
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요[기출] 3유형 문제를 풀어보는 도중에 제공하신 노트북을 보면 귀무가설/대립가설이 적혀있지 않고, [연습] 3유형에는 귀무/대립가설이 무엇인지 적혀있는데, 실제 시험에서는 귀무/대립가설의 내용을 물어보기도 하나요? 예를 들어, p-value를 구한다음에, 수험자에게 이 차이가 있습니다. 없습니다. 라고 작성하게끔 시킬 수도 있을까요? 귀무/대립가설이 헷갈려서 그렇습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
인코딩 관련 질문 있습니다
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 범주형 컬럼(a,b,c,d,e)의 nunique값에서 (a,c) 컬럼은 50으로 좀 크고나머지 컬럼은 5정도로 작을 경우에 labeling과 one hot encoding을 각각 적용하고 싶다면 cols = [a,c]으로 두고 반복문을 통해 le를 한다음get_dummies를 하면 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형3 이원분산분석 sm에서불러오기 / anova_lm 차이
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요<제가 작성한 것 >from statsmodels.formula.api import olsmodel=ols('수확량~비료유형+물주기+비료유형:물주기',data=df).fit()from statsmodels.stats.anova import anova_lmanova_lm(model) <자료>import statsmodels.api as amfrom statsmodels.formula.api import ols# 1~9 이원 분산 분석model = ols('수확량 ~ C(비료유형) * C(물주기)', data=df).fit()anova_table = sm.stats.anova_lm(model)print(anova_table) 값을 비교해보면 비료유형에서는 일부 동일한데, 다른 변수들에서는 실행시 값들의 차이가 있었습니다..!sm/lm 사용의 차이가 궁금합니다.시험에서 해당 내용이 나오면 어느 방식이 적절할지요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2유형 원핫인코딩 오류
시험환경 프로그램에서 2유형 인코딩을 하는데 오류가 뜹니다. 보니까 인코딩 전에는 train, test 컬럼 수가 같았는데 인코딩 후에는 train 컬럼 수가 하나 더 많습니다. train = pd.get_dummies(train)test = pd.get_dummies(test)를 사용했습니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험장에서 주석 단축키 안될 때 많나요?
안녕하세요. ctrl + / (주석처리 단축키)를 굉장히 유용하게 쓰고 있는데 시험장에서 해당 단축키 활용이 불가능한 경우가 많은지 여쭤보고싶습니다. 또한 실기시험 응시 pdf에 나와 있는 내용을 시험 당일 감독관분께 문의드려도 알려주시는지 궁금합니다. 현재 단축키 안될 때 해결방법을 제가 시험볼 때 까먹었을 수도 있을 것 같아서 문의드립니다.. 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
라벨인코딩 방식
에어비엔비 가격 문제 풀이 영상라벨인코딩 할때 언제 concat하고 언제는 안해도 되는지 잘 모르겠어요set(train['neighbourhood']) == set(test['neighbourhood']) 이 코드에서 False가 나와서 범주형이 서로 다르기때문에 concat을 해야한다고 이해했는데, 이 문제에서는 그냥 바로 train, test에 인코딩하네요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
test 재학습 관련
안녕하세요 강사님 강의에서는 전부 1번 방식으로 바로 제출하는것으로 방법이 나와있는데틀린부분을 생성형AI와 같이 학습해본 결과 지속적으로 2번 방식처럼 train, target으로 한번 더 학습하고 테스트 파일을 예측하는게 더 낫다고 나오더라구요2번으로 하는 경우에는 더 유의미한 차이가 있는걸까요? 아님 그냥 원래 방식대로 1번처럼 진행하는게 나을까요?