묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
8 회귀
8회귀문제에서회귀로 풀어라는? 말이 없어도 그냥 회귀로 푸는건가요?로지스틱회귀는 로지스틱회귀로 풀어라는 말이 나오는건가요? 그리고 예측주문량 구할때int(result[0])에서 0은 왜 하는거죠? 감사합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
9. 로지스틱회귀
안녕하세요수정된 모델로 b 데이터를 사용해 예측 후, b 데이터의 target과 비교해 정확도(Accuracy)를 계산하시오. 정확도는 0과 1 사이의 값이다.pred=(pred>0.5).astype(int)이 코딩의 뜻은 무엇인가요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 연습문제 섹션4 문제 결측치 처리 관련 질문드립니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요작업형2의 섹션4에서는 결측치가 있는 칼럼들이 많았어서 저는 우선 전처리로 결측치가 있는 행을 dropna(subset = ['칼럼'], axis=0)를 이용해서 결측치를 처리하는 방향으로 제거를 하였습니다. 이렇게 train과 test 데이터 모두 결측치를 제거하여, 양쪽 전부 데이터 shape에 변화를 준 상태로 학습과 예측을 진행하였습니다. 최종적으로 test의 행의 개수와 결측치 처리를 한 직후의 test 행의 개수가 일치하는 것까지 확인하였으나, 혹시 시험에서는 결측치 처리에서 발생한 기존 데이터 shape 변화로 실격처리가 될 수 있는 경우가 존재하는지 궁금합니다.밑에 예시 정답으로는 결측치를 전부 X로 처리하시고 진행하셔서 제가 데이터 전처리를 한 방법으로 실제 시험장에서 그대로 사용할 수 있을지 질문드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험장에서 Python 패키지 확인 코드 암기여부
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요# 코드 실행 시 제공 패키지 리스트 확인 가능import pkg_resources import pandas pandas.set_option('display.max_rows', None)OutputDataSet = pandas.DataFrame(sorted([(i.key, i.version) for i in pkg_resources.working_set])) print(OutputDataSet)# 파이썬 제공 패키지 수 : 63개# updated 2025.11.07, 제11회 빅데이터분석기사 실기 버전# Warning 메세지로 인한 실행 실패 안내는 실행 및 결과에 영향없음.(가이드 3p 참고)위와같은 실기체험환경 안내에 나와있는 패키지 확인 코드는 실제 시험장에서는 작성이 되어있나요? 아니면 외워가야하나요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
머신러닝 학습때 왜 train, target으로 바로 학습 시키면 안되나요?
제미나이에 물어보니 과적합 우려가 있다는데0.8 : 0.2로 나눠서 학습하나 그냥 1 다 학습하나test 데이터 자체는 별도이니 상관없는 것 아닌가요?성능 검증을 하지 않는다면 더 많은 데이터로 학습하는게 좋을 거 같은데 이유가 이해가 안됩니다ㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
(작업형1-2)답은 맞게 나오는데, [[]]두번써도 되는걸까요?
# 시험환경 세팅 import pandas as pd from sklearn import datasets dataset = datasets.load_diabetes() df = pd.DataFrame(dataset['data'], columns=dataset['feature_names']) df.to_csv("data1-2.csv", index=False) ##################################################################### # 출력을 원할 경우 print() 함수 활용 # 예시) print(df.head()) # getcwd(), chdir() 등 작업 폴더 설정 불필요 # 파일 경로 상 내부 드라이브 경로(C: 등) 접근 불가 # 데이터 파일 읽기 예제 import pandas as pd a = pd.read_csv("data1-2.csv") # 사용자 코딩 #print(a.info()) print(a.shape) #print(a.isnull().sum()) df = a[['s1','s2','s3','s4','s5','s6']] df = df.sum(axis=1) #print(df) result = df>0.1 print(sum(result))이런식으로 코드를 짜서 답은 맞게 나왔는데요,사실 [[]]두 번쓴 이유는 딱히 없기는해요 ㅠㅠ 에러가 떠서 [[]]해봤는데 된거라서..혹시 이렇게 구해도 되는 건지, 된다면혹시 [[]]에 대한 설명도 같이 들을 수 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
연습문제 답안이 있나요 ?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요연습문제 답안 어디서 확인할 수 있죠 ?
-
해결됨[2025년 최신 기출 반영] 빅데이터 분석 기사 실기 시험 100% 합격 ! 기출 문제의 패턴이 보인다 !
8회 작업형1 문제2
작업형1유형 문제2번인데요.거의 다맞는데결과값을구할때 '전자 생산 비율'이 세 번째로 높은 국가의 '전자' 생산이걸 구하는거 아닌가요 구하실때 전자생산비율컬럼인 Elec_rate를 넣으시던데 틀렸다고 생각합니다 정답이. 전정답이6359 나옵니다 빠르게 확인부탁드립니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험 관련 궁금한 부분 질문드려요요
안녕하세요 실제 시험에서는 import pandas부터 데이터프레임 부분까지는 이미 작성이 되어있고 from scipy import stats부터 본인이 코딩하면 되는 걸까요? 감사합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
모델을 1종류만 학습할거라면 평가는 아예 안해도 될까요?
컴퓨터 공학에 아예 문외한이기도 하고 시험 준비 기간도 짧아 최대한 문제를 풀 수 있는 정도만 준비해가려고 합니다 작업형 2번은타겟 분리트레인, 테스트 합쳐서 원핫인코딩 후 재분리검증데이터 분할랜덤포레스트(Classifier/Regressor) 적용하여 피팅pred로 바로 테스트 데이터 예측(predict 또는 predict_proba)DataFrame 생성 후 제출제출물 shape가 test와 맞는지 확인이정도로 준비해가려고 합니다어차피 한가지 타입으로 해서 낼거면 평가는 별도 안해봐도 괜찮을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 7회 작업형3 문제1-3 질문
model = logit('gender ~ weight', data=train).fit() pred = model.predict(test) from sklearn.metrics import accuracy_score score = accuracy_score(pred, test['gender']) print(1-score)이 코드를 실행하면 ValueError: Classification metrics can't handle a mix of continuous and binary targets 이렇게 연속된 값과 이진분류를 혼용했다는 오류가 뜨는데,model = LogisticRegression() model.fit(X_train, y_train) # 3) 테스트 데이터를 사용해 예측 pred = model.predict(X_test) # 4) 실제 값과 예측값을 사용하여 정확도 계산 acc = accuracy_score(y_test, pred) # 5) 오류율 계산 print(round(1 - acc, 3))강사님의 두번째 풀이 코드(위 코드)를 실행하면 아무런 문제가 없어서, 두 코드 전부 accuracy_score에 실제 값과 예측값을 넣어주었음에도 실행 결과가 차이가 나는 이유가 궁금합니다.혹시 LogisticRegression()으로 모델을 생성하면 결과가 0,1의 이진값으로 나오고, logit()으로 모델을 생성하면 결과가 0과 1 사이의 확률값으로 나와서, 모델 생성에 logit()을 사용했다면 accuracy score를 구해야 하는 경우 확률값이 0.5보다 큰지 작은지를 구분하는 후처리를 해줘야 하는 것인 걸까요?감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
IQR(사분위 범위)을 이용한 이상치(Outlier) 탐지
시험에서 '사분위 범위를 이용해서 이상치를 구하라'는 문제가 나올경우 대체로 Q1 - 1.5*IQR보다 작거나 Q3 + 1.5*IQR보다 큰 값 이라는 것을 명시해주는지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
concat 으로 합쳐서 인코딩하는건 실전에서 안하나요?
유니크 확인하고 합쳐서 인코딩하고 인덱싱하는 방식은 어떨 때 사용하는 건가요?첫 번째 문제는 확인 과정도 없는 거 같아서 헷갈리네요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
8회 작업형1 문제3 질문
min_co = df['co'].min() max_co = df['co'].max() df['co'] = (df['co'] - min_co) / (max_co - min_co) min_nmhc = df['nmhc'].min() max_nmhc = df['nmhc'].max() df['nmhc'] = (df['nmhc'] - min_nmhc) / (max_nmhc - min_nmhc) std_co = df['co'].std() std_nmhc = df['nmhc'].std() round(std_co - std_nmhc, 3)제가 MinMaxScaler라는 것의 존재를 아예 까먹고 있었어서 이런 식으로 박치기(?)해서 문제를 풀었는데, 혹시 실제 시험문제에서도 코랩에서의 설명처럼 "Min-Max 스케일링 = (X - min_X) / (max_X - min_X)" 이 설명이 주어졌나요?시험에서도 이런 설명이 주어진다면 어떻게든 풀어낼 것 같은데, 주어지지 않는다면 이런 스케일링 기법같은 것들을 미리 외워놓는 게 좋을 것 같아서 여쭤봅니다!감사합니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2번 푸는 것에있어서
전처리부분은 어떻게 나올지 모르겠지만 여태까지 난이도로나온다면 (결측치는 나오는대로 한다고 가정하겠습니다)강의를 다보고 연습문제도 다해보았습니다 작업형3도 다돌려보았고 작업형1이 잘 안되어서 남은시간동안 작업형1에 집중해보려고 여쭙니다 이정도 치면 40점을 맞을 수 있다고생각하는데 어떻게 생각하실까요?ㅠ (타겟값분리)target=train.pop('종속변수')(데이터합쳐서 원핫인코딩 후 분해)n1=len(train) df=pd.concat([train,test])df=pd.get_dummies(df)train=df.iloc[:n1]test=df.iloc[n1:]데이터분할from sklearn.model_selection import train_test_splitX_tr,X_val,y_tr,y_val=import train_test_split(train,target,test_size=0.2,random_state=0)X_tr.shape,X_val.shape,y_tr.shape,y_val.shape#평가지표 from sklearn.metrics import root_mean_squared_error # f1_score , roc_auc_score 등등나오는대로 #랜덤포레스트from sklearn.ensemble import RandomForestClassifier # 분류#from sklearn.ensemble import RandomForestRegressor #회귀rf=RandomForestClassifier()rf.fit(X_tr,y_tr)pred=rf.predict(X_val)print(root_mean_squared_error(y_val,pred) # macro일때는 average='macro'#lightgbmimport lightgbm import lgblgb=lgb.LGBMClassifier(random_state=0,verbose=-1) # 회귀면 Regressorlgb.fit(X_tr,y_tr)pred=lgb.predict(X_val)print(root_mean_squared_error(y_val,pred) test예측pred=rf.predict(test) #rf와lgbm중 선택submit=pd.DataFrame({'pred':pred)} # roc_auc인경우 pred[,:1]submit.to_csv('result.csv',index=False)print(pd.read_csv('result.csv'))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 3 대응표본 많이 헷갈립니다다
안녕하세요 챗지피티때문에 헷갈리는데 정리 한 번만 부탁드려요그냥 df['after'],df['before']로 쓰면ud = after-before(앞-뒤)이 되는거고 stat.ttest_rel(df['before'],df['after'],alternative='less')를 쓰면ud = before-after(앞-뒤)가 되는 것이죠??ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2
궁금한 점이 몇가지 있는데 만약 작업형 2에서 EDA에서 info를 해봤을때 object 컬럼이 없다면 인코딩을 진행 안하는것이 맞을까요? 2. 평가 과정에서 precision과 recall은 해보지 않았던것 같은데 불러올때 from sklearn.metrics import precision_score from sklearn.metrics import recall_score 이렇게 불러온다음 나머지 과정은 accuracy와 동일하게 진행해주면 될까요? 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
Section 3. 항공권 가격 예측 질문
# 컬럼 삭제 train = train.drop('flight', axis=1) test = test.drop('flight', axis=1) 안녕하세요 선생님! 고생많으십니다!한번씩 train.pop을 진행하고 난 후에 컬럼을 하나씩 drop하는 경우가 있던데 이런건 어떻게 판단해서 진행을 해야할까요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
ols와 logit 에서 숫자 범주형 독립변수
선생님, 분산분석과 회귀모형에서 ols()나 logit() 입력할 때 , 숫자로 이뤄진 범주형 독립변수 앞에는 C를 붙여서 입력하는 것으로 알고 있는데 10회 기출 1번 overtime 변수에 C를 붙이지 않은 이유가 무엇인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4회 기출 유형(작업형2)
왜 저는 원핫인코딩할떄 bool로나오죠? 이번 한번이 아니라 전에도 강의에서는 int로 나오던데 왜 저만 bool로나오는지 이해가안가더라구요