묻고 답해요
164만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이원분산분석 범주형변수 C()처리
전에 다른 질문에서, 범주형 변수는 C()를 처리하라고 하셨었고, 범주형 변수중에서도 숫자로 되어있는 (문제의 물주기 처럼) 경우에만 C()를 필수로 해야한다고 하시고, 문제에서 범주형 변수다! 라고 주어지지 않으면 C()를 쓰지 말라고 하셨는데요... 어떻게 해야할까요..!!!!!!이번문제의 경우 아예 범주형변수라고 주어지지 않았으니 모든 변수에 C()를 빼고 할까요? 그럼 코랩의 답안과 달라지긴 하더라구요!
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2유형 탬플릿 질문
from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier() model = rf.fit(X_tr, y_tr) pred_proba = model.precit_proba(X_val) from sklearn.metrics import roc_auc_score ra = roc_auc_score(y_val, pred) pred_test = model.predict_proba(test) result = pd.DateFrame({'pred':pred}) result.to_csv('result.csv', index=False) 안녕하세요 2유형 공부 중 질문드립니다.위 코드와 같이 test를 예측할때 fit 된 변수 'model'을 그대로 가져와서 model.predict_proba(test) 해도 되나요? 영상에서는 rf 변수를 사용해서 rf.predict_proba(test)로 한걸로 보여서요. 두개가 같은건가요..? 감사합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3번 대응 표본검정 정규성 만족 여부
3번 대응 표본 검정 자료가 정규분포를 가정한다는 문구를 보지 못하고, shapiro 검정부터 해보았는데, stats.shapiro(df['기존방법']-df['새로운방법']) ShapiroResult(statistic=np.float64(0.782923502611104), pvalue=np.float64(0.008985928943897126))이렇게 pvalue가 0.05보다 작아서, 귀무가설 기각-> 즉 정규분포를 만족하지 않게 나오길래 wilcoxon으로 풀었는데 다 풀고 나니 정규분포를 만족한다는 문구가 있더라구요... 혹시, 실제 문제에서도 이런 경우가 있을까요? 문제 기준으로 하면 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
8 회귀
8회귀문제에서회귀로 풀어라는? 말이 없어도 그냥 회귀로 푸는건가요?로지스틱회귀는 로지스틱회귀로 풀어라는 말이 나오는건가요? 그리고 예측주문량 구할때int(result[0])에서 0은 왜 하는거죠? 감사합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
9. 로지스틱회귀
안녕하세요수정된 모델로 b 데이터를 사용해 예측 후, b 데이터의 target과 비교해 정확도(Accuracy)를 계산하시오. 정확도는 0과 1 사이의 값이다.pred=(pred>0.5).astype(int)이 코딩의 뜻은 무엇인가요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 연습문제 섹션4 문제 결측치 처리 관련 질문드립니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요작업형2의 섹션4에서는 결측치가 있는 칼럼들이 많았어서 저는 우선 전처리로 결측치가 있는 행을 dropna(subset = ['칼럼'], axis=0)를 이용해서 결측치를 처리하는 방향으로 제거를 하였습니다. 이렇게 train과 test 데이터 모두 결측치를 제거하여, 양쪽 전부 데이터 shape에 변화를 준 상태로 학습과 예측을 진행하였습니다. 최종적으로 test의 행의 개수와 결측치 처리를 한 직후의 test 행의 개수가 일치하는 것까지 확인하였으나, 혹시 시험에서는 결측치 처리에서 발생한 기존 데이터 shape 변화로 실격처리가 될 수 있는 경우가 존재하는지 궁금합니다.밑에 예시 정답으로는 결측치를 전부 X로 처리하시고 진행하셔서 제가 데이터 전처리를 한 방법으로 실제 시험장에서 그대로 사용할 수 있을지 질문드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험장에서 Python 패키지 확인 코드 암기여부
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요# 코드 실행 시 제공 패키지 리스트 확인 가능import pkg_resources import pandas pandas.set_option('display.max_rows', None)OutputDataSet = pandas.DataFrame(sorted([(i.key, i.version) for i in pkg_resources.working_set])) print(OutputDataSet)# 파이썬 제공 패키지 수 : 63개# updated 2025.11.07, 제11회 빅데이터분석기사 실기 버전# Warning 메세지로 인한 실행 실패 안내는 실행 및 결과에 영향없음.(가이드 3p 참고)위와같은 실기체험환경 안내에 나와있는 패키지 확인 코드는 실제 시험장에서는 작성이 되어있나요? 아니면 외워가야하나요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
머신러닝 학습때 왜 train, target으로 바로 학습 시키면 안되나요?
제미나이에 물어보니 과적합 우려가 있다는데0.8 : 0.2로 나눠서 학습하나 그냥 1 다 학습하나test 데이터 자체는 별도이니 상관없는 것 아닌가요?성능 검증을 하지 않는다면 더 많은 데이터로 학습하는게 좋을 거 같은데 이유가 이해가 안됩니다ㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
(작업형1-2)답은 맞게 나오는데, [[]]두번써도 되는걸까요?
# 시험환경 세팅 import pandas as pd from sklearn import datasets dataset = datasets.load_diabetes() df = pd.DataFrame(dataset['data'], columns=dataset['feature_names']) df.to_csv("data1-2.csv", index=False) ##################################################################### # 출력을 원할 경우 print() 함수 활용 # 예시) print(df.head()) # getcwd(), chdir() 등 작업 폴더 설정 불필요 # 파일 경로 상 내부 드라이브 경로(C: 등) 접근 불가 # 데이터 파일 읽기 예제 import pandas as pd a = pd.read_csv("data1-2.csv") # 사용자 코딩 #print(a.info()) print(a.shape) #print(a.isnull().sum()) df = a[['s1','s2','s3','s4','s5','s6']] df = df.sum(axis=1) #print(df) result = df>0.1 print(sum(result))이런식으로 코드를 짜서 답은 맞게 나왔는데요,사실 [[]]두 번쓴 이유는 딱히 없기는해요 ㅠㅠ 에러가 떠서 [[]]해봤는데 된거라서..혹시 이렇게 구해도 되는 건지, 된다면혹시 [[]]에 대한 설명도 같이 들을 수 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
연습문제 답안이 있나요 ?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요연습문제 답안 어디서 확인할 수 있죠 ?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험 관련 궁금한 부분 질문드려요요
안녕하세요 실제 시험에서는 import pandas부터 데이터프레임 부분까지는 이미 작성이 되어있고 from scipy import stats부터 본인이 코딩하면 되는 걸까요? 감사합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
모델을 1종류만 학습할거라면 평가는 아예 안해도 될까요?
컴퓨터 공학에 아예 문외한이기도 하고 시험 준비 기간도 짧아 최대한 문제를 풀 수 있는 정도만 준비해가려고 합니다 작업형 2번은타겟 분리트레인, 테스트 합쳐서 원핫인코딩 후 재분리검증데이터 분할랜덤포레스트(Classifier/Regressor) 적용하여 피팅pred로 바로 테스트 데이터 예측(predict 또는 predict_proba)DataFrame 생성 후 제출제출물 shape가 test와 맞는지 확인이정도로 준비해가려고 합니다어차피 한가지 타입으로 해서 낼거면 평가는 별도 안해봐도 괜찮을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 7회 작업형3 문제1-3 질문
model = logit('gender ~ weight', data=train).fit() pred = model.predict(test) from sklearn.metrics import accuracy_score score = accuracy_score(pred, test['gender']) print(1-score)이 코드를 실행하면 ValueError: Classification metrics can't handle a mix of continuous and binary targets 이렇게 연속된 값과 이진분류를 혼용했다는 오류가 뜨는데,model = LogisticRegression() model.fit(X_train, y_train) # 3) 테스트 데이터를 사용해 예측 pred = model.predict(X_test) # 4) 실제 값과 예측값을 사용하여 정확도 계산 acc = accuracy_score(y_test, pred) # 5) 오류율 계산 print(round(1 - acc, 3))강사님의 두번째 풀이 코드(위 코드)를 실행하면 아무런 문제가 없어서, 두 코드 전부 accuracy_score에 실제 값과 예측값을 넣어주었음에도 실행 결과가 차이가 나는 이유가 궁금합니다.혹시 LogisticRegression()으로 모델을 생성하면 결과가 0,1의 이진값으로 나오고, logit()으로 모델을 생성하면 결과가 0과 1 사이의 확률값으로 나와서, 모델 생성에 logit()을 사용했다면 accuracy score를 구해야 하는 경우 확률값이 0.5보다 큰지 작은지를 구분하는 후처리를 해줘야 하는 것인 걸까요?감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
IQR(사분위 범위)을 이용한 이상치(Outlier) 탐지
시험에서 '사분위 범위를 이용해서 이상치를 구하라'는 문제가 나올경우 대체로 Q1 - 1.5*IQR보다 작거나 Q3 + 1.5*IQR보다 큰 값 이라는 것을 명시해주는지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
concat 으로 합쳐서 인코딩하는건 실전에서 안하나요?
유니크 확인하고 합쳐서 인코딩하고 인덱싱하는 방식은 어떨 때 사용하는 건가요?첫 번째 문제는 확인 과정도 없는 거 같아서 헷갈리네요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
8회 작업형1 문제3 질문
min_co = df['co'].min() max_co = df['co'].max() df['co'] = (df['co'] - min_co) / (max_co - min_co) min_nmhc = df['nmhc'].min() max_nmhc = df['nmhc'].max() df['nmhc'] = (df['nmhc'] - min_nmhc) / (max_nmhc - min_nmhc) std_co = df['co'].std() std_nmhc = df['nmhc'].std() round(std_co - std_nmhc, 3)제가 MinMaxScaler라는 것의 존재를 아예 까먹고 있었어서 이런 식으로 박치기(?)해서 문제를 풀었는데, 혹시 실제 시험문제에서도 코랩에서의 설명처럼 "Min-Max 스케일링 = (X - min_X) / (max_X - min_X)" 이 설명이 주어졌나요?시험에서도 이런 설명이 주어진다면 어떻게든 풀어낼 것 같은데, 주어지지 않는다면 이런 스케일링 기법같은 것들을 미리 외워놓는 게 좋을 것 같아서 여쭤봅니다!감사합니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2번 푸는 것에있어서
전처리부분은 어떻게 나올지 모르겠지만 여태까지 난이도로나온다면 (결측치는 나오는대로 한다고 가정하겠습니다)강의를 다보고 연습문제도 다해보았습니다 작업형3도 다돌려보았고 작업형1이 잘 안되어서 남은시간동안 작업형1에 집중해보려고 여쭙니다 이정도 치면 40점을 맞을 수 있다고생각하는데 어떻게 생각하실까요?ㅠ (타겟값분리)target=train.pop('종속변수')(데이터합쳐서 원핫인코딩 후 분해)n1=len(train) df=pd.concat([train,test])df=pd.get_dummies(df)train=df.iloc[:n1]test=df.iloc[n1:]데이터분할from sklearn.model_selection import train_test_splitX_tr,X_val,y_tr,y_val=import train_test_split(train,target,test_size=0.2,random_state=0)X_tr.shape,X_val.shape,y_tr.shape,y_val.shape#평가지표 from sklearn.metrics import root_mean_squared_error # f1_score , roc_auc_score 등등나오는대로 #랜덤포레스트from sklearn.ensemble import RandomForestClassifier # 분류#from sklearn.ensemble import RandomForestRegressor #회귀rf=RandomForestClassifier()rf.fit(X_tr,y_tr)pred=rf.predict(X_val)print(root_mean_squared_error(y_val,pred) # macro일때는 average='macro'#lightgbmimport lightgbm import lgblgb=lgb.LGBMClassifier(random_state=0,verbose=-1) # 회귀면 Regressorlgb.fit(X_tr,y_tr)pred=lgb.predict(X_val)print(root_mean_squared_error(y_val,pred) test예측pred=rf.predict(test) #rf와lgbm중 선택submit=pd.DataFrame({'pred':pred)} # roc_auc인경우 pred[,:1]submit.to_csv('result.csv',index=False)print(pd.read_csv('result.csv'))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 3 대응표본 많이 헷갈립니다다
안녕하세요 챗지피티때문에 헷갈리는데 정리 한 번만 부탁드려요그냥 df['after'],df['before']로 쓰면ud = after-before(앞-뒤)이 되는거고 stat.ttest_rel(df['before'],df['after'],alternative='less')를 쓰면ud = before-after(앞-뒤)가 되는 것이죠??ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2
궁금한 점이 몇가지 있는데 만약 작업형 2에서 EDA에서 info를 해봤을때 object 컬럼이 없다면 인코딩을 진행 안하는것이 맞을까요? 2. 평가 과정에서 precision과 recall은 해보지 않았던것 같은데 불러올때 from sklearn.metrics import precision_score from sklearn.metrics import recall_score 이렇게 불러온다음 나머지 과정은 accuracy와 동일하게 진행해주면 될까요? 감사합니다.
-
미해결[리뉴얼] 처음하는 파이썬 머신러닝 부트캠프 (쉽게! 실제 캐글 문제 풀며 정리하기) [데이터분석/과학 Part2]
Ascii 에러 관련하여 질문드립니다
안녕하세요. 강의를 수강하면서 한 가지 오류가 반복적으로 발생하여 질문드립니다.현재 아래 코드를 실행하는 과정에서 문제가 발생하고 있습니다.score = cross_val_score(knn, X_train, y_train.values.ravel(), cv=k_fold, n_jobs=-1, scoring='accuracy')print(score)셀을 실행하면 다음과 같은 오류 메시지가 지속적으로 출력됩니다.UnicodeEncodeError: 'ascii' codec can't encode characters in position 18-20: ordinal not in range(128)이 오류는 예전에도 Jupyter Notebook을 사용할 때 동일하게 발생하여 해결에 어려움을 겪었고, 이번 강의를 따라가는 과정에서도 같은 문제가 반복되고 있습니다.구글링과 GPT 등을 통해 여러 해결 방법을 시도해보았으나, 환경 변수 설정, 터미널 인코딩 변경, 관련 코드 수정 등 어떤 방법도 효과가 없었습니다. (제가 방법을 잘못 이해한 것일 수도 있습니다.) 혹시 이 문제가 발생하는 원인과 해결 방법에 대해 조언을 주실 수 있을까요?항상 좋은 강의 제공해주셔서 감사드립니다. - 강의 영상에 대한 질문이 있으시면, 상세히 문의를 작성해주시면, 주말/휴일 제외, 2~3일 내에 답변드립니다 (이외의 문의는 평생 강의이므로 양해를 부탁드립니다.)- 강의 답변이 도움이 안되셨다면, dream@fun-coding.org 로 메일 주시면 24시간 내에 재검토하겠습니다.- 괜찮으시면 질문전에 챗GPT 와 구글 검색을 꼭 활용해보세요~- 잠깐! 인프런 서비스 운영(다운로드 방법포함) 관련 문의는 1:1 문의하기를 이용해주세요.