묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
전처리 관련 문의
전처리 과정에서 꼭 ID 칼럼을 train과 test 둘다 제거해야하는건가요? 그대로 진행하면 안되는건지 여쭤보고 싶습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[작업형2] 연습문제 섹션 1
인코딩하지 않고 분할로 바로 넘어간 이유를 설명해주세요.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
실행값?출력값 다름
왜 저는 앞에 np.float64가 붙을까요?그 이후로 예측하는데 에러가 나요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
test 예측 오류
왜 오류가 나는지어떤 오류인지 모르겠어요..
-
미해결머신러닝 엔지니어 실무
머신러닝 파이프라인 단계 질문
안녕하세요, 선생님.일반적으로 머신러닝 파이프라인이데이터 수집 및 버저닝 데이터 검증 데이터 전처리 모델 학습 이 순서로 진행된다고 이해하고 있습니다.여기서 제가 헷갈리는 부분이 있어서 질문드립니다. 데이터 검증 범위 최초에 업로드된 raw 데이터에 대해 1차 데이터 검증을 수행한 후, 전처리 과정을 거쳐 train / eval 데이터셋이 생성된다고 알고 있습니다. 이때 전처리까지 마친 train / eval 데이터셋에 대해서도 한 번 더 데이터 검증을 수행하는 것이 일반적인 패턴인지가 궁금합니다. 즉, 파이프라인 단계를 좀 더 세분화하면 아래와 같이 이해해도 되는지요? 1) 데이터 검증 (raw 데이터 기준) 2) 데이터 전처리 3) 전처리된 train / eval 데이터에 대한 2차 데이터 검증 4) 모델 학습 최초 학습 시점의 스키마와 서빙 데이터 검증 최초 학습 때 전처리된 파일로부터 train / eval 데이터셋을 만들고, 이 데이터들에 대해 검증을 수행했다면, 이후 실제 서빙 단계에서 들어오는 serving 데이터에 대해서는 최초 학습 시 사용한 train 데이터의 스키마/통계 정보를 기준으로 이상 유무를 판단하는 것이 맞는지 질문드립니다. 즉, - “최초 학습 시점: raw → 검증 → 전처리 →전처리 결과 검증 → 모델 학습” - “서빙 시점: 새로운 입력 데이터 → train 시점 스키마/통계 기준으로 검증 → 이상 없을 때만 모델에 입력” 이런 흐름이 일반적으로 사용하는 구조인지 궁금합니다. 정리하면, - 데이터 검증 → 전처리 → 전처리 결과에 대한 추가 검증 → 모델 학습 이라는 단계가 자연스러운지, - 그리고 서빙 데이터는 최초 학습 시점의 train 데이터 스키마/통계를 기준으로 검증하는 것이 맞는지에 대해 설명해 주시면 감사하겠습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
유형3 분산분석 질문 값의 차이와 에러
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요유형3의 분산분석 예제 중, 이원분산분석에서 직접 코드를 쳐 분석을 진행했더니 아래와 같은 출력이 나오는데, 밑에 예시와는 값이 꽤나 다르게 나오는 부분이 있었습니다. 범주형 변수를 제대로 처리를 안 해서 그런 부분이다.라고 생각해서 C()를 통해 변수를 묶으니, 코랩에서 제대로 인식을 하지 못해 아래와 같은 에러가 발생해서 제대로 된 출력이 나오지 않는 상황입니다. 제 컴퓨터 문제일 수도 있겠지만... 이런 에러를 처리하는 해결방안이 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
수업 질문
안녕하세요풀이 확인 후에, 제가 다르게 생각했던 부분들은 안되는지 한번 더 질문드립니다 Section 16. 이상치, IQR'views' 컬럼의 1사분위수, 3사분위수 그리고 IQR을 계산하시오.이상치 조건에 맞는 데이터를 찾으시오. (이상치는 1사분위수 – (IQR 1.5)보다 작은 값과 3사분위수 + (IQR 1.5)보다 큰 값)이상치 데이터의 'views' 컬럼 합을 정수로 구하시오. q3 = df['views'].quantile(.75)q1 = df['views'].quantile(.25)IQR = q3 - q1line1 = q1 - 1.5 * IQRline2 = q3 + 1.5 * IQRcond=(df['views']<line1) & (df['views']>line2)print(int(df[cond]['views'].sum()))이렇게 하면 안되나요?ㅠ 2.Section 18. 데이터(행) 기준 평균값, 인덱싱index '2001' 데이터(행)에서 평균보다 큰 값의 개수를 구하시오.index '2003' 데이터(행)에서 평균보다 작은 값의 개수를 구하시오.두 개수를 더하시오.이 문제에서 풀이랑 같이df=df.Tm1 = df[2001].mean() 이렇게 했는데,---------------------------------------------------------------------------ValueError Traceback (most recent call last)/usr/local/lib/python3.12/dist-packages/pandas/core/indexes/range.py in get_loc(self, key)412 try:--> 413 return self._range.index(new_key)414 except ValueError as err:ValueError: 2001 is not in rangeThe above exception was the direct cause of the following exception:KeyError Traceback (most recent call last)2 frames/usr/local/lib/python3.12/dist-packages/pandas/core/indexes/range.py in get_loc(self, key)413 return self._range.index(new_key)414 except ValueError as err:--> 415 raise KeyError(key) from err416 if isinstance(key, Hashable):417 raise KeyError(key)KeyError: 2001이런 오류가 뜹니다인덱스 2001 할때 그냥 df[2001]이렇게 하는거 맞나요? Section 19. 결측치(뒤에 값으로 대체), 그룹합결측치를 바로 뒤에 있는 값으로 대체하시오. (바로 뒤의 값도 결측치일 경우, 뒤에 있는 데이터 중 가장 가까운 값으로 대체)'city'와 'f2' 컬럼을 기준으로 그룹합을 계산하시오.'views' 값이 세 번째로 큰 city 이름을 구하시오.에서 df = df.bfill() 라고 적혀있던데 풀이에서bfill 은 이전 값, ffill이 이후 값 아닌가요?그리고,# city와 f2기준 그룹합 계산df = df.groupby(['city','f2']).sum(numeric_only=True).reset_index()여기서 reset 다음에 한 이유가 무엇인가요?감사합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
섹션1-10 질문
1. Section 8. 시계열 데이터, 필터링, 데이터 개수 문제df['subscribed']=pd.to_datetime(df['subscribed'])df['y_m']=df['subscribed'].dt.to_period("m")# print(df.head())print(df.info())cond1=df['y_m']=='2024-02'cond2=df['f3']='gold'df=df[cond1&cond2]저는 이렇게 페리어드로 코딩 했는데 오류가 납니다ㅠ/tmp/ipython-input-3254161643.py:7: FutureWarning: 'm' is deprecated and will be removed in a future version, please use 'M' instead. df['y_m']=df['subscribed'].dt.to_period("m")---------------------------------------------------------------------------TypeError Traceback (most recent call last)/usr/local/lib/python3.12/dist-packages/pandas/core/ops/array_ops.py in na_logical_op(x, y, op) 361 # (xint or xbool) and (yint or bool)--> 362 result = op(x, y) 363 except TypeError:TypeError: ufunc 'bitwise_and' not supported for the input types, and the inputs could not be safely coerced to any supported types according to the casting rule ''safe''During handling of the above exception, another exception occurred:ValueError Traceback (most recent call last)6 framesops.pyx in pandas._libs.ops.scalar_binop()ValueError: Buffer dtype mismatch, expected 'Python object' but got 'bool'The above exception was the direct cause of the following exception:TypeError Traceback (most recent call last)/usr/local/lib/python3.12/dist-packages/pandas/core/ops/array_ops.py in na_logical_op(x, y, op) 383 ) as err: 384 typ = type(y).__name__--> 385 raise TypeError( 386 f"Cannot perform '{op.__name__}' with a dtyped [{x.dtype}] array " 387 f"and scalar of type [{typ}]"TypeError: Cannot perform 'and_' with a dtyped [bool] array and scalar of type [bool]이렇게 오류가 납니다2. 결측치가 삭제된 데이터를 사용하여 지역별(city) 평균을 계산하시오.이문제에서df=df.groupby('city').mean()이렇게 하면 오류가 나던데ㅠdf = df.groupby(['city']).mean(numeric_only=True) 이렇게 뒤에 numeric 까지 반드시 해야하나요?
-
해결됨<머신러닝, 핵심만 빠르게!> 완독 챌린지
쿠폰관련 문의
첼린지를 처음하다보니 쿠폰기간을 놓쳤습니다. 메일로 다시 보내주실수 없는지 문의드립니다. 번거롭게해서 죄송합니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이원분산분석 범주형변수 C()처리
전에 다른 질문에서, 범주형 변수는 C()를 처리하라고 하셨었고, 범주형 변수중에서도 숫자로 되어있는 (문제의 물주기 처럼) 경우에만 C()를 필수로 해야한다고 하시고, 문제에서 범주형 변수다! 라고 주어지지 않으면 C()를 쓰지 말라고 하셨는데요... 어떻게 해야할까요..!!!!!!이번문제의 경우 아예 범주형변수라고 주어지지 않았으니 모든 변수에 C()를 빼고 할까요? 그럼 코랩의 답안과 달라지긴 하더라구요!
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2유형 탬플릿 질문
from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier() model = rf.fit(X_tr, y_tr) pred_proba = model.precit_proba(X_val) from sklearn.metrics import roc_auc_score ra = roc_auc_score(y_val, pred) pred_test = model.predict_proba(test) result = pd.DateFrame({'pred':pred}) result.to_csv('result.csv', index=False) 안녕하세요 2유형 공부 중 질문드립니다.위 코드와 같이 test를 예측할때 fit 된 변수 'model'을 그대로 가져와서 model.predict_proba(test) 해도 되나요? 영상에서는 rf 변수를 사용해서 rf.predict_proba(test)로 한걸로 보여서요. 두개가 같은건가요..? 감사합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3번 대응 표본검정 정규성 만족 여부
3번 대응 표본 검정 자료가 정규분포를 가정한다는 문구를 보지 못하고, shapiro 검정부터 해보았는데, stats.shapiro(df['기존방법']-df['새로운방법']) ShapiroResult(statistic=np.float64(0.782923502611104), pvalue=np.float64(0.008985928943897126))이렇게 pvalue가 0.05보다 작아서, 귀무가설 기각-> 즉 정규분포를 만족하지 않게 나오길래 wilcoxon으로 풀었는데 다 풀고 나니 정규분포를 만족한다는 문구가 있더라구요... 혹시, 실제 문제에서도 이런 경우가 있을까요? 문제 기준으로 하면 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
8 회귀
8회귀문제에서회귀로 풀어라는? 말이 없어도 그냥 회귀로 푸는건가요?로지스틱회귀는 로지스틱회귀로 풀어라는 말이 나오는건가요? 그리고 예측주문량 구할때int(result[0])에서 0은 왜 하는거죠? 감사합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
9. 로지스틱회귀
안녕하세요수정된 모델로 b 데이터를 사용해 예측 후, b 데이터의 target과 비교해 정확도(Accuracy)를 계산하시오. 정확도는 0과 1 사이의 값이다.pred=(pred>0.5).astype(int)이 코딩의 뜻은 무엇인가요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 연습문제 섹션4 문제 결측치 처리 관련 질문드립니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요작업형2의 섹션4에서는 결측치가 있는 칼럼들이 많았어서 저는 우선 전처리로 결측치가 있는 행을 dropna(subset = ['칼럼'], axis=0)를 이용해서 결측치를 처리하는 방향으로 제거를 하였습니다. 이렇게 train과 test 데이터 모두 결측치를 제거하여, 양쪽 전부 데이터 shape에 변화를 준 상태로 학습과 예측을 진행하였습니다. 최종적으로 test의 행의 개수와 결측치 처리를 한 직후의 test 행의 개수가 일치하는 것까지 확인하였으나, 혹시 시험에서는 결측치 처리에서 발생한 기존 데이터 shape 변화로 실격처리가 될 수 있는 경우가 존재하는지 궁금합니다.밑에 예시 정답으로는 결측치를 전부 X로 처리하시고 진행하셔서 제가 데이터 전처리를 한 방법으로 실제 시험장에서 그대로 사용할 수 있을지 질문드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험장에서 Python 패키지 확인 코드 암기여부
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요# 코드 실행 시 제공 패키지 리스트 확인 가능import pkg_resources import pandas pandas.set_option('display.max_rows', None)OutputDataSet = pandas.DataFrame(sorted([(i.key, i.version) for i in pkg_resources.working_set])) print(OutputDataSet)# 파이썬 제공 패키지 수 : 63개# updated 2025.11.07, 제11회 빅데이터분석기사 실기 버전# Warning 메세지로 인한 실행 실패 안내는 실행 및 결과에 영향없음.(가이드 3p 참고)위와같은 실기체험환경 안내에 나와있는 패키지 확인 코드는 실제 시험장에서는 작성이 되어있나요? 아니면 외워가야하나요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
머신러닝 학습때 왜 train, target으로 바로 학습 시키면 안되나요?
제미나이에 물어보니 과적합 우려가 있다는데0.8 : 0.2로 나눠서 학습하나 그냥 1 다 학습하나test 데이터 자체는 별도이니 상관없는 것 아닌가요?성능 검증을 하지 않는다면 더 많은 데이터로 학습하는게 좋을 거 같은데 이유가 이해가 안됩니다ㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
(작업형1-2)답은 맞게 나오는데, [[]]두번써도 되는걸까요?
# 시험환경 세팅 import pandas as pd from sklearn import datasets dataset = datasets.load_diabetes() df = pd.DataFrame(dataset['data'], columns=dataset['feature_names']) df.to_csv("data1-2.csv", index=False) ##################################################################### # 출력을 원할 경우 print() 함수 활용 # 예시) print(df.head()) # getcwd(), chdir() 등 작업 폴더 설정 불필요 # 파일 경로 상 내부 드라이브 경로(C: 등) 접근 불가 # 데이터 파일 읽기 예제 import pandas as pd a = pd.read_csv("data1-2.csv") # 사용자 코딩 #print(a.info()) print(a.shape) #print(a.isnull().sum()) df = a[['s1','s2','s3','s4','s5','s6']] df = df.sum(axis=1) #print(df) result = df>0.1 print(sum(result))이런식으로 코드를 짜서 답은 맞게 나왔는데요,사실 [[]]두 번쓴 이유는 딱히 없기는해요 ㅠㅠ 에러가 떠서 [[]]해봤는데 된거라서..혹시 이렇게 구해도 되는 건지, 된다면혹시 [[]]에 대한 설명도 같이 들을 수 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
연습문제 답안이 있나요 ?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요연습문제 답안 어디서 확인할 수 있죠 ?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험 관련 궁금한 부분 질문드려요요
안녕하세요 실제 시험에서는 import pandas부터 데이터프레임 부분까지는 이미 작성이 되어있고 from scipy import stats부터 본인이 코딩하면 되는 걸까요? 감사합니다