묻고 답해요
158만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 - 모의 3 문제 8번
안녕하세요. 문제 8번 원본 데이터가 변경된 것 같습니다.불러오는 주소가 잘못 되었거나.. 데이터가 바뀐 것 같습니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2문제에서 컬럼을 삭제하는 기준?
작업형 2 문제를 풀때 컬럼을 삭제하는 기준에서ID와 같은것은 무조건 삭제하는것이 좋을까요? 아래와 같은 예시에서는 비행편 컬럼을 삭제하고 시작하셨는데...카테고리수가 다르다고 함부로 삭제하는건 또 아닐거같은데 기준을 어떻게 정하면 좋을까요?저는 비행편 컬럼을 삭제하지 않고 회귀모델을 만들었는데 rmse가 더 적게 나오긴했고요..=print("\n ===== 카테고리 비교 =====") cols = train.select_dtypes(include='object').columns for col in cols: set_train = set(train[col]) set_test= set(test[col]) same = (set_train == set_test) if same: print(col, "\t카테고리 동일함") else: print(col, "\t카테고리 동일하지 않음") train = train.drop('flight', axis=1) test = test.drop(
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
value_counts()
df.sort_values('id_assessment',ascending=False) 를 할때와df['id_assessment'].value_counts()를 할때와 값이 다르게 나오는데 왜 인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
1- 3 소문제 질문있습니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요logit 으로 테스트 데이터 학습 시킬때 data = test가 아닌 train으로 학습시키는건가요??문제에 예측하라그래서 test 를 데이터셋으로 넣는줄 알았는데 아니어서 여쭤봅니다
-
미해결[2025년 최신 기출 반영] 빅데이터 분석 기사 실기 시험 100% 합격 ! 기출 문제의 패턴이 보인다 !
랜덤포레스트 성능평가 건
안녕하세요 랜덤포레스트 분석 관련 질문입니다. 어떤 방식에서는 train_test_split을 사용하여 val데이터를 생성합니다. 이는 성능평가 시 f1스코어를 사용할때만train_test_split을 사용하는 건가요?
-
미해결[2025년 최신 기출 반영] 빅데이터 분석 기사 실기 시험 100% 합격 ! 기출 문제의 패턴이 보인다 !
다중선형 회귀 코드 관련
다중회귀 수행할때 어떤 경우엔 아래와 같이 smimport statsmodels.api as sm x = sm.add_constant(x) model = sm.OLS(y,x) result = model.fit()사용하는데 어떤 경우엔 import statsmodels.formula.api as olsformula = (y ~x)model = ols(formula, data = data)사용하는데 차이점이 있나요? 상수 추가가 필요할땐 sm을 써야하는건가요"?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2_모의문제1(답안피드백)
#1. 문제파악 # 분류모델 / ROC-AUC, 정확도(Accuracy), F1, 정밀도(Precision), 재현율(Recall) #TARGET : Attrition_Flag # CSV("CLIENTNUM,Attrition_Flag) , 수험번호.CSV #2. 데이터불러오기 import pandas as pd train = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p2/ceredit%20card/train.csv") test = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p2/ceredit%20card/test.csv") # train = pd.read_csv("train.csv") # test = pd.read_csv("test.csv") #3. EDA #print(train.shape, test.shape) #print(train.info(), test.info()) #print(train.isnull().sum(), test.isnull().sum()) #4. 데이터 전처리 #print(train.shape, test.shape) target = train.pop('Attrition_Flag') train =train.drop('CLIENTNUM', axis=1) id = test.pop('CLIENTNUM') train = pd.get_dummies(train) test = pd.get_dummies(test) #print(train.shape, test.shape) #5. 데이터 분할 from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=2) #6. 모델 학습 및 평가 from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier(random_state=2) rf.fit(X_tr,y_tr) pred = rf.predict(X_val) pred1 = rf.predict_proba(X_val) from sklearn.metrics import roc_auc_score, f1_score, recall_score, accuracy_score, precision_score roc = roc_auc_score(y_val, pred1[:,1]) f1 = f1_score(y_val, pred, average = 'macro') recall = recall_score(y_val, pred) acc = accuracy_score(y_val, pred) pre = precision_score(y_val, pred) #7 평가 pred = rf.predict(test) pred1 = rf.predict_proba(test) #print(pred1) submit = pd.DataFrame({'CLIENTNUM' : id, 'Attrition_Flag' : pred1[:,1]}) submit.to_csv("0000.csv", index = False) pd.read_csv("0000.csv")작업형 2 모의문제1로 이렇게 작성했는데,피드백 주실 부분이 있으실까요? ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
자료형 변환시에(datatime)
# # 자료형 변환# df['subscribed'] = pd.to_datetime(df['subscribed']) # # df['subscribed'] = pd.to_datetime(df['subscribed'], format="%Y-%m-%d") # format 사용 위 두개 중에 저는 항상 맨 위로만 코드를 작성했는데 오늘 문제풀이를 하다보니 두번째로도 알려주시는데..첫번째 코드로만 외우면 나중에 오류가 생길까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
체험환경 신유형 2번 문제 강의 요청
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 강사님 오늘 방금 시간으로 RMSE 내용이랑 test.csv 예측칼럼 삭제 확인했는데 혹시 강의 업로드 가능하신지 문의드립니다~
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫인코딩에 대해 질문 드립니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 안녕하세요. 2유형 문제에서 원-핫 인코딩을 진행할 때, 기존에는 train과 test 데이터를 먼저 합친 뒤 pd.get_dummies()를 적용하고, 이후 다시 분리하는 방식으로 학습했었습니다. 그런데 최근 기출문제 풀이를 보면, train과 test를 따로 인코딩하는 경우도 종종 보이더라고요. 혹시 범주의 유니크 값 개수가 동일하다면, 굳이 합치지 않아도 인코딩을 개별적으로 진행해도 무방한 건지 궁금합니다. 인코딩 처리 방식에 대해 혼동이 있어 문의드립니다. 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 6회 작업형 3
12:58 2번 문제에서앞의 부분, 데이터에서 'solar'와 'o3'를 고정한 상태에서 'wind'의 세기가 증가함에 따라~~이 부분은 무시해도 되는건가요?? wind의 p-val 값은 구할 수 있는데 풀이 당시 앞부분의 의미를 몰라서 무엇을 구해야 할지 몰랐었습니다..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
평가지표 질문!
성능을 평가할 때 root_mean_squared_error 코드를 시험환경에서는 못쓰는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
6회 기출 2번
from sklearn.ensemble import RandomForestClassifiermodel = RandomForestClassifier(random_state=0)model.fit(X_tr,y_tr)pred = model.predict(X_val)f1_socre = f1_score(y_val,pred,average='macro')print(f1_score) 로 작성했더니 <function f1_score at 0x7cb537c5f6a0>로 출력이 되는데 이건 무슨 값일까요? 어떻게 해야 선생님처럼 값이 나올까요>
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
rmse 사용시
안녕하세요 3유형에서 rmse로 성능측정시 원래는 mse**0.5해서 계산하고 있었는데퇴근후딴짓님 어떤 영상에서는새로 패키지가 추가됬다며 from sklearn.metrics import root_mean_squared_error해서 root_mean_squared_error(y_val, pred)이렇게 사용하더라구요 실제 시험환경에서 위와같이 사용해도 되나요?
-
해결됨빅데이터분석기사 실기 R 올인원: 3주에 끝내는 완벽 대비
제1유형 실전문제 풀이(1)에서요
안녕하세요.완전 초보라서 헤매고 있는데요. df <- read.csv("boston.csv") 라고 입력했는데, 라고 나옵니다.. 뭐가 잘못된 걸까요? 경로에 파일이 있는것 확인했는데요.. file(file, "rt")에서 다음과 같은 에러가 발생했습니다: 커넥션을 열 수 없습니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
roc_auc_score 문의
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요7. 머신러닝 학습 및 평가(분류) 11분19초 부분입니다.안녕하세요.roc_auc_score로 pred와 y_val간 비교를 통해 roc-auc 스코어를 내는 부분에 질문이 있습니다. roc_auc = roc_auc_score(y_val, pred[:,1])여기서 y_val의 경우에 프린트해보면 각 항에 <=50K 혹은 >50K 라는 값으로 이루어져 있습니다.pred는 array의 집합 [0.1 , 0.9] 등으로 이루어져 있는데 pred[:, 1]을 통해서 '>50K' 부분만 따로 추출해내는 점은 이해가 됩니다. 제가 궁금한것 여기서 y_val의 값, 즉 <=50K 혹은 >50K이 '<=50K'는 0 '>50K'는 1으로 정의가 되어있는 건지요? 특별히 정의를 한것 같지는 않습니다. (물론 문제에서는 50만불 이상이 양성이라고 언급은되어있습니다만..) 혹시 rf.classes_ 에서 출력되는 ['<=50K' '>50K'] 값의 의미가dataset의 y값 전체가 '<=50K'= 0, '>50K'= 1 라는 의미로 이해를 하면되는 것일까요? (전체y(타겟)의 넘버가 rf클래스의 인덱스 값에 따르는 것인지?)
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[실습 체험 환경] root_mean_squared_error 오류
안녕하세요 실습 체험 환경에서 작업 중인데 from sklearn.metrics import root_mean_squared_error해당 문구를 사용하면 아래와 같이 뜹니다 .. 버전이 달라 더이상 사용을 못하는 걸까요 ?dir(sklearn.metrics) 해서 목록을 살펴보면 mean_squared_error 는 다 있는데 , root_mean_squared_error 이 함수만 없습니다 ... 왜 그런걸까요 ㅠㅠ make: *** [py3_run] Error 1Traceback (most recent call last): File "/goorm/Main.out", line 98, in <module> from sklearn.metrics import root_mean_squared_errorImportError: cannot import name 'root_mean_squared_error' from 'sklearn.metrics' (/usr/local/lib/python3.9/dist-packages/sklearn/metrics/__init__.py)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 작업형3(2025)
안녕하세요! 빠른 반영 감사합니다 ㅠㅠ!대체로 질문해석이 좀 어려운데요..이번꺼 보면서 궁금한게 들어서 질문 드립니다!*시험용 공부만 해서, 이론개념이 거의없는 점 참고바랍니다..! 1) ① - 분산을 구해서 조건에 맞는(단, ~) 계산을 한게 검정통계량인걸까요..?아니면 결국 핵심이 '분산에 차이가 있는지를 알아보기 위해' 이기 때문에 분산을 통해 계산을 하면 되는것인지 궁금합니다. 2)③ - '정규성,등분산 검정 후' 라는 언급이 없으면 무조건 등분산 true로 두고 진행하면 될까요?*cond1 샤피로검정해보니 0.03으로 귀무가설 기각이여서 문의드립니다..!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
인코딩 train + test
안녕하세요 강사님. 머신러닝 학습 및 평가(회귀) 강의 관련 질문 드립니다.인코딩을 위해 train + test 데이터를 합친 후, 다시 분리시키는 방법을 알려주셨는데요,train / test 데이터 개수가 불균형일 때만 이렇게 진행하면 될까요? 합치고 분리하지 않고, 그냥 바로 인코딩 진행해도 문제가 없을지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
고유값이 가장 많은 컬
print(a.nunique().sort_values(ascending=False).idxmax()) 코드를 이렇게 작성해도 될까요?