묻고 답해요
156만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
rmse 사용시
안녕하세요 3유형에서 rmse로 성능측정시 원래는 mse**0.5해서 계산하고 있었는데퇴근후딴짓님 어떤 영상에서는새로 패키지가 추가됬다며 from sklearn.metrics import root_mean_squared_error해서 root_mean_squared_error(y_val, pred)이렇게 사용하더라구요 실제 시험환경에서 위와같이 사용해도 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
roc_auc_score 문의
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요7. 머신러닝 학습 및 평가(분류) 11분19초 부분입니다.안녕하세요.roc_auc_score로 pred와 y_val간 비교를 통해 roc-auc 스코어를 내는 부분에 질문이 있습니다. roc_auc = roc_auc_score(y_val, pred[:,1])여기서 y_val의 경우에 프린트해보면 각 항에 <=50K 혹은 >50K 라는 값으로 이루어져 있습니다.pred는 array의 집합 [0.1 , 0.9] 등으로 이루어져 있는데 pred[:, 1]을 통해서 '>50K' 부분만 따로 추출해내는 점은 이해가 됩니다. 제가 궁금한것 여기서 y_val의 값, 즉 <=50K 혹은 >50K이 '<=50K'는 0 '>50K'는 1으로 정의가 되어있는 건지요? 특별히 정의를 한것 같지는 않습니다. (물론 문제에서는 50만불 이상이 양성이라고 언급은되어있습니다만..) 혹시 rf.classes_ 에서 출력되는 ['<=50K' '>50K'] 값의 의미가dataset의 y값 전체가 '<=50K'= 0, '>50K'= 1 라는 의미로 이해를 하면되는 것일까요? (전체y(타겟)의 넘버가 rf클래스의 인덱스 값에 따르는 것인지?)
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[실습 체험 환경] root_mean_squared_error 오류
안녕하세요 실습 체험 환경에서 작업 중인데 from sklearn.metrics import root_mean_squared_error해당 문구를 사용하면 아래와 같이 뜹니다 .. 버전이 달라 더이상 사용을 못하는 걸까요 ?dir(sklearn.metrics) 해서 목록을 살펴보면 mean_squared_error 는 다 있는데 , root_mean_squared_error 이 함수만 없습니다 ... 왜 그런걸까요 ㅠㅠ make: *** [py3_run] Error 1Traceback (most recent call last): File "/goorm/Main.out", line 98, in <module> from sklearn.metrics import root_mean_squared_errorImportError: cannot import name 'root_mean_squared_error' from 'sklearn.metrics' (/usr/local/lib/python3.9/dist-packages/sklearn/metrics/__init__.py)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 작업형3(2025)
안녕하세요! 빠른 반영 감사합니다 ㅠㅠ!대체로 질문해석이 좀 어려운데요..이번꺼 보면서 궁금한게 들어서 질문 드립니다!*시험용 공부만 해서, 이론개념이 거의없는 점 참고바랍니다..! 1) ① - 분산을 구해서 조건에 맞는(단, ~) 계산을 한게 검정통계량인걸까요..?아니면 결국 핵심이 '분산에 차이가 있는지를 알아보기 위해' 이기 때문에 분산을 통해 계산을 하면 되는것인지 궁금합니다. 2)③ - '정규성,등분산 검정 후' 라는 언급이 없으면 무조건 등분산 true로 두고 진행하면 될까요?*cond1 샤피로검정해보니 0.03으로 귀무가설 기각이여서 문의드립니다..!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
인코딩 train + test
안녕하세요 강사님. 머신러닝 학습 및 평가(회귀) 강의 관련 질문 드립니다.인코딩을 위해 train + test 데이터를 합친 후, 다시 분리시키는 방법을 알려주셨는데요,train / test 데이터 개수가 불균형일 때만 이렇게 진행하면 될까요? 합치고 분리하지 않고, 그냥 바로 인코딩 진행해도 문제가 없을지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
고유값이 가장 많은 컬
print(a.nunique().sort_values(ascending=False).idxmax()) 코드를 이렇게 작성해도 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
체험환경 제3유형
체험환경 제3유형 새로나온 강의 잘들었습니다. 감사합니다. 하나 여쭤보고싶은데질문2번에서합동분산추정량 공식이분모에 자유도합친 후 -2는 안해주나요? # ((자유도1 분산1) + (자유도2 분산2)) / (자유도1+자유도2 ) - 2 n1 = sum(cond1) n2 = sum(cond2) result = (((n1-1) var1) + ((n2-1) var2)) / ((n1-1) + (n2-1)) print(round(result,3))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 전처리2 강의 질문
안녕하세요 강사님 :) 스케일링 방법 강의에서 아래 코드는 외울 필요가 없다고 말씀 주셨는데요,# 데이터를 매번 새롭게 불러오기 위해 함수로 제작 함 def get_data(): train_copy = train.copy() test_copy = test.copy() return train_copy, test_copy 시험 볼 때 스케일링을 한 가지 하는 게 아니라 세 개 다 한다고 가정했을 때,copy 하지 않으면 처리 결과에 영향을 미치지 않나요? 어떻게 하면 될지 문의드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
체험환경 제2유형
체험환경 제2유형랜포로 한번에 풀기 진행하고있는데요. import pandas as pdtrain = pd.read_csv("data/customer_train.csv")test = pd.read_csv("data/customer_test.csv")# 사용자 코딩# print(train.info())# print(test.info()) # 2482target = train.pop('총구매액')train = pd.get_dummies(train)test = pd.get_dummies(test)train, test = train.align(test, join='left', axis=1)from sklearn.model_selection import train_test_splitx_tr, x_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=0)from sklearn.ensemble import RandomForestRegressorrf = RandomForestRegressor(random_state=0)rf.fit(x_tr, y_tr)pred = rf.predict(test) rf.fit에서 계속 에러가 납니다. 시험볼때도 아래와 같이 계속 에러가 날 것 같은데 방법없을까요? ㅜ_ㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫인코딩
안녕하세요.2유형에서 어떤 문제든 원핫인코딩(get_dummies)으로만 진행해도 될까요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
실기체험환경 변경된 문제풀이
안녕하세요. 실기체험환경에서 문제들이 변경된것 같은데2유형도 결측치가 있어서 처리해야 할 것 같은데 하는 방법을 몰라서요 변경된 문제들 문제풀이 해주실 수 있을까요??
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
전처리 방식과 모델 성능 차이
7회 2유형을 전처리 방식을 원핫인코딩과 레이블인코딩으로 나눠서 해보았는데,rmse가 원핫인코딩의 경우 38만정도가 나왔는데, 레이블인코딩의 경우 2100정도가 나옵니다. 전처리 방식에 따라서 이렇게 큰 차이가 날 수가 있는건가요..? 아니면 모델 학습단계에서 제가 오류를 범한걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 질문 드립니다.
logit('Survived ~ C(Gender) + SibSp + Parch + Fare')C(Gender)와 Gender를 미리 원/핫 인코딩을 한거랑 동일한 것인지 궁금합니다.원/핫 인코딩 후 logit('Survived ~ Gender + SibSp + Parch + Fare')
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
print(len(df[cond1 & cond2 & cond3])) 출력시 해당 에러 발생 > 'float' object is not callable
안녕하세요.61강 4회 기출유형 (작업형 1) 문제를 풀었을 경우 아래와 같은 에러가 출력되네요'float' object is not callable 참고로 코드는 이렇게 작성하였습니다. import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/4_1/basic1.csv") df.head()
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제1 질문
위 화면은 선생님이 풀이해주신거고아래는 제가 작성한 코드입니다. # your code import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p1/members.csv") # print(df.isnull().sum()) # print(df.shape) df=df.dropna(subset=['views']) # print(df.shape) df['f3']=df['f3'].map({'silver':1,'gold':2,'vip':3}) df['f3']=df['f3'].fillna(0) int(sum(df['f3'])) 결측치 처리를 할때선생님은 numpy 라이브러리를 통해replace(np.nan,0) 을 사용했습니다. 저는 아래와 같이 실버,골드,vip를 맵핑해준 후, 결측치를 0으로 처리했습니다.df['f3']=df['f3'].map({'silver':1,'gold':2,'vip':3}) df['f3']=df['f3'].fillna(0) 질문1) 위와 같이 결측치 따로, 맵핑 따로 작성 해도 되나요? 총계합은 동일하게 나오면 상관없나요? 질문2) 위 코드에서 제가 처음에는 결측치를 먼저 처리하고 맵핑을 했더니, 맵핑한 이후에는 0으로 처리했던 결측치가 다시 NaN 이 되어서 작성 순서를 맵핑 후 결측치 처리로 변경했는데.. 왜 그런건가요? 순서에 따라 결과가 달랐습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
잔차 계산할떄
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요관측값 - 예측값이 잔차인데df['키] - model.predict(df['몸무게']) 인 이유가 어떤건가요?? 종속변수가 실제값이고 독립변수가 예측값이라고 생각하고 하면 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[기출문제 4회] 질문드립니다.
제출 형식:ID,Segmentation 458989,1 458994,2 459000,3 459003,4이렇게 되어 있습니다.한가지 방법으로 풀기 진행시 pred = rf.predict(test)submit = pd.DataFrame({'ID' : ???, 'pred' : pred})???를 어떻게 처리해야 하나요?저는 # ID, 예측값: Segmentation test_id = train.pop('ID') target = train.pop('Segmentation') ~~ pred = rf.predict(test) submit = pd.DataFrame({'ID' : test_id,'pred' : pred})마지막 줄 코드에서 에러가 발생합니다. 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
판다스 - 파이썬 질문
판다스 수강중입니다.문득 궁금한게, 판다스 데이터 프레임 함수 활용시df.sum() 등이 있는데요그냥 sum(df['f1']=='gold') 도 있던데, 파이썬 함수형태로도 작성해도 시험에서 문제없나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 예시문제에
import pandas as pdtrain = pd.read_csv("data/customer_train.csv")test = pd.read_csv("data/customer_test.csv")print(train.shape) 출력값이 (3500,10)으로성별컬럼이 안나오는데 왜그런건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 다중분류 문제 roc_auc 적용가능 문의
작업형2 다중분류 문제에서예측할 컬럼: 농약검출여부 (0:미검출, 1:검출, 2:재검사 필요) 일때, roc_auc_score는 적용할 수 없는지 문의드립니다. 예를 들면 이진분류에서는 pred[ : , 1]로 설정을 하게 되는데,다중분류 문제에서 농약검출여부 중 어떤 결과값을 물어보지 않게 되면pred [ : , 0 또는 1또는 2]를 적용할 수 없어 roc_auc는 사용할 수가 없는 것인지 궁금합니다~!