묻고 답해요
156만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의문제2 결과 질문입니다. (에어비앤비)
데이터 전처리에서 test_id의 데이터가 9779개이고,검증 데이터 분리에서 X_val의 데이터가 5868개입니다. 행의 개수가 맞지 않아서 오류가 발생하는데, 어떻게 해결해야 할까요? 'id' 컬럼을 pop 하고, 검증 데이터를 분리하면 아래와 같이 행 수가 줄어듭니다. 그리고 랜덤 포레스트로 pred를 예측하는데요. X_val 값이 들어가는 게 아닌가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
object 컬럼명 선택
3-6 에서 object 컬럼명을 선택할 때 이렇게 하셨는데,cols = train.select_dtypes(include="object").columns 3-4에서 보여주신 이 식도 같이 쓸 수 있는 건가요?cols = list(X_train.columns[X_train.dtypes == object])
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
5회 기출 작업형1 2번문제
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요5회 기출 작업형1 2번문제에 제곱하는 경우 두번 나눈값과 **2한 값이 결과에 영향을 미치는데 점수에 영향이 있을까요?(df['Height']/100)**2
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2번 문제 질문
안녕하세요현재 인강 다 듣고 기출문제 풀면서 작업형2를 공부중인데요.랜덤포레스트 결과가 안나오고 자꾸 아래 체크박스가 자꾸 뜹니다.혹시 해당 코드를 없애는 해결방법이 따로 있을 지 여쭤봅니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
답안 제출할 때 질문입니다.
X_tr, X_val, y_tr, y_val 로 나누고,model.fit(X_tr,y_tr) 로 학습을 시키고,model.predict(X_val) 로 검증을 하는데요.. 최종 제출할 때에model.fit(train, target) 로 학습을 시키고,model.predict(test) 로 제출을 하는게 나을까요?아니면model.fit(X_tr,y_tr) 로 학습을 시키고,model.predict(test) 로 제출을 하는게 더 나을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
섹션5 - 모델링 및 평가(회귀) 강의에서 평가 시 pred 변환
강의 마지막 성능을 평가하는 과정에서 y_test['charges']와 pred의 rmse를 비교하는 것이 아닌 y_test['charges']과 np.exp(pred)의 성능을 비교해야 맞는 것 아닌가요?log변환 후 학습을 진행했기에 계속 변환값을 예측값으로 말씀하시다가 마지막에는 변환 없이 평가하길래 질문 남깁니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
pred와 predict_proba
분류는 predict와 predict_proba 둘 중 하나 선택회귀는 predict위와 같은 것으로 알고 있습니다predict_proba는 roc_auc를 물을 때 사용한다.결과값이 확률일때 사용한다두 가지 설명을 들엇던것 같은데roc_auc를 물을때는 그럼 결과값이 무조건 확률인건가요 ??f1_score나 정확도를 묻는 결과값이 확률값으로 안나오는건가요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험을 앞두고 2유형 답안 최종 제출 코드 질문!
2유형 답안 최종 제출할 때, 이렇게 4줄로 끝내려고 합니다이렇게 4줄만 쓰면 답안제출+답안확인 끝나는거 맞겠죠?2유형에서 감점될까봐 너무 걱정되네요(문제는 올려주신 케글 문제 중 하나입니다) pred = rf.predict(test)result = pd.DataFrame({'SalePrice' : pred})result.to_csv('result.csv' , index=False)pd.read_csv('result.csv')
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3-5 Classification의 간단한 결측치 처리 관련
유사 질문 있었는데 답변 확인해도 잘 모르겠어서 다시 질문 드립니다.# 간단한 결측치 처리 X_train = X_train.fillna(0) X_test = X_test.fillna(0)이 부분에서 수치형 외에 범주형에도 0으로 대입되는게 맞나요?아니면 이렇게 해도 문자가 아니기 때문에 범주형에는 대입이 안 되는 건가요?만약 범주형에만 결측치를 처리한다면 다음과 같이 할 수 있나요?X_train = X_train.fillna('X')X_test = X_test.fillna('X')
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
len or sum
이상치 수를 찾으시오, 데이터 수를 구하시오 len과 sum이 헷갈립니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3회 기출유형(작업형1)
강의에서는 df = df.iloc[:int(len(df)*0.7)] 을 하셨는데 저는 import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p1/members.csv") # print(df.head(10)) df = df.dropna() # print(df.head(10)) df = df[:int(len(df) * 0.7)] print(df['f1'].quantile(.25))57이렇게 해도 결과값이 맞는데 따로df = df.iloc[:int(len(df)*0.7)] 이걸 꼭 작성해야 하나요? 궁금합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
alternative
대응표본 t 검정에서 어느것이 먼저나와야 되나요?대응 표본 t 검정을 통해 B공장 제품들의 rpm이 A 공장 제품의 rpm보다 크다고 말할 수 있는지 검정하라. stats.ttest_rel(A, B, alternative ='less') stats.ttest_rel(B, A, alternative ='greater')기준을 잡을수 있는것이 있을까요? 뒤에 alternative 기입때문에요 앞에거 기준이라고 하시긴 했는데요 앞에를 A로 쓰나, B로 쓰나에 따라 기준이 바뀌면 답도 같을줄 알았는데 틀리더라구요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 3유형 학습 범위 문의
케글에 있는 작업형 3유형 문제 중 지지도, 신뢰도, 향상도를 구하는 문제가 있는데요. 본 강의에서는 이 부분은 다루지 않았는데 혹시 알아둬야 할까요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의문제2 랜덤포레스트 적용
랜덤포레스트 모델 적용 코드에 대해 의문이 생겨 질문 드립니다.from sklearn.ensemble import RandomForestRegressor regressor = RandomForestRegressor() model.fit(X_tr, y_tr) pred = model.predict(X_val) print(r2_score(y_val, pred)) print("r2: ",r2_score(y_val, pred)) print("mae: ", mean_absolute_error(y_val, pred)) print("mse: ", mean_squared_error(y_val, pred)) print("rmse: ", rmse(y_val, pred)) print("rmsle: ", rmsle(y_val, pred)) print("mape: ", mape(y_val, pred))regressor 변수에 RandomForestRegressor()를 대입했는데 그 뒤로는 model 변수만을 가지고 적용시키는 것 같아 이 방법이 맞는 것인지 궁금합니다. 이렇게 model에 적용하면 앞서했던 Lasso 모델과 같은 결과가 나오게 돼서 이상하다고 생각했습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
분위수 구하는 문제 질문 있습니다!
'age 컬럼의 3사분위수와 1사분위수의 차를 절대값으로 구하고'에서 1사분위가 0.25이고 3사분위가 0.75라고 알고 있는데, 차이를 구하라고 한다면 보통 두 값을 빼서 구해야 할텐데, 강의 에서는 1사분위(0.25) - 3사분위(0.75)로 계산을 하여 90이라는 값이 나왔는데 3사분위 - 1사분위 하면 값이 다르게 나올텐데 어떻게 구해야하나요? 차는 무조건 1사분위 - 3사분위 일까요?(너무 기본적인 질문이라 죄송합니다.)
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출2회 작업형1 문제3
df.head() mean = df['age'].mean() std = df['age'].std() lower = mean - (std*1.5) upper = mean + (std*1.5) cond1 = df['age'] < lower cond2 = df['age'] > upper print(df[cond1|cond2]['age'].sum()) # cond1 = (df['age'].mean() - (df['age'].std())*1.5) > df['age'] # cond2 = (df['age'].mean() + (df['age'].std())*1.5) < df['age'] # print(df[cond1|cond2]['age'].sum()) 어떤 부분에서 틀린걸까요..?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
'numpy.ndarray' 개체에 'columns' 속성이 없습니다
'numpy.ndarray' 개체에 'columns' 속성이 없습니다 이건 무엇이 잘못된것일까요? 2유형 풀다가X_scaled.columns =X_scaled.columns.astype(str) test_scaled.columns =test_scaled.columns.astype(str)에서 에러가 났어요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 3, chisquare
1-2. 감기약의 예상 부작용 비율과 항암약의 부작용 관찰값이 통계적으로 유의미하게 차이가 있는지 확인하려 한다. 카이 제곱 검정을 사용하여 검정 통계량을 구하시오.의 문제에서..풀이를 비율로 했더니..실제 풀이에서 ex = [0.1 * 20, 0.05 * 20, 0.15 * 20, 0.7 * 20]이렇게 원래 명 수로 계산한 것와 검정통계량p값이 다 달라지네요...문제에서는 사실 어떤방식으로 명시하진 않았지만,일반적으로 명수로 풀이를 해야하는걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 모델링 기법 선정
안녕하세요! 작업형2에서 모델링을 선택할때 여러가지 모델을 모두 사용해보고 스코어가 가장 높을 것을 선택해서 제출하는 것으로 이해했습니다!그렇다면 그 여러가지 모델을 선정해야하는데 어떤 모델을 선정해야할까요?분류/회귀에 따라 다른 것으로 알고 있는데 분류/회귀 각각 3~4개정도 추천해주실 수 있으신가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 회귀/분류 구분
'꿀팁 - 작업형2 한가지 방법으로 풀기' 영상으로 기출유형을 공부 중에 있습니다. 랜덤포레스트에서 아래 두가지를 구분하는게 헷갈립니다.회귀 : RandomForestRegressor분류 : RandomForestClassifier기출5회 유형에서 '예측(자동차 가격)'이라는 단어를 보고 회귀를 사용했는데,기출6회 유형에서는 '예측(난방 부하 단계)'이라는 단어가 있지만 분류를 사용하시더라구요. 두 가지를 구분하는 확실한 기준이 궁금합니다.