질문 & 답변 - 인프런 | 커뮤니티

묻고 답해요

169만명의 커뮤니티!! 함께 토론해봐요.

인프런 TOP Writers

해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

2회 기출유형(작업형2) 오류가 나서요 ㅠ

2회 기출 작업형2 하다가 오류가 나서 문의드립니다.랜덤포레스트 부분입니다. # 랜덤포레스트 from sklearn.ensemble import RandomForestClassifier model = RandomForestClassifier(random_state=0)model.fit(X_tr,y_tr) pred = model.predict_proba(X_val)이렇게 오류가 나는데 ㅠㅠ왜그런걸까요.....

유리시나 · 2024.06.15 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

230

답변

2
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

데이터를 합쳤다가 인코딩한 후 분리

학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요df.iloc[:,line] 이 부분에서 line이 갑자기 정의도 안하고 왜 튀어나오는지 궁금합니다

csms9870 · 2024.06.15 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

191

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

독립표본 검정 변수 순서

독립표본 T 검정시에ttest_ind(A,B)를 통해 검정하는데A,B순서에 따라 t_score값의 부호가 바뀌게됩니다시험에서 t_score의 값을 물어보는 경우 변수 순서를 어떻게 정해야 정답이 될 수 있을까요?아니면 절대값만 볼까요?

김주현 · 2024.06.15 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

150

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

3회 기출유형(작업형1)

작업형 1의 세번째 문제를 혼자 풀고 풀이를 보며 비교해보니 답이 조금 달라 질문드립니다.import pandas as pd df = pd.read_csv("members.csv") a= df.isnull().sum() # print(a) print(a.sort_values(ascending=False).index[0]) 저는 위처럼 풀어 f1이라는 답을 냈지만 풀이의 답은 'f1'입니다. ( 작은 따옴표의 차이)이 같은 경우에는 제 풀이가 오답이 되는 것인지 궁금합니다.

최후일격 · 2024.06.15 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

181

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

다중 회귀 분석에서 유형[T.C]의 의미 (영상 37초)

학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요제목 그대로 다중선형 회귀 분석 시에 from statsmodels.formula.api import olsmodel=ols('종속~독립1+유형(범주형)',data=df).fit()하고 summary() 했을 때 유형[T.C] ,유형[T.B] 이것의 의미는 뭘까요?

wanzy123 · 2024.06.15 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

189

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

결측치 채우기 질문

안녕하세요 수치형 변수 결측치를 채울 때X_test 데이터에는 X_test의 age 평균값이 들어가야 한다고 생각했는데X_test['age'] 에 X_train['age']의 평균값을 넣는데 이유가 있을까요?주당 근무시간에 대해서도 test 데이터에 train 데이터의 중앙값을 넣어주던데 같은 질문입니다!

현지원 · 2024.06.15 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

183

답변

2
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

3회 기출유형(작업형2) 채점부분 질문

채점부분 코드 돌리려는데, 이렇게 오류가 뜨네요.제 풀이는import pandas as pdfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import accuracy_scorefrom sklearn.metrics import precision_scorefrom sklearn.metrics import recall_scorefrom sklearn.metrics import f1_scorefrom sklearn.metrics import confusion_matrixfrom sklearn.metrics import roc_auc_scoredf1 = pd.read_csv('/content/drive/MyDrive/bigdata(빅분기 놀이터)/기출문제/3회/train.csv')# print(df1.head())# print(df1.info())# print(df1.describe())df2 = pd.read_csv('/content/drive/MyDrive/bigdata(빅분기 놀이터)/기출문제/3회/test.csv')# print(df2.head())# print(df2.info())# print(df2.describe())df1['TravelInsurance'] = df1['TravelInsurance'].astype('category')x = df1.drop('TravelInsurance', axis=1)y = df1['TravelInsurance']x_encoded = pd.get_dummies(x)x_train, x_valid, y_train, y_valid = train_test_split(x_encoded.drop('Unnamed: 0', axis=1), y, test_size=0.25)md = RandomForestClassifier(n_estimators=300)md.fit(x_train, y_train)pred = md.predict(x_valid)cm = confusion_matrix(y_valid, pred, labels=[1,0])print(cm)print(accuracy_score(y_valid, pred))print(precision_score(y_valid, pred))print(recall_score(y_valid, pred))print(f1_score(y_valid, pred))print(roc_auc_score(y_valid, pred))x_test = df2x_test_encoded = pd.get_dummies(x_test)md = RandomForestClassifier(n_estimators=300)md.fit(x_encoded.drop('Unnamed: 0', axis=1), y)pred = md.predict_proba(x_test_encoded.drop('Unnamed: 0', axis=1))# print(pred)result = pd.DataFrame({'y_pred' : pred[:, 1]}).reset_index()print(result)result.to_csv('기출유형 3회 (작업형2) 답안.csv', index = False)입니다!

세린 · 2024.06.15 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

160

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

7회 3형 질문

# 1) 학습 데이터와 테스트 데이터 분리 X_train = train[['weight']] y_train = train['gender'] X_test = test[['weight']] y_test = test['gender']x_train, x_test는 대괄호가 2개고, y_train, y_test는 대괄호가 1개인 이유가 무엇인가여....

DataAnonymous · 2024.06.15 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

136

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

6:58 mannwhitneyu 검정 시 질문

p-value값이 0.4이므로 귀무가설을 채택한다는 것은 결국 대립가설을 기각한다는 뜻이므로 B점수가 더 높다는 것을 기각한다는 뜻인가요?혹시나 해서 A 와 B각각 평균을 내보았더니 A는 60점대고 B는 80점대였습니다.제가 잘못 이해했는지 모르겠는데, B의 평균이 더 높기 때문에 원래대로라면 p값이 0.05보다 작게 나왔어야 하는 것 같은데 왜 그런가요 ?

hslee0216 · 2024.06.15 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

267

답변

2
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

수치형 데이터 스케일링

수치형 데이터 스케일링 할때,범주형 데이터 라벨 인코딩 하듯이, 아래와 같은 방법으로 해도 되는지요? 에러가 나서, 방법이 자체가 잘 못 된건지.. 아니면 방법은 틀리지 않은데, 부분적인 코드 작성에 실수가 있는건지 .... 여쭤보고 싶습니다. ^^;;from sklearn.preprocessing import MinMaxScaler n_cols = ['Age', 'AnnualIncome', 'FamilyMembers', 'ChronicDiseases'] for n_col in n_cols : scaler = MinMaxScaler() X_train[n_col] = scaler.fit_transform(X_train[n_col]) test[n_col] = scaler.transform(test[n_col])

garlic78 · 2024.06.15 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

1

조회수

215

답변

1
미해결
비전공자를 위한 진짜 입문 올인원 개발 부트캠프

그랩마켓 웹 화면 구현하기 코드

섹션 2HTML & CSS 기본그랩마켓 웹 화면 구현하기 코드 복사할 수 있을까요?컴퓨터를 새로 샀는데 굳이 다시 구현 할 필요가 없어서 그렇습니다.

D3vJ30n · 2024.06.15 · 비전공자를 위한 진짜 입문 올인원 개발 부트캠프

투표점수

0

조회수

242

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

캐글 관련 질문

강의를 완강하고 캐글로 공부하려고 하는데 수업때 풀었던문제랑 겹치는 문제가 무엇인지 궁금합니다. 또는 우선순위랑 필수문제가 있는지, 수업이랑 겹쳐서 볼 필요 없는 문제는 무엇인지 궁금합니다.

김성환 · 2024.06.15 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

205

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형2, 예측값(타겟)

학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요train = train.drop 할 때가 있고target = train.pop 할 때있는데 방법이 다른 이유가 무엇인지

guddbs7763 · 2024.06.15 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

149

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

5회 2형 lightgbm질문

5회 2형 lightgbm으로 작성하면 아래와 같은 문구가 나타납니다. 혹시 어떤 부분이 잘못되었을까여??< 코드 >x_train = pd.get_dummies(x_train) x_test = pd.get_dummies(x_test)from sklearn.model_selection import train_test_split xx_train, xx_test, yy_train, yy_test = train_test_split(x_train, y_train, test_size = 0.2, random_state = 42)import lightgbm as lgb model_g = lgb.LGBMRegressor(n_estimators = 150, max_depth = 4, random_state = 42) model_g.fit(xx_train, yy_train) pred_t_g = model_g.predict(xx_test) < 에러 메세지 >[LightGBM] [Warning] Found whitespace in feature_names, replace with underlines[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.000399 seconds.You can set force_row_wise=true to remove the overhead.And if memory is not enough, you can set force_col_wise=true.[LightGBM] [Info] Total Bins 395[LightGBM] [Info] Number of data points in the train set: 3007, number of used features: 23[LightGBM] [Info] Start training from score 12318.722980[LightGBM] [Warning] No further splits with positive gain, best gain: -inf[LightGBM] [Warning] No further splits with positive gain, best gain: -inf

DataAnonymous · 2024.06.15 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

363

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

선형회귀, 분산분석 등 질문

종자가 문자형이라 C()를 하는 것인데, ols에서 자체적으로 원핫 인코딩을 진행한다고 들었던 것 같은데, 그럼 C를 안붙여도 되지 않을까 해서 진행해봤는데, 값이 똑같이 나옵니다. 그냥 C()붙이는걸 생각 안해도 괜찮을까요?

sso03046 · 2024.06.15 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

216

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

캐글 T1 -12 하위, 상위 10개차이

안녕하세요! # 주어진 데이터에서 상위 10개 국가의 접종률 평균과 하위 10개 국가의 접종률 평균을 구하고, 그 차이를 구해보세요 # (단, 100%가 넘는 접종률 제거, 소수 첫째자리까지 출력)이 문제에서 df2 = df.groupby('country').max() 왜 이 코드가 나오는지 이해를 못하겠습니다 ㅜ국가별로 접종률의 최대값이 나오는건가요?? 상, 하위국가를 구해야하니 국가별로 groupby를 해야하는 것은 알겠는데 max를 하는 이유는 무엇일까요?

박나현 · 2024.06.15 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

152

답변

2
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형3 로지스틱 회귀

https://www.kaggle.com/code/agileteam/t3-2-example-py/캐글에 올려주신 문제를 보고 있는데 위랑 아래 각각 결과가 다른데 이유를 모르겠어서 문의남깁니다.로지스틱 회귀 문제의 계수문제는 logit으로 푸는게 맞는걸까요?import pandas as pd from sklearn.linear_model import LogisticRegression # 데이터 로드 df = pd.read_csv('/kaggle/input/bigdatacertificationkr/Titanic.csv') # 데이터 전처리 df['Gender'] = df['Gender'].map({'male': 0, 'female': 1}) # 로지스틱 회귀 모형 생성 및 학습 X = df[['Pclass', 'Gender', 'SibSp', 'Parch']] y = df['Survived'] model = LogisticRegression() model.fit(X, y) # parch 변수의 계수값 출력 print("Parch 변수의 계수값:", model.coef_[0][3])import pandas as pd from statsmodels.formula.api import logit df = pd.read_csv("/kaggle/input/bigdatacertificationkr/Titanic.csv") formula = "Survived ~ C(Pclass) + Gender + SibSp + Parch" model = logit(formula, data=df).fit() model.params['Parch']

kangmi · 2024.06.15 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

220

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

원핫인코딩 문의

범주형 변수만 선택하여 아래와 같이 원핫인코딩했는데 타입이 모두 bool 바꼈습니다. 왜 int로 안바뀌는지궁금합니다. 또 bool 상태로 계속 진행해도 괜찮은가요? c_cols = ['Gender', 'Ever_Married', 'Graduated', 'Profession', 'Spending_Score', 'Var_1'] train = pd.get_dummies(train,c_cols) test = pd.get_dummies(test,c_cols)

goodgail2247 · 2024.06.15 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

199

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

카이제곱검정 기대빈도

안녕하세요 6회 작업형 3에 질문이생겨서 문의드립니다. 카이제곱 적합성검정의 경우 모든 기대빈도가 5이상일때 사용한다고 알고있었는데요배포해주신 문제의 데이터는 보면 무증상 70% 그외 30%로 전체데이터수를 곱해 빈도로 변환해주면 [2.0, 1.0, 3.0, 14.0]입니다.문제가 [감기약의 예상 부작용 비율과 항암약의 부작용 관찰값이 통계적으로 유의미하게 차이가 있는지 확인하려 한다. 카이 제곱 검정을 사용하여 검정 통계량을 구하시오.] 이경우 기대값에서 빈도가 5이하인 아픔: 10% 조금 아픔 5% 속 쓰림 15% 의 범주를 합쳐주고 검정을 해야하는것 아닌가요?그냥 검정을해도 값이 나오긴하지만 이 값이 신뢰할만한 값이라고 할수있는건가요?

최우영 · 2024.06.15 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

689

답변

2
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

6회 기출 유형 작업형2

안녕하세요, 6회 기출 유형 작업형2에서오브젝트형은 제외하고 분석하니f1_score값이 0.96이 나왔고, 선생님은 get_dummies 하니 0.9 이상으로 높은점수가 나오더라구요Q1) 오브젝트형 제외해서 높은점수 나오면 제외해도 될까요 ? Q2) 제외를 안하고 모델에 포함시킨다면 get_dummies 말고 LabelEncoder()를 사용해도 될까요 ?

kyb1053 · 2024.06.15 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

134

답변

1

인기 태그

주간 인기글