묻고 답해요
156만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
logit()안에 들어가는 독립변수 관련 질문
7회 작업형 3문제를 보면 glm('종소변수 ~ 독립변수1 + 독립변수2 + 독립변수3', data=df).fit() 이런식으로 작성하던데 분산분석에서는 ols('종속변수 ~ 독립변수1*독립변수2') 이렇게 하던데 어떨 때 독립변수를 +만 하는지, 어떨 때 독립변수를 *하는지 헷갈립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출6회 제2유형
아래 문제해설을 보니 pred = rf.predict(X_val) 로 반영 pred = rf.predict(test) 로 반영해도 문제없나요?# 랜덤포레스트 from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier(random_state=0) rf.fit(X_tr, y_tr) pred = rf.predict(X_val) f1_score(y_val, pred, average='macro')
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4회기출, 제2유형
안녕하세요. 마지막에 저희 행/열 확인하잖아요. 거기에서 2154 , 1이 나오는데답변 행 : 2154test 행 : 2154동일하다는 걸 검증하는거죠? <class 'pandas.core.frame.DataFrame'> RangeIndex: 2154 entries, 0 to 2153 Data columns (total 10 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 ID 2154 non-null int64 1 Gender 2154 non-null object 2 Ever_Married 2154 non-null object 3 Age 2154 non-null int64 4 Graduated 2154 non-null object 5 Profession 2154 non-null object 6 Work_Experience 2154 non-null float64 7 Spending_Score 2154 non-null object 8 Family_Size 2154 non-null float64 9 Var_1 2154 non-null object dtypes: float64(2), int64(2), object(6) memory usage: 168.4+ KB ID pred 0 458989 2 1 458994 3 2 459000 3 3 459003 3 4 459005 1 ... ... ... 2149 467950 4 2150 467954 4 2151 467958 2 2152 467961 2 2153 467968 4 [2154 rows x 2 columns]
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
제2회 기출, 제2유형
안녕하세요.제2회 기출, 제2유형 아래와같이 풀어봤는데 확인 부탁드립니다.랜포활용검증안함 검증은 어차피 시험에 반영안되고,랜포밖에 할 줄 몰라서 이것만 암기했어요. 도저히 다른거 풀 자신이 없어서 시험 제2유형의 모든문제는 아래 패턴으로 진행하려합니다. 혹시 이렇게 진행해도되는지 문의드립니다. # 데이터 불러오기 import pandas as pd test = pd.read_csv("X_test.csv") train = pd.read_csv("X_train.csv") y_train = pd.read_csv("y_train.csv") X_train.shape, y_train.shape, X_test.shape # train.info() # test.info() # y_train.info() target = y_train.pop('Reached.on.Time_Y.N') train = pd.get_dummies(train) test = pd.get_dummies(test) train, test = train.align(test, join='left', axis = 1) from sklearn.model_selection import train_test_split x_tr, x_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=0) from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier(random_state = 0) rf.fit(x_tr, y_tr) pred = rf.predict_proba(test) test_ID = test.pop('ID') submit = pd.DataFrame({'ID' : test_ID, 'Reached.on.Time_Y.N' : pred[:,1]}) submit.to_csv('result.csv', index=False)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2회기출, 제2유형
기출2회, 제2유형의 해설 관련저는 아래 랜포사용해서 진행했는데,아래와 같이 predic_proba 사용했으므로1차원 배열로 바꿔줘야하나요? DataFrame 'pred' : pred[:,1] 해줘야 1차원으로 변경되는지 문의드립니다. from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier(random_state = 0) rf.fit(x_tr, y_tr) pred = rf.predict_proba(test) test_ID = test.pop('ID') submit = pd.DataFrame({'ID' : test_ID, 'Reached.on.Time_Y.N' : pred[:,1]}) submit.to_csv('result.csv', index=False) # 랜덤포레스트 model = RandomForestClassifier(random_state=2022) model.fit(X_tr, y_tr) pred = model.predict_proba(X_val) print(roc_auc_score(y_val, pred[:,1]))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의문제 1
여기서 평가 지표가 정확도, 정밀도, f1score 등 많은데 왜 roc_auc_score인 proba로 예측하고 정리할 때 roc_auc_score로 확인하는지 궁금합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
print 사용
안녕하세요 강의 잘 듣고 있습니다 !영상에서 예를 들어 선생님께서는 이렇게 cols만 붙이시거나 train.head()이렇게만 하시는데 실제 시험에서는 모든 식 앞에 print()를 붙여야 하나요?또, print를 붙여야 되는 식은 어떻게 구분하는지 질문드립니다 !cols = train.select_dtypes(include="object").columns colscols = train.select_dtypes(include="object").columns print(cols)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
내장함수 관련 질문
안녕하세요, 강의 中 내장 함수 관련한 내용을 보고서 아래와 같이 실습해보니listbox = [2,4,6,8,10]을 기준으로 sum을 하면 정상적으로 30이 실행되지만,물리적으로 모든 원소를 더해준 값을 프린트 한 값과의 비교는 다르다 뜹니다.파이썬 비교 연산자(혹은 모든 연산자)들은 자료형을 기준으로 출력이 되나요? [실습]
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
형변환 관련 질문
안녕하세요, 강의 中 형변환 관련한 내용을 보고서 아래와 같이 실습해보니제가 만든 변수의 타입은 int가 아닌 str로 뜹니다.그 이유는 변수를 재정의 하지 않고서 형변환 후 계산만 이행해서 일까요? [강의] [실습]
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
섹션 5의 모델링 및 평가(분류) 에서 질문입니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요24: 40쯤 영상입니다 제가 넣은 코딩은 이거이고 그 전까지는 결과값이 쌤이랑 동일 했습니다. from xgboost import XGBClassifier xgb = XGBClassifier() xgb.fit(X_tr[cols], y_tr) pred = xgb.predict_proba(X_val[cols]) pred[:10]array([[9.6185881e-01, 3.8141213e-02], [9.9447620e-01, 5.5237846e-03], [5.2776355e-01, 4.7223645e-01], [9.1258293e-01, 8.7417044e-02], [7.4549425e-01, 2.5450572e-01], [9.8757923e-01, 1.2420748e-02], [9.9907589e-01, 9.2413591e-04], [8.6976409e-01, 1.3023594e-01], [1.8734336e-03, 9.9812657e-01], [9.2717761e-01, 7.2822370e-02]], dtype=float32)이거로 쌤이랑 다르게 나오는데 이유를 모르겠슴니다 ㅠ
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
교제와 인강
빅데이터분석기사 교제 158p~209p 까지의 내용은 무슨 강의를 들으면 되는건가요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
8회 기출유형 작업형 3
8:20 이후 문제 1-3을 할 차례인데 하지 않고 2-1문제로 강의가 넘어갑니다. 1-3 문제는 어디서 다루나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험볼 때 자료 재활용 방법
아래와 같이 기출2번 제1유형에서 제가 df = df.iloc[ ~ 막 작성하면서 자료가 한번 망가졌는데, 지금이야, 다시 파일로드해서 공부하면되지만시험장에서 자료만들다가 dt가 망가지면 어떻게 복구할 수 있나요? 다시 처음부터 할 수 있는지 방법 문의드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
정답에 int ~~
학습 관련 질문을ㅇ 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 퇴근후딴짓님.마지막 답이 이런식으로 나오는 그대로 제출해도 되나요?? 퇴근후 딴짓님 코드 그대로 입력햇는데 아래 처럼 나오는데요.앞에 int()로 묶어도 점수에 영향이 없나요?? 아니면 아래 그래도 제출해도 되나요??np.int64(313)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출6회 제2유형 질문
기출6회 제2유형 질문 해설보니아래 내용중에서해설 : pred = rf.predict(x_val)제답안 : pred = rf.predict(test) 위 내용이 다른데 어차피 제출할때 써야하는 내용이므로 test로 진행해야되지않을까요? 어떤게 답인지몰라문의드립니다.# 랜덤포레스트 from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier(random_state=0) rf.fit(X_tr, y_tr) pred = rf.predict(X_val) f1_score(y_val, pred, average='macro')
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
오징어게임 온보딩 관련 문의
안녕하세요.온보딩 기간: 4월 28일 ~ 5월 9일온보딩 기간 중 파이썬과 판다스를 미리 학습 부탁드립니다. 스터디에서는 문제 풀이 참여 중심으로 진행 예정입니다.오징어게임 관련해서 이런 안내가 있는데전체 강의 중 최소한 ‘섹션3. [작업형1] 판다스’까지는 학습 완료해야 한다고 이해하면 될까요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의문제3
작업형2 모의문제3에서 xgb모델을 사용할 때 max_depth 기본 설정이 3으로 되어 있어서 max_depth=3을 코드에 넣었을 때와 넣지 않았을 때가 값이 똑같아야 한다고 설명해주셨는데 저는 값이 다르게 나와요. 왜 다르게 나올까요..그리고 머신러닝 강의를 따라하다보면 결과 값이 종종 영상과 다르게 나오는 경우가 있는데 코드를 똑같이 작성해도 값이 다를 수 있나요?from xgboost import XGBClassifier xgb=XGBClassifier(random_state=2022) xgb.fit(X_tr,y_tr) pred=xgb.predict(X_val) pred_proba=xgb.predict_proba(X_val) print(roc_auc_score(y_val, pred_proba[:,1])) print(f1_score(y_val, pred)) print(accuracy_score(y_val, pred)) ->0.9192546583850931 0.8444444444444444 0.8108108108108109 from xgboost import XGBClassifier xgb=XGBClassifier(random_state=2022, max_depth=3) xgb.fit(X_tr,y_tr) pred=xgb.predict(X_val) pred_proba=xgb.predict_proba(X_val) print(roc_auc_score(y_val, pred_proba[:,1])) print(f1_score(y_val, pred)) print(accuracy_score(y_val, pred))->0.8975155279503105 0.8444444444444444 0.8108108108108109
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
피처엔지니어링 13.00초 부분 질문이 있습니다.
for col in cols le = labelencoder()C_Train[col] = le.fit_transform(C_train[col]) 여기에서요. col 이라는 피처는 for col 반복문 에서 처음 생겼는데 C_train[col] 변수에 담을 transform(c_train[col])의 피처 col은 어디서 생겨난지 모르겟어서요.. 반복문 처음에 col로 피처를 생성한거를 c_train[col]이라고 명시하는 순간 col 칼럼이 생기면서 그 값을 알아서 가져오는 건가요???
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫인코딩
원래 원핫인코딩은 범주형 변수에만 적용가능하지 않나요? 강사님께서는 굳이 수치형과 범주형을 나누지 않고 train = pd.get_dummies(train), test = pd.get_dummies(test)하셨는데 이렇게 굳이 나누지 않고 원핫인코딩을 적용해도 괜찮나요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4-3 작업형1 모의문제3의 문제7번 문의드립니다
df = pd.read_csv("data.csv", index_col="Unnamed: 0")# your codedf=df.T df.head() #print(df[2001].mean()) a=sum(df[2001]>df[2001].mean()) #print(df[2003].mean()) b=sum(df[2003]<df[2003].mean()) print(a+b) 이렇게 풀어도 괜찮은걸까요??