묻고 답해요
158만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3유형질문입니다
대응표본과 독립표본이 정규분포를 따르는지 아닌지에 따라서 문제가 나올 가능성도 있나요?ex) wilcoxon, mannwhitneyu
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
train_test_split는 언제 해야하나요?
항상 답변 감사합니다.어떤 문제는 train_test_split로 나누지 않았고, 5회차 작업형2에서는 나눴는데혹시 어떤 기준인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[]순서..
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요Print 구문에서[cond1]과 [‘views’]의 순서가 왜 이렇게 되는지 궁금합니다.print(df[‘views’][cond1].mean())는 안되나요?[] []이 나열되는 기준이 궁금합니다 ㅠㅠ잘 이해가 안가요… ㅜㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
쌍체표본 ttest_rel 질문입니다.
선생님 안녕하세요, ttest의 검정통계량을 구할 때, 입력된 순서에 따라 양수가 나오는경우와 음수가 나오는 경우가 있어 혼동이 되어 질문드립니다.stats.ttest_rel(A,B, alternative = 'less') 와 stats.ttest_rel(B,A, alternative = 'greater')을 같은 의미로 볼 수 있을까요? A와 B의 순서를 바꿔주고 alternative값을 반대로 바꿔준 경우입니다.이럴경우, t-score가 양수/음수값으로 나누어서 출력되는데, 어떤것이 맞는것인지 질문 드릴 수 있을까요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
슬라이싱 관련
슬라이싱 관련 궁금한 점이 생겼는데요언제 iloc, loc를 사용하는 것일까요?열을 선택할 때 쓰는 것이라고 생각해왔었는데pred_proba에서 1일 확률을 선택할 때 iloc를 안 쓰더라구요...model = lgb.LGBMClassifier() model.fit(X_tr, y_tr) pred_proba = model.predict_proba(X_val) pred = model.predict(X_val) print(roc_auc_score(y_val, pred_proba[:,1])) print(accuracy_score(y_val, pred)) print(f1_score(y_val, pred)) submit = pd.DataFrame({ 'id' : id, 'output' : pred_proba[:,1] }) submit.head()
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
타이타닉 작업형2 오류 질문입니다.
안녕하세요 강사님 타이타닉 작업형2 코드를 작성하던 중 발생한 오류는 아래와 같습니다.즉, X_train 컬럼 수와 X_test 컬럼 수가 달라 발생한 문제라고 인지하였습니다. 이를 해결하기 위해 강사님 코드를 참고하여 다른 점은 원핫 인코딩 대상 컬럼에 차이가 있었습니다. 저는 원핫 인코딩을 아래와 같이 작성하였으나,'Ticket', 'Cabin', 'Embarked' 컬럼을 지우니 문제가 해결되었습니다.'Ticket', 'Cabin', 'Embarked' 컬럼은 범주형 변수인데 원핫인코딩을 하지않고 넘어가는 이유와 위의 변수를 포함하여 원핫인코딩 했을 때 어떠한 이유로 오류가 발생하는지 질문드립니다.. 매번 친절히 답변해주셔서 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2번 model.fit 적용 문의
안녕하세요!!작업형 2번 공부하다가 문득 궁금증이 생겨 문의드립니다.model_selection의 train_test_split 이후 (X_train, y_train => X_tr, X_val, y_tr, y_val)RF, Lightgbm, Xgboost 등 여러 모델 테스트 후, 가장 성능 좋은 모델을 선정하여pred= model.predict(X_test)이렇게 결과물을 도출하는 과정에서요. 검증단계에서 model.fit(X_tr, y_tr) 이렇게 학습을 진행한 것을 바로 X_test에 predict를 하는데검증자료로 분할한 X_tr, y_tr이 아닌, 전체 X_train, y_train으로model.fit(X_train, y_train) 후에 pred= model.predict(X_test) 를 하면 결과가 더 좋을까요? 조금 더 성능을 높일 수 있는 방법인지 궁금해서 문의드립니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4회 기출유형 작업형1 2번문제
안녕하세요~ 데이터의 개수를 구할때 len과 sum의 차이가 궁금합니다 ㅠㅠ 예를들어 4회 기출유형 작업형1의 2번문제와 같은경우 문제 : (loves반응+wows반응)/(reactions반응) 비율이 0.4보다 크고 0.5보다 작으면서, type 컬럼이 'video'인 데이터의 갯수이고,최종 데이터 개수를 구할때 len 함수를 사용했습니다. 코드 : cond1 =(df['loves'] + df['wows'])/df['reactions'] > 0.4cond2 =(df['loves'] + df['wows'])/df['reactions'] < 0.5cond3 = df['type'] =="video"len(df[cond1 & cond2 & cond3])sum으로는 왜 안되는걸까요? ㅠㅠ 예시는 없지만 작업형1 유형에서 다른 문제는 데이터 개수를 구할때 sum을 사용한적도 있던것 같아서 문의드립니다.
-
미해결딥러닝 CNN 완벽 가이드 - TFKeras 버전
model.evaluation 진행시 loss 문의
안녕하세요.유익한 강의 항상 감사합니다.모델을 Train/Vaild 한 후, 낮은 Loss값(0에 가까운)과 높은 Accuracy 값이 나와서 Train이 잘 되었구나 라고 생각했는데요.model.evaluation을 진행해보니 생각보다 높은 Loss와 상대적으로 Train때 보다 낮은 Accuracy가 나왔습니다.108/108 [==============================] - 15s 134ms/step - loss: 2.5198 - accuracy: 0.7227loss가 저렇게 높을 수도 있나요? Train 진행시 첫번째 Epoch에서도 loss가 높듯이 model.evaluation 첫번째 epoch(?)에서도 loss가 높은걸까요? 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
음수값 처리는 어떻게 하나요?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 3000개 이상의 train 데이터에 대해 EDA할때 describe 함수를 통해 가격(음수가 있으면 안되는) 컬럼에서 - 값이 일부 있다는 것을 발견하면어떻게 이를 처리하는 것이 좋은지 그 방법, 함수를 알려주시면 감사하겠습니다!아예 그 행을 삭제하는 것, 음수값을 어떻게 대체할 수있는지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
모의고사 풀어보기2 관련 질문드립니다~!
안녕하세요! 모의고사 풀어보기2에서 시험환경 체험링크를 통해 하이퍼 파라미터 튜닝 했을때 하기와 같은 에러가 나와 문의드립니다. 그냥 n_estimators 만 썼을때는 나오지 않았던 에러라 뭔가 제가 잘못 코딩한 부분이 있는 것인지 아니면 시험환경에서도 learning_rate 에러가 뜰 수 있는지 문의드립니다. 항상 깔끔한 강의내용 정말 감사드립니다! 코딩내용 : from sklearn.ensemble import RandomForestClassifiermodel=RandomForestClassifier(random_state=2023,n_estimators=200,learning_rate=0.05)model.fit(X_tr,y_tr)pred_ex=model.predict(X_val)에러내용 : TypeError: init() got an unexpected keyword argument 'learning_rate'
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
roc_auc_score
이진 분류 문제가 아닐 때, roc_auc_score에 파라미터 multi_class = 'ovr'사용해도 되나용?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형3 회귀모형 삭제 예정이라고 기재해주셨는데요,
작업형3 회귀모형 삭제 예정이라고 기재해주셨는데요,삭제 예정인 이유와, 해당 모형이 시험에 출제 확률이 적어서 삭제 예정이신걸까요..?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
cut함수 describe결과의 ( ] 질문드립니다
질문이 약간 핑프스러워서 죄송합니다 ㅠcut 함수 리턴값의 describe 결과에 구간 표시 질문드립니다 예를 들어 (5, 12] 라고 하면 5 <= 구간 < 12 의 의미인지 궁금합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터프레임과 시리즈 차이
파이썬 내장함수 사용 시타입이 데이터프레임이냐 시리즈내에 따라서 사용가능한 함수가 다른 건가요? ex) drop 함수는 데이터프레임만 가능하고, fillna함수는 시리즈만 가능한지?df = df.dropna(subset=['qsec'])df['qsec'] = df['qsec'].fillna(0)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의문제3 질문있습니다!
안녕하세요. 작업형2 모의문제3(에어비엔비 가격)을 직접 풀었을 아래와 같이 입력했습니다.저는 minmax_scale을 사용했고, 선생님께서 입력하신 결과와 비교를 하는데 사용하지 않았다는 것을 알게되었고 결과값도 다르게 나왔습니다.작업형 2유형 문제를 풀때마다 스케일링을 적용하고 있는데, minmax스케일을 하는 경우와 사용하지 않는 경우가 따로 있나요? 있다면 어떻게 구분할 수 있는지 궁금합니다. 그리고 위 문제에서 적용 안하신 자세한 이유도 궁금합니다.감사합니다! import pandas as pd train = pd.read_csv('train.csv') test = pd.read_csv('test.csv') # print(train.head()) # print(test.head()) # print(train.info()) # print(test.info()) train = train.drop(columns = 'id') test_id = test.pop('id') train = train.drop(columns = 'name') test = test.drop(columns = 'name') train = train.drop(columns = 'host_id') test = test.drop(columns = 'host_id') train = train.drop(columns = 'host_name') test = test.drop(columns = 'host_name') train = train.drop(columns = 'neighbourhood') test = test.drop(columns = 'neighbourhood') train = train.drop(columns = 'neighbourhood_group') test = test.drop(columns = 'neighbourhood_group') train = train.drop(columns = 'last_review') test = test.drop(columns = 'last_review') # print(train.info()) # print(test.info()) # print(train.isnull().sum()) # print(test.isnull().sum()) #last_review, reviews_per_month train['reviews_per_month'] = train['reviews_per_month'].fillna(0) test['reviews_per_month'] = test['reviews_per_month'].fillna(0) # print(train.isnull().sum()) # print(test.isnull().sum()) # print(train.info()) room_type,last_review # print(test.info()) from sklearn.preprocessing import LabelEncoder cols = train.select_dtypes(include = 'object').columns for col in cols: encoder = LabelEncoder() train[col] = encoder.fit_transform(train[col]) test[col] = encoder.transform(test[col]) # print(train.describe()) # print(test.describe()) from sklearn.preprocessing import minmax_scale cols2 = train.select_dtypes(exclude = 'object').columns for col in cols2: train[col] = minmax_scale(train[col]) cols3 = test.select_dtypes(exclude = 'object').columns for col in cols3: test[col] = minmax_scale(test[col]) # print(train.describe()) # print(test.describe()) # print(train.info()) # print(test.info()) from sklearn.model_selection import train_test_split X_train, X_val, y_train, y_val = train_test_split(train.drop('price', axis = 1), train['price'], test_size=0.2, random_state = 20) from sklearn.ensemble import RandomForestRegressor rf = RandomForestRegressor() rf.fit(X_train, y_train) pred_val = rf.predict(X_val) from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score # print(mean_squared_error(y_val, pred_val)) # print(mean_absolute_error(y_val, pred_val)) # print(r2_score(y_val, pred_val)) pred = rf.predict(test) pd.DataFrame({'id': test_id, 'price': pred}).to_csv('5959.csv', index=False)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
수치형 변수 스케일링 하기
안녕하세요.강의 잘 듣고 있습니다. 작업형 2 문제에서 피처엔지니어링 할 때범주형 변수는 모두 원핫 / 라벨인코딩을 하면 되는데수치형 변수는 어떤 칼럼을 스케일링하면 되는지....표준편차가 튀는 칼럼만 민맥/스태다드 스캘링을 하면 되는지...강사님만의 구분법이 있나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
왜 오류가 나는지 모르겠습니다!
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요MinMaxScaler에는 fit_transform 이 아닌가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험 시 최종 제출 형태에 관해 질문 있습니다!
시험 시 최종적으로 제출해야 하는 형태가 작업형 1 : print문을 통해 나온 출력 값작업형 2 : csv파일작업형 3 : 답 입력하는 칸에 따로 출력 값 입력이렇게 제출하는 것으로 알고 있습니다!이 때, 작업형 2의 경우 print문을 통해 평가 점수를 출력해보게 되는데, 따로 지우지는 않아도 문제가 되지 않는지 궁금합니다. (csv파일만 제대로 제출되면 그 외 다른 것들이 출력되어도 상관없는지, 또는 print문을 지워서 문제가 되지는 않는지 궁금합니다.)또 작업형 3도 마찬가지로 print문을 통해 검정통계량값이나 p값 등의 숫자를 출력하게 되는데, 답 입력란에만 제대로 입력하면 따로 print문을 지워서 문제가 되거나, 지우지 않아서 문제가 되는 것은 아닌지 궁금합니다.시험이 다가와 긴장되다 보니 사소한 것들도 괜히 질문하게 되는 것 같아요🥲 그래도 선생님 덕분에 많이 걱정되지는 않는 것 같습니다. 항상 감사합니다 :)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4회 기출 유형(작업형2) 문제 풀이 과정 중에 질문드립니다.
안녕하세요!4회 기출 유형(작업형2) 문제 풀이 과정 중에 에러가 발생하여 질문 드립니다.이전까지 하던 대로 train_test_split을 통해 데이터를 분리해서 진행을 하였는데요from sklearn.model_selection import train_test_split x_tr, x_val, y_tr, y_val = train_test_split(train.drop('Segmentation', axis = 1), train['Segmentation'], test_size = 0.1, random_state = 2023) x_tr.shape, x_val.shape, y_tr.shape, y_val.shapefrom sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier(n_estimators = 400, max_depth = 9, random_state = 2023) rf.fit(x_tr, y_tr) pred = rf.predict_proba(x_val)from sklearn.metrics import roc_auc_score roc_auc_score(y_val, pred, multi_class = 'ovo')pred = rf.predict_proba(test)submit = pd.DataFrame( { 'ID' : test_id, 'Segmentation': pred }) ValueError: Per-column arrays must each be 1-dimensional위와 같은 에러 메시지가 뜹니다!이리 저리 만져봐도 잘 모르겠네요 ㅠㅠ 어떻게 하면 될까요?