묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 7회 작업형3 문제1-3 질문
model = logit('gender ~ weight', data=train).fit() pred = model.predict(test) from sklearn.metrics import accuracy_score score = accuracy_score(pred, test['gender']) print(1-score)이 코드를 실행하면 ValueError: Classification metrics can't handle a mix of continuous and binary targets 이렇게 연속된 값과 이진분류를 혼용했다는 오류가 뜨는데,model = LogisticRegression() model.fit(X_train, y_train) # 3) 테스트 데이터를 사용해 예측 pred = model.predict(X_test) # 4) 실제 값과 예측값을 사용하여 정확도 계산 acc = accuracy_score(y_test, pred) # 5) 오류율 계산 print(round(1 - acc, 3))강사님의 두번째 풀이 코드(위 코드)를 실행하면 아무런 문제가 없어서, 두 코드 전부 accuracy_score에 실제 값과 예측값을 넣어주었음에도 실행 결과가 차이가 나는 이유가 궁금합니다.혹시 LogisticRegression()으로 모델을 생성하면 결과가 0,1의 이진값으로 나오고, logit()으로 모델을 생성하면 결과가 0과 1 사이의 확률값으로 나와서, 모델 생성에 logit()을 사용했다면 accuracy score를 구해야 하는 경우 확률값이 0.5보다 큰지 작은지를 구분하는 후처리를 해줘야 하는 것인 걸까요?감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
IQR(사분위 범위)을 이용한 이상치(Outlier) 탐지
시험에서 '사분위 범위를 이용해서 이상치를 구하라'는 문제가 나올경우 대체로 Q1 - 1.5*IQR보다 작거나 Q3 + 1.5*IQR보다 큰 값 이라는 것을 명시해주는지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
concat 으로 합쳐서 인코딩하는건 실전에서 안하나요?
유니크 확인하고 합쳐서 인코딩하고 인덱싱하는 방식은 어떨 때 사용하는 건가요?첫 번째 문제는 확인 과정도 없는 거 같아서 헷갈리네요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
8회 작업형1 문제3 질문
min_co = df['co'].min() max_co = df['co'].max() df['co'] = (df['co'] - min_co) / (max_co - min_co) min_nmhc = df['nmhc'].min() max_nmhc = df['nmhc'].max() df['nmhc'] = (df['nmhc'] - min_nmhc) / (max_nmhc - min_nmhc) std_co = df['co'].std() std_nmhc = df['nmhc'].std() round(std_co - std_nmhc, 3)제가 MinMaxScaler라는 것의 존재를 아예 까먹고 있었어서 이런 식으로 박치기(?)해서 문제를 풀었는데, 혹시 실제 시험문제에서도 코랩에서의 설명처럼 "Min-Max 스케일링 = (X - min_X) / (max_X - min_X)" 이 설명이 주어졌나요?시험에서도 이런 설명이 주어진다면 어떻게든 풀어낼 것 같은데, 주어지지 않는다면 이런 스케일링 기법같은 것들을 미리 외워놓는 게 좋을 것 같아서 여쭤봅니다!감사합니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2번 푸는 것에있어서
전처리부분은 어떻게 나올지 모르겠지만 여태까지 난이도로나온다면 (결측치는 나오는대로 한다고 가정하겠습니다)강의를 다보고 연습문제도 다해보았습니다 작업형3도 다돌려보았고 작업형1이 잘 안되어서 남은시간동안 작업형1에 집중해보려고 여쭙니다 이정도 치면 40점을 맞을 수 있다고생각하는데 어떻게 생각하실까요?ㅠ (타겟값분리)target=train.pop('종속변수')(데이터합쳐서 원핫인코딩 후 분해)n1=len(train) df=pd.concat([train,test])df=pd.get_dummies(df)train=df.iloc[:n1]test=df.iloc[n1:]데이터분할from sklearn.model_selection import train_test_splitX_tr,X_val,y_tr,y_val=import train_test_split(train,target,test_size=0.2,random_state=0)X_tr.shape,X_val.shape,y_tr.shape,y_val.shape#평가지표 from sklearn.metrics import root_mean_squared_error # f1_score , roc_auc_score 등등나오는대로 #랜덤포레스트from sklearn.ensemble import RandomForestClassifier # 분류#from sklearn.ensemble import RandomForestRegressor #회귀rf=RandomForestClassifier()rf.fit(X_tr,y_tr)pred=rf.predict(X_val)print(root_mean_squared_error(y_val,pred) # macro일때는 average='macro'#lightgbmimport lightgbm import lgblgb=lgb.LGBMClassifier(random_state=0,verbose=-1) # 회귀면 Regressorlgb.fit(X_tr,y_tr)pred=lgb.predict(X_val)print(root_mean_squared_error(y_val,pred) test예측pred=rf.predict(test) #rf와lgbm중 선택submit=pd.DataFrame({'pred':pred)} # roc_auc인경우 pred[,:1]submit.to_csv('result.csv',index=False)print(pd.read_csv('result.csv'))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 3 대응표본 많이 헷갈립니다다
안녕하세요 챗지피티때문에 헷갈리는데 정리 한 번만 부탁드려요그냥 df['after'],df['before']로 쓰면ud = after-before(앞-뒤)이 되는거고 stat.ttest_rel(df['before'],df['after'],alternative='less')를 쓰면ud = before-after(앞-뒤)가 되는 것이죠??ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2
궁금한 점이 몇가지 있는데 만약 작업형 2에서 EDA에서 info를 해봤을때 object 컬럼이 없다면 인코딩을 진행 안하는것이 맞을까요? 2. 평가 과정에서 precision과 recall은 해보지 않았던것 같은데 불러올때 from sklearn.metrics import precision_score from sklearn.metrics import recall_score 이렇게 불러온다음 나머지 과정은 accuracy와 동일하게 진행해주면 될까요? 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
Section 3. 항공권 가격 예측 질문
# 컬럼 삭제 train = train.drop('flight', axis=1) test = test.drop('flight', axis=1) 안녕하세요 선생님! 고생많으십니다!한번씩 train.pop을 진행하고 난 후에 컬럼을 하나씩 drop하는 경우가 있던데 이런건 어떻게 판단해서 진행을 해야할까요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
ols와 logit 에서 숫자 범주형 독립변수
선생님, 분산분석과 회귀모형에서 ols()나 logit() 입력할 때 , 숫자로 이뤄진 범주형 독립변수 앞에는 C를 붙여서 입력하는 것으로 알고 있는데 10회 기출 1번 overtime 변수에 C를 붙이지 않은 이유가 무엇인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4회 기출 유형(작업형2)
왜 저는 원핫인코딩할떄 bool로나오죠? 이번 한번이 아니라 전에도 강의에서는 int로 나오던데 왜 저만 bool로나오는지 이해가안가더라구요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
결측치가 있는 조건 하에 pop 함수 사용
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요, 기출(작업형2) 한 가지 방법으로 풀기 듣다가 기출 유형에는 결측치가 있는 경우가 없었어서 질문드립니다. 기출에서는 타겟이 범주형 자료일 때를 감안하여 전처리 전에target =train.pop('타겟컬럼') 을 입력하고이후 에 원-핫 인코딩 진행 하는걸 추천한다 하셨는데요, 만약 결측치가 존재하여 전처리 과정에 결측치 처리가 추가된다면 이때도 pop 함수를 먼저 사용한 후에 결측치 처리를 해야하나요?? pop 함수가 시험 환경의 train 데이터를 x_train ,y_ train 으로 나눠주는 것과 같은 기능을 하는 것으로 이해했는데만약 train data 와 target column data 둘 다에 결측치가 있다면 먼저 결측치를 처리한다음에 pop 함수 처리를 하는게 맞지 않나요???
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
홀수행과 짝수행
여기 문제들처럼 홀수행, 짝수행별로 값이 필요할때 사용할수 있는 함수는 따로 없을까요? unstack을 사용하거나 조건을 만들어 사용해서 구하는 방법밖엔 없을까요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2유형 질문합니다.
안녕하세요 강사님! 작업형2유형 질문이 있어서 글 남깁니다. pd.get_dummies 함수를 사용하면 컬럼수가 10개인것이 200개, 300개로 증가하는 경우가 있습니다. 문제가 없는건지 궁금합니다! concat 함수 말고test = test.reindex(columns = train.columns, fill_value =0) 으로 train컬럼수와 test 컬럼수를 일치시켜도되는걸까요? 그리고 전처리 후 학습 및 평가를 할때 강사님께서는 train 데이터를 두개로 분리해서 80%로만 학습시키고, 20%로 예측 후 평가하시는 걸로 알고 있습니다. 이후 test 데이터를 예측할 때는 train 데이터 80% 학습한 모델을 통해 예측하는 걸로 이해했습니다.만약 train 데이터 분리와 평가과정을 건너뛴다면, train 데이터 전체로 학습하고 test 데이터를 예측하는건데, 이부분은 상관이 없는걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 타이타닉
혹시 실제 시험문제가 다 이런식으로 세팅되어서 이에 맞게 풀라고 되어있나요? 오히려 처음부터 작성하면 괜찮은데 이런 세팅이 있으니까 너무 헷갈려서요..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
concat
concat해서 train과test를 나누는 경우는 어떤 경우인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
y를 pop
from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train.drop('output', axis=1), train['output'], test_size=0.15, random_state=2022)이런식으로 안 하고 전처리 과정에서 y = train.pop으로 해도 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
평가지표 차이..
이렇게 오류가 나는데 rmsle는 사용이 안 되는데 어떻게 하나요 r2는 큰게 좋다고 하시고 나머지는 작아야 좋다고 했는데 이렇게 나오는 경우 어떻게 하나요?3. linearRegresssion은 random_state가 불가능인가요? 제공해주신 노트에는 다 랜덤값이 고정되있지 않읃데 0으로 고정하는게 맞는 거죠?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
검증 데이터 분리
안녕하세요.작업형2 검증 데이터 분리 부분에서 radom_state에 아무 값이나 넣어도 되는 것 맞나요? 예를 '작업형2모의문제2' 강의에서 선생님은 2022를 넣으셨고 저는 2025를 넣었는데 마지막 print(r2_score(y_test, pred))확인 부분에서 차이가 많이 나는 것 같아서요(선생님 코드에서 결과: -0.03400981426239014제가 실행한 결과:-0.013191699981689453)
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
레이블인코딩 or column삭제 둘을 어떤 기준으로 선택해야 하나요
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
결측치 처리 시
삭제할지 다른 값으로 채울지 어떻게 결정하나요? 보통 문자이고 수가 많으면 삭제하는 게 더 나을까요?수는 웬만하면 삭제보단 채우는 게 나을까요?