묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
concat 으로 합쳐서 인코딩하는건 실전에서 안하나요?
유니크 확인하고 합쳐서 인코딩하고 인덱싱하는 방식은 어떨 때 사용하는 건가요?첫 번째 문제는 확인 과정도 없는 거 같아서 헷갈리네요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
8회 작업형1 문제3 질문
min_co = df['co'].min() max_co = df['co'].max() df['co'] = (df['co'] - min_co) / (max_co - min_co) min_nmhc = df['nmhc'].min() max_nmhc = df['nmhc'].max() df['nmhc'] = (df['nmhc'] - min_nmhc) / (max_nmhc - min_nmhc) std_co = df['co'].std() std_nmhc = df['nmhc'].std() round(std_co - std_nmhc, 3)제가 MinMaxScaler라는 것의 존재를 아예 까먹고 있었어서 이런 식으로 박치기(?)해서 문제를 풀었는데, 혹시 실제 시험문제에서도 코랩에서의 설명처럼 "Min-Max 스케일링 = (X - min_X) / (max_X - min_X)" 이 설명이 주어졌나요?시험에서도 이런 설명이 주어진다면 어떻게든 풀어낼 것 같은데, 주어지지 않는다면 이런 스케일링 기법같은 것들을 미리 외워놓는 게 좋을 것 같아서 여쭤봅니다!감사합니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2번 푸는 것에있어서
전처리부분은 어떻게 나올지 모르겠지만 여태까지 난이도로나온다면 (결측치는 나오는대로 한다고 가정하겠습니다)강의를 다보고 연습문제도 다해보았습니다 작업형3도 다돌려보았고 작업형1이 잘 안되어서 남은시간동안 작업형1에 집중해보려고 여쭙니다 이정도 치면 40점을 맞을 수 있다고생각하는데 어떻게 생각하실까요?ㅠ (타겟값분리)target=train.pop('종속변수')(데이터합쳐서 원핫인코딩 후 분해)n1=len(train) df=pd.concat([train,test])df=pd.get_dummies(df)train=df.iloc[:n1]test=df.iloc[n1:]데이터분할from sklearn.model_selection import train_test_splitX_tr,X_val,y_tr,y_val=import train_test_split(train,target,test_size=0.2,random_state=0)X_tr.shape,X_val.shape,y_tr.shape,y_val.shape#평가지표 from sklearn.metrics import root_mean_squared_error # f1_score , roc_auc_score 등등나오는대로 #랜덤포레스트from sklearn.ensemble import RandomForestClassifier # 분류#from sklearn.ensemble import RandomForestRegressor #회귀rf=RandomForestClassifier()rf.fit(X_tr,y_tr)pred=rf.predict(X_val)print(root_mean_squared_error(y_val,pred) # macro일때는 average='macro'#lightgbmimport lightgbm import lgblgb=lgb.LGBMClassifier(random_state=0,verbose=-1) # 회귀면 Regressorlgb.fit(X_tr,y_tr)pred=lgb.predict(X_val)print(root_mean_squared_error(y_val,pred) test예측pred=rf.predict(test) #rf와lgbm중 선택submit=pd.DataFrame({'pred':pred)} # roc_auc인경우 pred[,:1]submit.to_csv('result.csv',index=False)print(pd.read_csv('result.csv'))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 3 대응표본 많이 헷갈립니다다
안녕하세요 챗지피티때문에 헷갈리는데 정리 한 번만 부탁드려요그냥 df['after'],df['before']로 쓰면ud = after-before(앞-뒤)이 되는거고 stat.ttest_rel(df['before'],df['after'],alternative='less')를 쓰면ud = before-after(앞-뒤)가 되는 것이죠??ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2
궁금한 점이 몇가지 있는데 만약 작업형 2에서 EDA에서 info를 해봤을때 object 컬럼이 없다면 인코딩을 진행 안하는것이 맞을까요? 2. 평가 과정에서 precision과 recall은 해보지 않았던것 같은데 불러올때 from sklearn.metrics import precision_score from sklearn.metrics import recall_score 이렇게 불러온다음 나머지 과정은 accuracy와 동일하게 진행해주면 될까요? 감사합니다.
-
미해결[리뉴얼] 처음하는 파이썬 머신러닝 부트캠프 (쉽게! 실제 캐글 문제 풀며 정리하기) [데이터분석/과학 Part2]
Ascii 에러 관련하여 질문드립니다
안녕하세요. 강의를 수강하면서 한 가지 오류가 반복적으로 발생하여 질문드립니다.현재 아래 코드를 실행하는 과정에서 문제가 발생하고 있습니다.score = cross_val_score(knn, X_train, y_train.values.ravel(), cv=k_fold, n_jobs=-1, scoring='accuracy')print(score)셀을 실행하면 다음과 같은 오류 메시지가 지속적으로 출력됩니다.UnicodeEncodeError: 'ascii' codec can't encode characters in position 18-20: ordinal not in range(128)이 오류는 예전에도 Jupyter Notebook을 사용할 때 동일하게 발생하여 해결에 어려움을 겪었고, 이번 강의를 따라가는 과정에서도 같은 문제가 반복되고 있습니다.구글링과 GPT 등을 통해 여러 해결 방법을 시도해보았으나, 환경 변수 설정, 터미널 인코딩 변경, 관련 코드 수정 등 어떤 방법도 효과가 없었습니다. (제가 방법을 잘못 이해한 것일 수도 있습니다.) 혹시 이 문제가 발생하는 원인과 해결 방법에 대해 조언을 주실 수 있을까요?항상 좋은 강의 제공해주셔서 감사드립니다. - 강의 영상에 대한 질문이 있으시면, 상세히 문의를 작성해주시면, 주말/휴일 제외, 2~3일 내에 답변드립니다 (이외의 문의는 평생 강의이므로 양해를 부탁드립니다.)- 강의 답변이 도움이 안되셨다면, dream@fun-coding.org 로 메일 주시면 24시간 내에 재검토하겠습니다.- 괜찮으시면 질문전에 챗GPT 와 구글 검색을 꼭 활용해보세요~- 잠깐! 인프런 서비스 운영(다운로드 방법포함) 관련 문의는 1:1 문의하기를 이용해주세요.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
Section 3. 항공권 가격 예측 질문
# 컬럼 삭제 train = train.drop('flight', axis=1) test = test.drop('flight', axis=1) 안녕하세요 선생님! 고생많으십니다!한번씩 train.pop을 진행하고 난 후에 컬럼을 하나씩 drop하는 경우가 있던데 이런건 어떻게 판단해서 진행을 해야할까요?
-
미해결[리뉴얼] 처음하는 파이썬 머신러닝 부트캠프 (쉽게! 실제 캐글 문제 풀며 정리하기) [데이터분석/과학 Part2]
고차원 데이터 질문
안녕하세요. 정말 좋은 강의 잘 듣고 있습니다:)문득, 강의를 듣다가 궁금한 점이 생겨 질문 남깁니다.현재 실습으로 진행하고 있는 타이타닉 데이터 같은 경우에는 컬럼 값이 많지 않은 데이터로 EDA 분석 후에 feature engineering, 모델링, 예측 순으로 진행하게 되는데 만약 컬럼 값이 수백개 또는 수천개 정도의 고차원 데이터 같은 경우에는 각각의 컬럼과 타겟변수와의 관계, 컬럼과 컬럼과의 연관성 등 EDA를 진행하기에는 어려움이 있지 않을까하는 의문점이 들었습니다.이런 고차원 데이터의 경우에는 PCA와 같은 차원축소 기법을 먼저 적용하여 컬럼의 수를 줄인 후에 EDA를 진행하는 것이 맞는건지 질문드립니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
ols와 logit 에서 숫자 범주형 독립변수
선생님, 분산분석과 회귀모형에서 ols()나 logit() 입력할 때 , 숫자로 이뤄진 범주형 독립변수 앞에는 C를 붙여서 입력하는 것으로 알고 있는데 10회 기출 1번 overtime 변수에 C를 붙이지 않은 이유가 무엇인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4회 기출 유형(작업형2)
왜 저는 원핫인코딩할떄 bool로나오죠? 이번 한번이 아니라 전에도 강의에서는 int로 나오던데 왜 저만 bool로나오는지 이해가안가더라구요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
결측치가 있는 조건 하에 pop 함수 사용
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요, 기출(작업형2) 한 가지 방법으로 풀기 듣다가 기출 유형에는 결측치가 있는 경우가 없었어서 질문드립니다. 기출에서는 타겟이 범주형 자료일 때를 감안하여 전처리 전에target =train.pop('타겟컬럼') 을 입력하고이후 에 원-핫 인코딩 진행 하는걸 추천한다 하셨는데요, 만약 결측치가 존재하여 전처리 과정에 결측치 처리가 추가된다면 이때도 pop 함수를 먼저 사용한 후에 결측치 처리를 해야하나요?? pop 함수가 시험 환경의 train 데이터를 x_train ,y_ train 으로 나눠주는 것과 같은 기능을 하는 것으로 이해했는데만약 train data 와 target column data 둘 다에 결측치가 있다면 먼저 결측치를 처리한다음에 pop 함수 처리를 하는게 맞지 않나요???
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
홀수행과 짝수행
여기 문제들처럼 홀수행, 짝수행별로 값이 필요할때 사용할수 있는 함수는 따로 없을까요? unstack을 사용하거나 조건을 만들어 사용해서 구하는 방법밖엔 없을까요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2유형 질문합니다.
안녕하세요 강사님! 작업형2유형 질문이 있어서 글 남깁니다. pd.get_dummies 함수를 사용하면 컬럼수가 10개인것이 200개, 300개로 증가하는 경우가 있습니다. 문제가 없는건지 궁금합니다! concat 함수 말고test = test.reindex(columns = train.columns, fill_value =0) 으로 train컬럼수와 test 컬럼수를 일치시켜도되는걸까요? 그리고 전처리 후 학습 및 평가를 할때 강사님께서는 train 데이터를 두개로 분리해서 80%로만 학습시키고, 20%로 예측 후 평가하시는 걸로 알고 있습니다. 이후 test 데이터를 예측할 때는 train 데이터 80% 학습한 모델을 통해 예측하는 걸로 이해했습니다.만약 train 데이터 분리와 평가과정을 건너뛴다면, train 데이터 전체로 학습하고 test 데이터를 예측하는건데, 이부분은 상관이 없는걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 타이타닉
혹시 실제 시험문제가 다 이런식으로 세팅되어서 이에 맞게 풀라고 되어있나요? 오히려 처음부터 작성하면 괜찮은데 이런 세팅이 있으니까 너무 헷갈려서요..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
concat
concat해서 train과test를 나누는 경우는 어떤 경우인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
y를 pop
from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train.drop('output', axis=1), train['output'], test_size=0.15, random_state=2022)이런식으로 안 하고 전처리 과정에서 y = train.pop으로 해도 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
평가지표 차이..
이렇게 오류가 나는데 rmsle는 사용이 안 되는데 어떻게 하나요 r2는 큰게 좋다고 하시고 나머지는 작아야 좋다고 했는데 이렇게 나오는 경우 어떻게 하나요?3. linearRegresssion은 random_state가 불가능인가요? 제공해주신 노트에는 다 랜덤값이 고정되있지 않읃데 0으로 고정하는게 맞는 거죠?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
검증 데이터 분리
안녕하세요.작업형2 검증 데이터 분리 부분에서 radom_state에 아무 값이나 넣어도 되는 것 맞나요? 예를 '작업형2모의문제2' 강의에서 선생님은 2022를 넣으셨고 저는 2025를 넣었는데 마지막 print(r2_score(y_test, pred))확인 부분에서 차이가 많이 나는 것 같아서요(선생님 코드에서 결과: -0.03400981426239014제가 실행한 결과:-0.013191699981689453)
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
레이블인코딩 or column삭제 둘을 어떤 기준으로 선택해야 하나요
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
결측치 처리 시
삭제할지 다른 값으로 채울지 어떻게 결정하나요? 보통 문자이고 수가 많으면 삭제하는 게 더 나을까요?수는 웬만하면 삭제보단 채우는 게 나을까요?