묻고 답해요
164만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
안녕하세요, 라벨 인코딩 후 train 전체 데이터를 학습에 사용하는 것이 적절한지 궁금하여 질문드립니다.
1)혹시 현재 범주형 컬럼에 대해 라벨인코딩 한 후, 인코딩한 컬럼만 따로 학습에 사용하는 것이 아니라, 수치형 컬럼과 함께 전체 데이터(총 10개 컬럼)를 모델에 넣어 학습했습니다. 이때 오히려 성능이 더 잘 나왔는데, 이런 방식이 괜찮은지 확인 받고 싶습니다.from sklearn.preprocessing import LabelEncodercols = list(train.select_dtypes(include = 'O'))for col in cols: le = LabelEncoder() train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col]) 이후 전체 데이터를 사용해 모델 학습을 진행했습니다.X_train, X_val, y_train, y_val = train_test_split(train.drop('성별',axis=1), train['성별'], test_size = 0.2, random_state = 0) print(X_train.shape, X_val.shape, y_train.shape, y_val.shape) #(2800, 10) (700, 10) (2800,) (700,) 범주형데이터 인코딩한 상태로 10개 컬럼 그대로 가지고 학습 from sklearn.ensemble import RandomForestClassifierfrom sklearn.metrics import roc_auc_scorerf = RandomForestClassifier(random_state = 0, max_depth =5)rf.fit(X_train,y_train)rf_predpro = rf.predict_proba(X_val)rf_rocauc = roc_auc_score(y_val,rf_predpro[:,1]) print(rf_rocauc) # train data 전체 데이터 사용 시 약 0.63, 범주형 컬럼 두 개만 썼을 때는 약 0.60 감사합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 제출에 대해 질문 있습니다
안녕하세요. 퇴근 후 딴짓 교재도 같이 공부를 하고 있습니다!혹시 작업형2에서 연습문제에서 코딩을 할 때마다 ‘베이스라인’파트와 ‘심화’ 파트가 있는데 시험 볼 때 ‘베이스라인’과 ‘심화’파트 모두 제출해야 하나요..? ‘베이스라인’도 조금 벅차서 시험 볼 때 ‘베이스라인‘ 코드만 제출할 수 있나 해서요..
-
미해결AI 이해를 위한 파이썬 기초
3강 21분 실습 오류..
a=3 b=5 print(a+b) print(type(a))죄송합니다. Python용 IntelliCode 지원을 활성화하는 동안 문제가 발생했습니다. 자세한 내용은 "Python" 및 "VS IntelliCode" 출력 창을 확인하세요. 라는 메세지가 뜨면서 안되는데 왜 그럴까요..
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
rmse함수?
mse값을 구하는 기능만 지원해서 rmse를 구하려면 넘파이를 불러와야한다고 하셨고 함수로 만들어두고 시작하시는데 혹시 함수를 꼭 만들어서 해야하나요? 함수에 만드는게 익숙하진 않아서 ㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 전처리2 (인코딩)
인코딩 전에 target = train.pop('') 이 작업은 꼭 인코딩 전에 해줘야 하나요? 만약 target 값이 범주형이라면 같이 인코딩을 해줘야하는게 아닌가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 전처리1(결측치, 이상치)
결측치 제거할 때 test는 처리하면 안된다고 하셨는데 다음과 같은 상황들에서 어떻게 처리해야 하나요?1)train, test 둘다 결측치 있는 경우 train만 train = train.dropna()하면 되는지 2) train은 없고 test만 결측치가 있는경우 둘다 안 하면 되는지 3) train만 있고 test는 결측치가 없는 경우 train만 처리하면 되는지
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3회 작업형2 문제 풀이 관련
강사님 풀이를 보면 수치형 데이터와 범주형 데이터를 분리해 전처리 한 후 다시 합치는 과정으로 진행하셨는데 저는 select.dtypes(inclde='object')와 select.dtypes(exclude='object')를 이용해 전처리 후 머신러닝을 진행하였습니다. roc_auc_score로 평가해보니 비슷하게 0.809가 나옵니다. 저는 수치형과 범주형을 따로 분리하고 전처리 하는게 헷갈려서 그런데 저처럼 과정을 진행해도 문제 없는거죠??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
9회 실기 1유형의 근속연수 결측치 부분 - transform
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요df.groupby(['부서','성과등급'])['근속연수'].transform('mean')이라는 코드로 부서와 성과등급 기준 평균값을 구하신 부분에서 질문입니다. df.groupby(['부서','성과등급'])['근속연수'].mean() 위 코드와 같이 transform('mean')과 mean()이 어떤 차이점이 있는지 궁금해요.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
문제 8
결측 값을 가진 데이터는 바로 뒤에 있는 값으로 대체한 후 (바로 뒤가 결측값이라면 뒤에 있는 데이터 중 가장 가까운 값)city와 f2 컬럼 기준으로 그룹합을 계산한 뒤views가 세번째로 큰 city(도시) 이름은?문제를 푸는데.. df = df.fillna(method='bfill')라고 치면 <ipython-input-43-5b45f8741ad5>:7: FutureWarning: DataFrame.fillna with 'method' is deprecated and will raise in a future version. Use obj.ffill() or obj.bfill() instead. df = df.fillna(method='bfill')과 같은 메시지가 뜨네요. 이제 df = df.fillna(method='bfill') 대신 obj.bfill() 라고 쓰는걸 익혀야 하나요? 아니면 당분간은 괜찮을런지요. 늘 감사합니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
수강 일시정지 문의 드립니다.
선생님 안녕하세요!제가 갑자기 이번 실기 시험을 못보게 되어서 이 강의를 올해 2차 시험은 볼 수 있는데, 시간이 지나면 내년 1차 시험에 강의를 못들을 거 같아서 걱정입니다. 두 달 정도 강의를 일시정지 요청드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 7회 - 작업형1 - 1번 문제
안녕하세요.작업형1만 학습한 상태로 문제를 푸느라, 스케일 공식을 따로 불러오지 않고 다음과 같이 풀었습니다. score_mean = df['score'].mean()score_std = df['score'].std()df['score_standard'] = (df['score'] - score_mean) / score_stdresult = round(df['score_standard'].max(), 3)print(result) 위 풀이는 답으로 2.150가 나오는데선생님 풀이와 같은 답(2.183)이 나오려면 std(ddof=0)을 입력해야 합니다.그럼 모표준편차를 구해야 한다는 걸까요? (+ 스케일 공식은 모표준편차를 구하는 공식인 걸까요?)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
train데이터와 test데이터의 분리 후 인코딩? 인코딩 먼저 하고 난 뒤 분리?
분리 후 원핫 인코딩의 경우 train데이터와 test 데이터의 컬럼 갯수가 서로 맞지 않을 경우도 있다고 하셨는데그럼 무조건 두개의 합친 데이터에서 인코딩 먼저 하고 난 뒤에 분리하면 안되는걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
자동 초기화
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요새로 접속할때마다 이전코드를 하나하나 다 실행하기가 귀찮은데 자동으로 하는법 없나요>
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
n-test 민맥스 스케일링은 transform만 하는거라고 하셨는데
n_train이 민맥스 스케일링해서 훈련되면n_test는 그대로 train이 한대로 tranform만 하는것이라고 말씀해주셨는데n_test 데이터들이 n_tarin의 민맥스 스케일링값을 어찌 알고 훈련된대로 값이 부여되는걸까요 #민-맥스 스케일링(MinMaxScaler 모든값이 0과 1사이) from sklearn.preprocessing import MinMaxScaler scaler =MinMaxScaler() display(n_train.head(2)) n_train[cols] = scaler.fit_transform(n_train[cols]) n_test[cols] = sclaer.tranform(n_test[cols])
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
강의 업데이트 관련 문의
안녕하세요!10회 시험 대비 강의 업데이트 관련해서 문의드립니다.기왕이면 업데이트 완료된 강의를 수강하고 싶어서요..! ‘작업형2’의 최종 업데이트 예정일이 어떻게 될까요?‘작업형3’도 업데이트 예정이실까요? 그렇다면 업데이트 일정이 어떻게 될까요?1,2번 문의 외 업데이트 예정인 강의가 또 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
마지막 퀴즈
listbox = [15, 46, 78, 24, 56] def answer(listbox): result = max(listbox) - min(listbox) return result answer(listbox)마지막 퀴즈 문제에서 저렇게 풀어도 문제는 없는건가요 ??저는 함수명을 answer로 설정하고 data 대신 listbox를 바로 받았는데 이렇게 풀어도 문제가 없는지 궁금합니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4회 작업형1
학습 자료가 잘못 올라가진 것 같습니다.이전에 다른 분 질문자의 답변에 자료를 찾지 못하겠네요. 수업 자료 다시 한번 업로드 부탁드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[기출] 6회 - 작업형1 - 문제1
다음과 같이 코드를 작성했는데, 결과값에 .0 이 붙어서 출력됩니다.왜 그런 걸까요? df['출동시간'] = pd.to_datetime(df['출동시간'])df['도착시간'] = pd.to_datetime(df['도착시간'])df['time'] = df['도착시간'] - df['출동시간'] result = df.groupby('소방서')['time'].mean()result = result.sort_values(ascending=False)result = round(result.dt.total_seconds() / 60)# round 함수에 반올림 위치를 명시하지 않으면 정수를 반환해야 하지 않나요?) print(result[0])
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2회 작업형2유형 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요2회 기출문제 작업형2에서 왜 쌤이 한거랑 다르게 결과가 나올까요,,,,,,,,# 검증 데이터 분리아래는 쌤 풀이 입니다((7039, 11), (1760, 11), (7039,), (1760,)) 이건 제가 작성한 코드입니다 from sklearn.model_selection import train_test_splitX_tr,X_val,y_tr,y_val = train_test_split( X_train, y_train['Reached.on.Time_Y.N'], test_size=0.2, random_state=2022 )X_tr.shape, X_val.shape, y_tr.shape, y_val.shape((7039, 10), (1760, 10), (7039,), (1760,))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2유형 이진, 다중, 회귀 구분하는 것 문의
이진, 다중, 회귀의 문제 종류에 따라코드가 달라지는 부분이 있나요? (평가지표 제외)없는 것 같아서 시험 보면서 어떤걸 유의해야하는지 모르겠습니다.