묻고 답해요
169만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
np_exp를 쓸필요가 없나요?
섹션5 모델링 평가(회귀) 파트입니다 # RandomForestRegressor from sklearn.ensemble import RandomForestRegressor model = RandomForestRegressor() model.fit(X_tr, y_tr) pred = model.predict(X_val) rmse(np.exp(y_val), np.exp(pred)) # 4691.498598226366 베이스라인 # 4722.06683465538 스탠다드스켈러 # 4705.862619729388 민맥스 스켈러 # 4627.730520367604 log
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출2회 2유형 concat
기출 2회는 특이하게, X_train, y_train , X_test 데이터가 있잔하여,, df = pd.concat([x_train, y_train['reached~~']], axis =1)df 로 합치는 이유가 뭔가요? 어차피 df데이터를 따로 활용하는 것도 아니고,, train_test_split 할때도, X_train, y_train 따로 넣어주잖아요,,, 굳이 해야하는 과정인가요?? 분리되어있으면 target = train.pop(['ddd']) 과정을 굳이 안해도 되는 ,, 상황 아닌가요??
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2에서 train, test 합쳐서 인코딩 후 분리하는 부분 질문입니다.
안녕하세요 강사님! [3-4 Feature engineering.ipynb] 파일 복습 중에 # train, test 합쳐서 인코딩 후 분리하기 cols = list(X_train.columns[X_train.dtypes == object]) print(X_train.shape, X_test.shape) all_df = pd.concat([X_train, X_test]) all_df = pd.get_dummies(all_df[cols]) line = int(X_train.shape[0]) X_train = all_df.iloc[:line,:].copy() X_train X_test = all_df.iloc[line:,:].copy() X_test print(X_train.shape, X_test.shape)이부분에서 '원핫인코딩' 대신 '레이블인코딩'을 하면 어떻게 해야될지 의문점이 생겼습니다.레이블 인코딩시에는 train데이터에는 fit_transform() 을 하고 test 데이터에는 transform() 을 하는 것으로 알고 있는데 X_train 데이터와 X_test 데이터를 합쳤을 때는 fit_transform(), transform() 둘 중 어떤 것을 사용하고나서 분리해야되는지 궁금해서 질문 드립니다!아래는 fit_transform()을 이용해서 구현해본 코드입니다.X_train.shape, X_test.shape df = pd.concat([X_train, X_test]) df.select_dtypes(include='O').columns c_cols = ['workclass', 'education', 'marital.status', 'occupation', 'relationship', 'race', 'sex', 'native.country'] df.select_dtypes(exclude='O').columns n_cols = ['age', 'fnlwgt', 'education.num', 'capital.gain', 'capital.loss', 'hours.per.week'] from sklearn.preprocessing import LabelEncoder for col in c_cols: le = LabelEncoder() df[col] = le.fit_transform(df[col]) line = len(X_train) X_train = df.iloc[:line,:].copy() X_test = df.iloc[line:,:].copy() print(X_train.shape, X_test.shape)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 작업형2(신 버전) 모델 학습 질문
코드 1 model.fit(train[cols], target)라고 X_val값에 train[cols]을 대입한 걸로 이해했는데, 코드2검증용 데이터의 train은 라벨인코더가 된 cols가 포함된 train 값이라 그냥 train으로 적은 건가요? 갑자기 헷갈려서 여쭤봅니다 ㅠㅠ,,,..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험환경에서 sum, len 사용시
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요시험환경에서 sum, len 등 함수 사용시 numeric_only=True 입력하지않아도 결과가 나오는데 무조건 적어야하는걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
8회 기출 작업형1 문제3번 minmax 스케일링 , 스탠다드스케일링 질문
8회 기출에서 민맥스 스케일링 풀이에서는 from sklearn.preprocessing import MinMaxScalerscaler=MinMaxScaler()민맥스스케일러를 스케일러로 받아와서 풀이하잖아요 전~에 앞쪽에서 풀이 해주신 코드로 외워서 저는from sklearn.preprocessing import minmax_scale로 바로df['특정컬럼']=minmax_scale(df['특정컬럼'])이렇게 하는게 더 쉬워서 이걸로 외워져서 풀었는데 혹시 스탠다드 스케일링도 저렇게 바꿔 쓰는 import 가 있나요!? ㅜㅜ from sklearn.preprocessing import StandardScalerscaler=Standardscaler()df[' ']=scaler.fit_transform(df[[' ']]) 이렇게 sclaer 로 받아오는 풀이밖에 없나용 ㅠㅠimport 뒤를 살짝씩 바꿔봐도 다 오류가 뜨네요 ㅜ ㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험환경에서 세션종료
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요코랩에서는 제대로 돌아가는 코드를 시험환경에 넣었더니 실행시간 1분이 넘어 세션이 종료됩니다ㅠ잘못된 부분이 있는지, 혹시 시험시간에도 이런 상황이 생긴다면 해결방안 있을까요?import pandas as pd train = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p2/heart/2files/train.csv") test = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p2/heart/2files/test.csv") # train = pd.read_csv("train.csv") # test = pd.read_csv("test.csv") #train.shape, test.shape #((242, 15), (61, 14)) #train.isnull().sum() #결측치 없음 y_train = train['output'] train = train.drop(['id', 'output'], axis=1) test_id = test.pop('id') #train.shape, test.shape #((242, 13), (61, 13)) n_cols = train.select_dtypes(exclude='O').columns c_cols = train.select_dtypes(include='O').columns n_train = train.select_dtypes(exclude='O').copy() c_train = train.select_dtypes(include='O').copy() n_test = test.select_dtypes(exclude='O').copy() c_test = test.select_dtypes(include='O').copy() #스케일러 from sklearn.preprocessing import StandardScaler Scaler = StandardScaler() n_train[n_cols] = Scaler.fit_transform(n_train[n_cols]) n_test[n_cols] = Scaler.transform(n_test[n_cols]) #인코딩 from sklearn.preprocessing import LabelEncoder LE = LabelEncoder() for col in c_cols: c_train[col] = LE.fit_transform(c_train[col]) c_test[col] = LE.transform(c_test[col]) #합치고 검증데이터 분리 X_train = pd.concat([n_train,c_train], axis=1) X_test = pd.concat([n_test,c_test], axis=1) #X_train.shape, X_test.shape #((242, 13), (61, 13)) from sklearn.model_selection import train_test_split x_tr, x_val, y_tr, y_val = train_test_split(X_train, y_train, test_size=0.15, random_state=2024) from sklearn.ensemble import RandomForestClassifier model = RandomForestClassifier() model.fit(x_tr,y_tr) y_val_pred = model.predict_proba(x_val) from sklearn.metrics import roc_auc_score score = roc_auc_score(y_val,y_val_pred[:,1]) #print(score) #0.9092261904761905 pred = model.predict_proba(X_test) df = pd.DataFrame({ 'id': test_id, 'output': pred[:,1] }) df.to_csv('010100.csv', index=False)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
9회차 시험환경
9회차부터corr, sum,mean 함수사용하면, (numeric_only=True)라고 적어줘야 한다는 말씀이신가요??sum,mean,corr말고 또 어떤 함수에 적어줘야하나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
라벨인코딩 질문 및 cols 변수 담을 때 질문입니다
안녕하세요 라벨인코딩 시 질문이 있어 글 남깁니다.첫번째질문cols에 select_dtypes()로 컬럼명 담을 때,cols = train.select_dtypes(include='object') cols = train.select_dtypes(include='object').columns for col in cols: le = LabelEncoder() train[col] = le.fit_transform(train[col]) ... ...첫 번쩌 cols와 두 번째 cols 중 둘 다 상관 없나요? 아니면 두 번째로 해야 하나요?? 두번째질문그리고 (아직까진 시험에는 나온 적은 없는 걸로 압니다만)train.describe(include='object')이처럼 범주형 변수 유니크 값 확인 시, train과 test의 유니크 값이 다르면 라벨인코딩을 진행하는 것으로 알고 있는데요. 어쩔 땐 concat으로 합치고 후 원핫인코딩 후 다시 분리하라고 하는데, 그냥 유니크 값이 다르면 라벨인코딩 진행을 바로 하면 될까요? 강사님 강의 중 concat 사용하는 부분이 있었던 것 같은데 못 찾고 있어서 질문 남깁니다..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터셋 ID(고유번호) 인코딩 질문
안녕하세요, 강사님!8회 작업형 2 문제에서, customerID 컬럼은 중복된 ID값이 없이 모두 고유한 값이어서 제거를 해도 상관없지만,중복값이 있는 ID는 제거를 하면 안된다고 하셨는데요!그렇다면, 실제 시험에서 중복값이 있는 ID가 나온다면 그 컬럼은 전처리를 하지 않고 그냥 두어도 상관없을까요? 상황1)중복값이 있는 ID컬럼이 'object'값일때제거를 하는게 나을까요? 아니면 int형으로 변환하여 모델학습에 넣어야할까요? 또는 라벨인코딩을 해야하는 것일까요? 상황2)중복값이 있는 ID컬럼이 'int/float'값일때제거하는게 나을까요? 라벨인코딩을 할 필요가 없으니 그냥 두어도 괜찮을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
판다스 설정이 무엇인가요???
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요지수표기법은 숫자 뒤에 e-10 이렇게 나오는거 일거 같은데,컬럼 전체보기는 무슨말인가요?? head 쳤을때 컬럼 개수가 많으면 중간에 .... 으로 생략되는걸 다 본다는건가요???
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
views값을 대체해야하는데
저는 코드를 이렇게 작성을 해보았는데,import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p1/members.csv") df = df.sort_values('views',ascending = False) df.loc[:21,-1] = 9690.0 ->이렇게 입력을 하니 views컬럼의 값들이 9690.0으로 대체 되는 것이 아니라 , views컬럼의 값들은 그대로 있고, -1이라는 컬럼이 옆에 하나 더 생성 되는데 어떻게 해야하나요?ㅜㅜdf.head(13) # cond = df['age'] >= 80 # print(df[cond]['views'].mean())
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
회귀모델링 평가시
작업형 2 모의문제 2에서 평가 부분에R-Squared, MAE, MSE 등 다양하게 알려주셨는데mean_squared_error 와 r2_score 정도만 쓸줄알아도 상관없나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 3 질문입니다.
회귀계수 중 가장 큰 값을 묻는 문제에서 model.param을 실행시켰을 때Intercept가 제일 크다면 Intercept가 정답인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
회귀/분류 문제 구분
회귀문제인지 분류문제인지 구분하는 팁이 궁금합니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
현시점에서 작업형1 노답
안녕하세요 강의 잘 보고있습니다.작업형1 캐글에 올려주신 연습문제들 계속 막혀서 풀지를 못하는데, 현 시점에서 작업형1 어떻게 하는게 좋을까요? 작업형 2랑 3은 어느 정도 이해해서 외우면 될 것 같은데 작업형1은 도무지 괄호안에 어떤 값을 넣어야 하고, 어떤 괄호를 써야하는지 헷갈립니다. 현시점에서 작업형1을 어떻게 해야 최대한 점수를 끌어올릴 수 있을지 조언 부탁드립니다🥲 감사합니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
코랩사용시 코드가 미리 예상으로 나와있는데
이거 안나오게 하는 설정방법이 있을까요??저는 안보고 치고 싶은데 ㅠㅠㅠ자꾸 미리 예측하고 내용이 떠서요
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
predict 시
model.predict(data) 와 model.get_prediction(data)의 차이가 무엇인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
RMSLE 함수 질문
회귀모델의 평가방법 중 RMSLE 함수를 외우려고 했는데요. 쉽지가 않습니다. 좀 더 간단한 방법 없을까요..?def rmsle(y_test, y_pred): #RMSLE return np.sqrt(np.mean(np.power(np.log1p(y_test) - np.log1p(y_pred), 2)))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모델링 및 평가 순서
안녕하세요, 강사님작업형2 회귀 모델 모델링 및 평가를 해보면서 궁금한 점이 있어 질문드립니다.작업형2에서 머신러닝 학습 및 평가를 할 때 학습, 평가 순으로 해야 할 것만 같은데 ,,,혹시 평가 먼저 진행 후 학습을 하는 이유가 있을까요 ..?