묻고 답해요
169만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제 질문
문제1에서 df = df[:int(len(df) * 0.7)] 부분을df = df.loc[:int(len(df) * 0.7)] 로 코딩했더니 답이 다르게 나옵니다. loc는 인덱스가 50이 있는 행까지만 출력되기에 70%의 데이터개수를 할때는 loc가 부적합한건가요? 문제2에서 df = df.dropna(subset=['f1']) 부분을 저는 df = df['f1'].dropna() 라고 코딩했더니 df.shape이 (69,) 로 나옵니다. df = df['f1'].dropna() 이건 해당 컬럼에 결측치가 있는 행을 삭제하는게 아닌가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의문제2 라벨인코딩 과정 중 에러
안녕하세요! 강의 진행중 코드에서 오류가 생겨 질문드립니다 ㅠㅠ라벨인코딩 하는도중 cols = train.select_dtypes(include='object').columns cols from sklearn.preprocessing import LabelEncoder for col in cols : le = LabelEncoder() train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col]) train() 이렇게 작성하였으나TypeError: Encoders require their input to be uniformly strings or numbers. Got ['int', 'str']이런 오류가 나왔습니다 ㅠㅠ 위의 작성된코드를 살펴봐도 어디가 잘못된지모르겠어서, 또 저 에러가 무슨뜻인지 이해가 안가서 질문드립니다 ㅠ 또한, 데이터 전처리 과정 중 다소 불필요한 데이터(?)컬럼(?)을 삭제하지않고 진행할경우 성능이 크게 떨어질까요? ㅠㅠ 괜히 삭제했다가 나중에 뭔가 안맞아서 결과 도출에 오류가 생길까봐 컬럼을 삭제하는게 맘에 걸려서 시험에서는 되도록 그냥 두고싶습니다 ㅠㅠ 괜찮을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3회 빅데이터 분석기사 실기(작업형2) 질문
안녕하세요 강사님 강의듣던 와중에 질문 있습니다!2회 작업형2에서는 수치형변수 스케일링 과정이 없었고 이번 3회작업형2에서는 수치형변수 스케일링 과정이 있네요. 혹시 이유가 있을까요? 또 3회에서 MinMaxScaler나 StandardScaler를 쓰는것 또한 저의 재량인지 궁금합니다.\ 2회에서는 copy의 과정이 없었는데 3회에서는 copy를 한 이유가 있나요? 시험장에서 어떤방식으로 밀고나가야할지 혼란스러워요ㅠ 괄호안에 ' ' 와 " " 는 동일한가요? 검증데이터 분리시 train_test_split(train.drop('TravelInsurance', axis =1), train['TravelInsurance'] 에서 TravelInsurance를 drop한 이유가 뭔가요? 2회 작업형2에서는 ID를 drop한건 학습할때 필요가 없어서로 알고있는데 해당 문제에서는 Unnamed를 drop해야하는것 아닐까요? 헷갈리네요ㅠㅠ 수치형 변수 스케일링 과정에서cols = ['Age', 'AnnualIncome', 'FamilyMembers', 'ChronicDiseases'] display(n_train.head()) n_train[cols] = scaler.fit_transform(n_train[cols]) n_test[cols] = scaler.transform(n_test[cols]) n_train.head()이 부분에서 2회 작업형 2번처럼 cols안에 여러개가 들어있으므로아래와 같이 반복문을 쓰거나for col in cols: le = LabelEncoder() X_train[col] = le.fit_transform(X_train[col]) X_test[col] = le.transform(X_test[col]) 아래와 같이 일일히 col을 설정해줘야 오류가 안생기지 않나요?# col = 'Warehouse_block' # le = LabelEncoder() # X_train[col] = le.fit_transform(X_train[col]) # X_test[col] = le.transform(X_test[col]) # col = 'Mode_of_Shipment' # le = LabelEncoder() # X_train[col] = le.fit_transform(X_train[col]) # X_test[col] = le.transform(X_test[col]) # col = 'Product_importance' # le = LabelEncoder() # X_train[col] = le.fit_transform(X_train[col]) # X_test[col] = le.transform(X_test[col]) # col = 'Gender' # le = LabelEncoder() # X_train[col] = le.fit_transform(X_train[col]) # X_test[col] = le.transform(X_test[col])
-
미해결빅데이터 분석기사 시험 실기(Python)
5강 작업유형1-문제 2 질문입니다
마지막 전처리 전후의 표준편차값을 출력할때 제가 혼자 했을때는print(df['distance'].std())print(df_af['distance'].std())로 하였는데 출력결과275.2191532793011267.2360034486679이와 같이 나왔습니다.강의에서 나온바와 같이print(np.std(df['distance']))print(np.std(df_af['distance']))넘파이를 활용하여 계산하였는데 결과는 강의와 동일하게275.0161144074897267.05138442597666 이와 같이 나왔습니다1) 넘파이 라이브러리를 사용한 것과 안한 것의 차이가 나타나는 이유는 무엇인가요?2) 작업유형1 의 경우, 출력결과는 정수형으로 나타내야 하는것으로 알고 있습니다. 두가지 경우, int함수를 사용하면 결과값이 같게 나오는데 이경우에도 풀이는 다르지만 결과 출력값만 동일하면 정답으로 인정되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
n개 데이터 합치기/분리하기 질문
라이브러리 및 데이터 불러오기 그리고 EDA강의중,17:04->데이터 합치기19:03->데이터 분리하기 부분입니다. N개의 데이터를 합치고 분리할 때2개가 주어진 경우와 3개가 주어진 경우를 안다고 가정하고 ['income']을 기준으로 합치거나 분리하시던데,시험에서는 2개나 3개 중 한가지로만 주어지지 않나요? 그럴 경우 어떤 컬럼을 기준으로 합/분리하는지 어떻게 알 수 있을까요..? 같은 강의의 EDA 전반y_train데이터에 대해서는 결측치나 타입,크기 등을 확인하지 않아도 되는건가요..? 데이터전처리 강의에서 11:00->결측치채우기 -최빈값에서mode() [0] 을 쓰시던데 [0]이 의미하는 바가 무엇인지 알고싶습니다!
-
미해결[핵집] 2025 빅데이터 분석기사(실기)_작업형 1·2·3유형
학습자료 요청드립니다.
안녕하세요.학습자료 요청드립니다.이윤수 / elwmslazz@naver.com으로 보내주시면 감사하겠습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
첨부자료 관련
안녕하세요첨부파일 압축 풀면 들어있는 MACOSX 는 무엇일까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3회 기출유형(작업형2)_ csv 파일 생성 오류 등
안녕하세요.강의 잘 듣고 있습니다. 항상 어의없을 질문에도 친절하게 답해주셔서 정말 감사드립니다.3회 기출유형(작업형 2)에서 관련해서 문의드립니다.1. 문제를 보고 회귀인지 분류인지 구분이 잘 안될 땐 모델링을 회귀도 해보고 분류도 해봐서 가장 성능이 좋은 걸 사용하면 되겠죠?2. 확률을 예측할 때분류모델이면 proba를 써야하는데predict=model.predict_proba(x_val)회귀모델일 경우에는 proba를 사용 안 해도 되나요?predict=model.predict(x_val) 3. Unnamed: 0 변수를 의미없는 값이라고 생각하여 데이터 전처리 과정 중에train, test 데이터에서 모두 drop을 했습니다.근데.... 왜 csv 파일 생성할 때, 다시 나타난 걸까요...ㅠㅠ<출력된 csv 파일..> <코드># 라이브러리 및 데이터 불러오기 import pandas as pd train = pd.read_csv("train.csv") test = pd.read_csv("test.csv") # EDA pd.set_option('display.max_columns',None) print(train.head()) # target: TravelInsurance 포함되어 있음 print(test.head()) print(train.shape, test.shape) print(train.info()) print(train.describe()) print(train.describe(include= 'object')) # Employment Type GraduateOrNot FrequentFlyer EverTravelledAbroad print(train.isnull().sum()) print(train.value_counts('TravelInsurance')) # 0 965, 1 525 # 데이터 전처리(결측치: 없음, 의미 없는 칼럼 삭제, ID 처리: 없음) # Unnamed: 0 삭제 train = train.drop('Unnamed: 0', axis = 1) test =test.drop('Unnamed: 0', axis = 1) print(train.shape, test.shape) print(train.head()) print(test.head()) # 피처엔지니어링(범주형) from sklearn.preprocessing import LabelEncoder cols = ['Employment Type', 'GraduateOrNot', 'FrequentFlyer', 'EverTravelledAbroad'] for col in cols: la = LabelEncoder() train[col] = la.fit_transform(train[col]) test[col] = la.transform(test[col]) # 데이터 분할 from sklearn.model_selection import train_test_split x_tr, x_val, y_tr, y_val = train_test_split(train.drop('TravelInsurance', axis =1), train['TravelInsurance'], test_size = 0.2, random_state = 2023) print(x_tr.shape, x_val.shape, y_tr.shape, y_val.shape) # (1192, 8) (298, 8) (1192,) (298,) # 모델링(회귀) # import sklearn # print(sklearn.__all__) # print(sklearn.linear_model.__all__) from sklearn.linear_model import LinearRegression model = LinearRegression() model.fit(x_tr, y_tr) predict=model.predict(x_val) print(predict) # 성능평가(roc_auc_score) from sklearn.metrics import roc_auc_score r = roc_auc_score(y_val, predict) print(r) #베이스: 0.7544863861386139 # 예측 predict=model.predict(test) # 데이터 내보내기 submit = pd.DataFrame( { 'y_pred' : predict } ).reset_index().to_csv("1111.csv") df1 = pd.read_csv("1111.csv") print(df1.head())
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
빅데이터 분석기사(3회): 기출유형-작업형1 문제1
안녕하세요!df = pd.read_csv("members.csv") import pandas as pd df = df.dropna() length = int(len(df) * 0.7) df = df.head(length) df['f1'].quantile(0.25)저는 처음에 위와 같이 풀었는데 값은 동일하게 57.0이 나오는데요!문제를 풀때 iloc를 안쓰고 해당 방법처럼 head(length)해서 df값에 넣어도 iloc랑 문제없을까요?
-
미해결15일간의 빅데이터 파일럿 프로젝트
고사양 환경에서 초기에 cloudera는 꺼져 있는 상태인가요?
만약 그렇다면 켜서 설치되어 있는 것들과 강의를 보면서 설정값들을 확인해 보고 싶은데 어떻게 하는지 모르습니다. 공식문서도 어딜 봐야 할 지 모르겠어서요.파일럿 프로젝트 진행하는 데에는 아무 문제가 없다는 걸 알지만 그래도 하나씩 짚어보고 싶어요.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제3 문제8
df.groupby(['city', 'f2']).sum()안녕하세요, 문제를 풀다가 궁금한 점이 있어서 문의드립니다.위와 같이 코드를 작성하면<ipython-input-20-0b895b525272>:8: FutureWarning: The default value of numeric_only in DataFrameGroupBy.sum is deprecated. In a future version, numeric_only will default to False. Either specify numeric_only or select only columns which should be valid for the function. df.groupby(['city', 'f2']).sum()이런 오류가 발생하는데요. groupby에서의 sum함수가 deprecated되었다고 하는데요, 이는 다른 함수로 대체되거나 아예 사라지는 것으로 알고있습니다. 시험보는 버전 내에서는 문제없이 사용해도 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
Warning 대처방법 문의드립니다.
작업형1 모의문제3의 문제8번 중 일부 코드를 실행한 결과 FutureWarning이 발생하였습니다.(다른 코드 실행시에도 종종 보입니다.)왜 발생하는지, 해결방법은 무엇인지 조언 부탁드립니다. 작성코드df=pd.read_csv("members.csv")df=df.fillna(method='bfill')df=df.groupby(['city','f2']).sum().reset_index() 실행결과<ipython-input-136-bfe31d68ed6e>:5: FutureWarning: The default value of numeric_only in DataFrameGroupBy.sum is deprecated. In a future version, numeric_only will default to False. Either specify numeric_only or select only columns which should be valid for the function. df=df.groupby(['city','f2']).sum().reset_index()
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3회 기출문제 작업형2
안녕하세요! 강의 듣던 중 질문이 생겨 글남깁니다. 2회 기출문제 작업형2 강의와는 다르게 왜 데이터 전처리 과정에서 수치형데이터와 범주형데이터를 분리하나요? 왜 2회 기출문제 과정에서는 필요가없는걸까요? ㅠㅠ # 수치형 데이터와 범주형 데이터 분리n_train = train.select_dtypes(exclude='object').copy()c_train = train.select_dtypes(include='object').copy()n_test = test.select_dtypes(exclude='object').copy()c_test = test.select_dtypes(include='object').copy() (↑이 과정에 대한 질문입니다!) 어쩔때 robustscaler를 쓰고, minmaxscaler를 쓰고.. 스케일 방법이 다양한데 어떻게 선택하는건가요? 검증데이터 분리할떄 test_size 설정기준은 무엇인가요? 0.1로할떄도 있고 0.2로 할떄도 있으신데 어떻게 선정하시는건가요? 위와 마찬가지로 검증데이터 분리과정에서 random_state = 1204 를 설정하는 이유가 이해가 잘 안갑니다 ㅠ 저것의 의미가 무엇이고 숫자는 왜 1204인건가요?? (3,4번 질문은 이 코드에서의 질문입니다! from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split(train.drop('TravelInsurance', axis=1),train['TravelInsurance'],test_size=0.1,random_state=1204)X_tr.shape, X_val.shape, y_tr.shape, y_val.shape)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
빅분기 실기 제2문형에 관한 질문
✨빅분기 실기 너무 준비할께 많네요. TT실기 2유형에 같은 경우 모델을 정하고 데이터모형 평가 성능을 높이기 위한 하이퍼 파라미터 튜닝 절차를 반드시 거쳐야 하는지 여쭤봅니다.
-
미해결15일간의 빅데이터 파일럿 프로젝트
영상처럼 해보는데 JAVA부분이 안보여요
영상처럼 호스트 이름을 입력하면 아래에 체크박스가 체크할수 없게 되어있고 그전 영상처럼 현재 관리되는 호스트를 클릭하면 JDK나 SSH 로그인 정보를 제공합니다. 라는 구간이 스킵이 되는데 현재 관리되는 호스트로 진행해도 아무 문제 없을까요?
-
미해결빅데이터분석기사 실기대비 (R 활용)
맨 마지막 p3에서 2,482명이 나와야 되는거 아닌가요???
맨 마지막 p3 <- (p1+p2) / 2 에서 str(p3)해보면 2,482행이 나와야 하는거아닌가요?871 obs of 2 variables라고 나와서요...
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
"모의고사2" 질문
선생님!!궁금한 점을 질문드리면 항상 빠른 답변 드리시는 점에 감사드립니다."모의고사2" 관련하여 궁금한점을 질문드립니다.평가지표가 f1 인데, f1도 점수가 높은 경우 성능이 좋은건가요? 만약 하이퍼파라미터 투닝을 할 경우 f1 점수가 높게 나오는 것으로 test 데이터를 에측해서 csv 화일을 작성해야 하는 건지요?'모의고사2'를 시험환경에서 연습하는데, 랜덤포레스트는 큰 문제 없이 진행되었는데, xgboost 모델로 할 경우 진행이 안되고 에러가 발생합니다.이유가 무엇이고 어떻게 수정해야 하는지요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
분류 모델 평가 관련
안녕하세요 빠른 답변 주셔서 공부에 많은 도움이 되고 있어 감사드립니다.roc_auc_score 평가 시에만 accuracy, precision, recall, f1 과 다르게 predict_proba를 사용하는 이유 궁금합니다
-
미해결15일간의 빅데이터 파일럿 프로젝트
고사양 VM3 수업자료는 어디까지 설치되어 있는 상태인가요?
저사양 자료를 받아서 Cluster 1 구성을 하다가 지우고 고사양 자료를 받아서 Cloudera의 클러스터를 구성하려고 보니 이미 Cluster 1이 존재한다고 해서 server01.hadoop.com/cmf 에 접속해 봤더니 컴포넌트들까지 Cluster 1이른 이름으로 모두 설치되어 있는 것처럼 보입니다.고사양 자료를 받은 경우 어디서부터 제가 직접 수업을 들으며 따라 해야 할 지 모르겠습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[시험환경에 적응하기:작업형2] 'DataConversionWarning'이유 알려주세요
작업형2를 아래와 같이 했는데 DataConversionWarning 나왔습니다검색해보니 y_train 변경때문이며 ravel()을 사용하라고하는데 이유 설명 부탁 드립니다[error명]DataConversionWarning: A column-vector y was passed when a 1d array was expected. Please change the shape of y to (n_samples,), for example using ravel().[작성내용]import pandas as pdX_test = pd.read_csv("data/X_test.csv")X_train = pd.read_csv("data/X_train.csv")y_train = pd.read_csv("data/y_train.csv")pd.set_option('display.max_columns',None)# 사용자 코딩#print(X_train.shape,X_test.shape,y_train.shape)#print(y_train.isnull().sum())#print(X_train['환불금액'].describe())X_train['환불금액']=X_train['환불금액'].fillna(X_train['환불금액'].mean())X_test['환불금액']=X_test['환불금액'].fillna(X_train['환불금액'].mean())#print(X_train.isnull().sum())X_train=X_train.drop('cust_id',axis=1)X_test_id=X_test.pop('cust_id')y_train=y_train.drop('cust_id',axis=1)#print(X_test.head(2))#print(X_train.select_dtypes(exclude='object').columns)# '주구매상품', '주구매지점'# '총구매액', '최대구매액', '환불금액', '내점일수', '내점당구매건수', '주말방문비율', '구매주기'from sklearn.preprocessing import LabelEncodercols=['주구매상품', '주구매지점']for col in cols: le=LabelEncoder() X_train[col]=le.fit_transform(X_train[col]) X_test[col]=le.transform(X_test[col])#print(X_train.head()) from sklearn.preprocessing import MinMaxScalercols2=['총구매액', '최대구매액', '환불금액', '내점일수', '내점당구매건수', '주말방문비율', '구매주기']scaler=MinMaxScaler()X_train[cols2]=scaler.fit_transform(X_train[cols2])X_test[cols2]=scaler.transform(X_test[cols2])#print(X_train.head(2))from sklearn.model_selection import train_test_splitX_tr,X_val,y_tr,y_val=train_test_split(X_train,y_train, test_size=0.3, random_state=2023)#print(X_tr.shape,X_val.shape,y_tr.shape,y_val.shape)#(2450, 9) (1050, 9) (2450, 1) (1050, 1)from sklearn.metrics import roc_auc_scorefrom sklearn.ensemble import RandomForestClassifierrf=RandomForestClassifier(random_state=2023)rf.fit(X_tr,y_tr)pred=rf.predict_proba(X_val)print(roc_auc_score(y_val,pred[:,1]))#0.654227735236709