묻고 답해요
158만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이해가 가지 않는 것
수치형 변수 스케일링을 할때 cols 에서 왜 TravelInsurance 는 제외시키나요?그리고 display함수가 print함수와 다른 점은 무엇인가요? # 수치형 변수 스케일링 from sklearn.preprocessing import RobustScaler scaler = RobustScaler() cols = ['Age','AnnualIncome','FamilyMembers','ChronicDiseases'] display(a_train.head()) a_train[cols] = scaler.fit_transform(a_train[cols]) a_test[cols] = scaler.transform(a_test[cols]) a_train.head()
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
T2-1. 타이타닉(Titanic) Simple Baseline 질문있습니다
# 시험환경 세팅 (코드 변경 X)import pandas as pdimport numpy as npfrom sklearn.model_selection import train_test_splitdef exam_data_load(df, target, id_name="", null_name=""):if id_name == "":df = df.reset_index().rename(columns={"index": "id"})id_name = 'id'else:id_name = id_name if null_name != "":df[df == null_name] = np.nan X_train, X_test = train_test_split(df, test_size=0.2, random_state=2021) y_train = X_train[[id_name, target]]X_train = X_train.drop(columns=[target]) y_test = X_test[[id_name, target]]X_test = X_test.drop(columns=[target])return X_train, X_test, y_train, y_test df = pd.read_csv("../input/titanic/train.csv")X_train, X_test, y_train, y_test = exam_data_load(df, target='Survived', id_name='PassengerId')#print(X_train.shape, X_test.shape, y_train.shape, y_test.shape)X_train = X_train.drop(['Cabin','Name','Ticket'],axis=1)X_test = X_test.drop(['Cabin','Name','Ticket'],axis=1)X_train['Age']=X_train['Age'].loc[X_train['Age']>=1]X_train['Age']=X_train['Age'].fillna(X_train['Age'].mean())X_test['Age']=X_test['Age'].loc[X_test['Age']>=1]X_test['Age']=X_test['Age'].fillna(X_test['Age'].mean())X_train['Embarked']=X_train['Embarked'].fillna(X_train['Embarked'].mode()[0])X_test['Embarked']=X_test['Embarked'].fillna(X_test['Embarked'].mode()[0])cond=pd.get_dummies(X_train['Sex'])cond2=pd.get_dummies(X_test['Sex'])X_train['female']=cond.iloc[:,0]X_train['male']=cond.iloc[:,1]X_test['female']=cond2.iloc[:,0]X_test['male']=cond2.iloc[:,1]X_train = X_train.drop('Sex',axis=1)X_test = X_test.drop('Sex',axis=1)from sklearn.preprocessing import LabelEncoderle=LabelEncoder()cols=['Embarked']for col in cols:le = LabelEncoder()X_train[col]=le.fit_transform(X_train[col])X_test[col]=le.transform(X_test[col])from sklearn.model_selection import train_test_splitX_tr,X_val,y_tr,y_val=train_test_split(X_train,y_train['Survived'],test_size=0.2,random_state=42)from sklearn.metrics import accuracy_scorefrom sklearn.ensemble import RandomForestClassifiermodel = RandomForestClassifier(random_state=42)model.fit(X_tr,y_tr)pred = model.predict(X_val)accuracy_score(y_val,pred)pred=model.predict(X_test)submit = pd.DataFrame({'PassengerId' : X_test['PassengerId'],'Survived' : pred})submit.to_csv("003000000.csv",index=False)submit.head()pd.read_csv("/kaggle/working/003000000.csv")accuracy_score(y_test['Survived'],submit['Survived']) 베이스라인 안보고 혼자 해봤습니다.이렇게 작성했는데 마지막줄에서 점수는 나오는데 타이타닉 캐글 대회에는 제출이 안되서요 혹시 어느부분이 잘못된건지 알수있을까요??그리고 이렇게 실행해도 맞는건지도 답변 부탁드립니다
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 모의문제 2
작업형 결측치 포함된 columns들 삭제하는 과정에서, 영상에서는 host_id는 결측치가 존재하지 않는데 drop으로 삭제하였습니다. 따로 이유가 있는걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
32. 캐글(kaggle) 필사 전략 수업 노트
32. 캐글(kaggle) 필사 전략 강의에서 노션 정리하신 것을 수업 노트에 올려 주신다고 하셨는데, 확인이 안되어 문의드립니다! (18:10)
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
groupby()안 괄호 관련
첫 번째, 두 번째 둘 다 groupby(컬럼명)했는데 왜 첫번째는 에러가 나고 두번째는 정사적으로 작동하나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제 3 문제7번
인덱스 값이 2001인 데이터(행)을 선택할 때df.loc[2001]df.loc[2001].mean()loc 대신 df.iloc[1,:].mean()위처럼 iloc 함수를 사용해도 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
roc_auc 결과 값 문의
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세 위와 같이 실행했는데 baseline roc_auc가 높게 나옵니다 그리고 y_test 실행결과 label과 점수가 비슷합니다. 어떤 이유일때문일까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
9회 기출유형 원본파일 관련 질문
선생님 9회 기출유형 원본파일은 깃허브상에 없던데 업데이트 예정인가요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이해가 가지 않는 것
강의를 보면서 강사님과 똑같이 진행을 하는데 값이 다릅니다. 그리고 영상에서는 max_depth를 설정했을 때가 설정하지 않았을 때 보다 값이 더 올라갔는데 저 같은 경우는 설정한 후 값이 더 내려갔습니다. 정상적인 건가요?#rf from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import roc_auc_score, f1_score, accuracy_score rf = RandomForestClassifier(random_state=2025,max_depth=3) rf.fit(X_tr,y_tr) pred = rf.predict(X_val) pred_proba = rf.predict_proba(X_val) print(roc_auc_score(y_val,pred_proba[:,1])) print(f1_score(y_val,pred)) print(accuracy_score(y_val,pred)) # 0.9227272727272727 # 0.8571428571428571 # 0.8378378378378378 # max_depth = 3 # 0.9242424242424243 # 0.8 # 0.7837837837837838
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이해가 가지 않는 것
roc_auc_score, f1_score, accuracy_score를 구할때 print문의 y_val,pred를 넣는데 왜 저 2가지를 넣는건가요? 그리고 proba는 뭔가요?print(roc_auc_score(y_val,pred_proba[:,1])) print(f1_score(y_val,pred)) print(accuracy_score(y_val,pred))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이해가 가지 않는 것
<모델&평가>에서 fit(학습)을 시킬때는 왜 X_tr,y_tr을 넣고 예측을 할때는 왜 X_val를 넣나요 ?그냥 아무거나 넣어도 되나요 ?#rf from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier(random_state=2025) rf.fit(X_tr,y_tr) pred = rf.predict(X_val)
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
교재도 같이보고있는데요 교재 p.164쪽 'type1_data1.csv'파일은어디에 있나요?
교재도 같이보고있는데요 교재 p.164쪽 'type1_data1.csv'파일은어디에 있나요?(교재 작업형 1 연습문제 파일 어디서 다운받나요?)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이해가 가지 않는 것
<데이터 전처리 &피처엔지니어링>에서 왜 id를 drop 하나요? 그리고 <검증 데이터 분리>에서 는 왜 output을 drop 하나요?train = train.drop('id',axis=1) test_id = test.pop('id') test.head() from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train.drop('output',axis=1),train['output'],test_size=0.15, random_state=2025)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제 1 문제 3번
# your code import pandas as pd df = pd.read_csv("members.csv") df.head() #views 컬럼에 결측치가 있는 데이터(행)을 삭제하고 df.isnull().sum() #views에 결측치 4개 # print(df.shape) df = df.dropna(subset = ['views']) # print(df.shape) #f3 컬럼의 결측치는 0, silver는 1, gold는 2, vip는 3 으로 변환한 후 총 합을 정수형으로 출력하시오 df['f3'] = df['f3'].fillna(0) df['f3'] = df['f3'].replace('silver', 1) df['f3'] = df['f3'].replace('gold', 2) df['f3'] = df['f3'].replace('vip', 3) # print(df.head(20)) print(int(df['f3'].sum()))numpy 안 쓰고 이렇게 작성해도 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제1 _ 문제 1에서
3사분위수 - 1사분위 수 값을 구할 때 선생님 처럼 r2, r1 변수 안 만들고 df = df[:int(len(df) * 0.7)] #70% 데이터 선택 IOQ = df['views'].quantile(.75) - df['views'].quantile(.25) print(IOQ) 이렇게 구해도 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출8회 제2유형
제가 푼 내용을 보면pred = rf.predict(test) : 질문자 pred = rf.predict(x_val) : 해설위 두가지가 다릅니다.해당 건 때문에 pred 했을 때, 값 차이가 많이 나는건가요? ㅜ_ㅠ챗gpt에 물어보니 어떨때는 test고 어떨대는 x_val인지 아직도 모르겠습니다. # 라이브러리 및 데이터 불러오기 import pandas as pd train = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/8_2/churn_train.csv") test = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/8_2/churn_test.csv") # train.info() # test.info() target = train.pop('TotalCharges') train = pd.get_dummies(train) test = pd.get_dummies(test) train, test = train.align(test, join='left', axis=1) from sklearn.model_selection import train_test_split x_tr, x_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=0) from sklearn.ensemble import RandomForestRegressor rf = RandomForestRegressor(random_state=0) rf.fit(x_tr, y_tr) pred = rf.predict(test) submit = pd.DataFrame({'pred' : pred}) submit.to_csv('result.csv', index=False) ans = pd.read_csv('result.csv') print(ans)
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
6번 질문입니다
'age' 컬럼의 이상치(소수점 나이와 음수나이, 0포함)를 제거하고제거 전 후의 views 컬럼 표준편차를 더하시오 (최종 결과 값은 소수 둘째자리까지 출력, 셋째자리에서 반올림)제가 생각한 이상치 제거는1. 사분위수를 이용해서 1차적으로 이상치를 제거하고1번을 통해 필터링 된 데이터에서 0, 음수, 소수 데이터를 제거라고 생각했는데 아닌가요?답은 우연인지 의도인지 둘다 8420.69 이 나오긴 했습니다import pandas as pddf = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p1/members.csv")bef = df['views'].std()#1#0, 음수 제거 -> 소수 제거# opt6_1 = df['age'] <= 0# df= df[~opt6_1]# opt6_2 = df['age'] % 1 == 0# df = df[opt6_2]# aft = df['views'].std()# print(round(bef+aft, 2))###### 8420.69 출력#2# 이상치 제거 -> 0,음수 제거 -> 소수제거Q1 = df['age'].quantile(0.25)Q3 = df['age'].quantile(0.75)IQR = Q3 - Q1cond1 = df['age'] > Q3 + (1.5 * IQR)df = df[~cond1]cond2 = df['age'] < Q1 - (1.5 * IQR)df = df[~cond2]cond3 = df['age'] <= 0df = df[~cond3]cond4 = df['age'] % 1 == 0df = df[cond4]aft = df['views'].std()print(round(aft + bef, 2))###### 8420.69 출력
-
미해결[2025년 최신 기출 반영] 빅데이터 분석 기사 실기 시험 100% 합격 ! 기출 문제의 패턴이 보인다 !
7회 작업형3유형 1번문제 질문
오즈비를 구할때a=result.params['판매수량']print(round(a, 4))으로 풀이 됬는데자료를 찾다 보니 오즈비를 구할때 위 구한 계수에 np.exp() 함수를 사용해서 하던데 어떤게 맞는 걸까요 ? ㅜㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 50퍼센트 추출 코드에서
len함수로 세서 나누기 2를 하는 코드로 알려주셨는데len(df)*0.5)이렇게 작성해도 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
모의고사 시험환경으로 링크타고 들어가서 보이는 문제랑 다른데요
시험환경에서는 문제가 최소 최대 척도인데강의에서 보이는 문제랑 다른데요.. 제가 잘 못들어간 것일까요?