묻고 답해요
164만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이해가 가지 않는 것
강사님은 0부터 496이 나오는데 저는 1489까지 나옵니다. 그리고 답도 차이가 많이 납니다. 괜찮은 것 인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이해가 가지 않는 것
predict를 사용할때와 predict_proba를 사용할때의 차이가 무엇인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫인코딩
원핫 인코딩을 했을때 강의에는 0또는 1로 나오는데 제가 했을땐 True와 False로 나옵니다. 괜찮은가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이해가 가지 않는 것
수치형 변수 스케일링을 할때 cols 에서 왜 TravelInsurance 는 제외시키나요?그리고 display함수가 print함수와 다른 점은 무엇인가요? # 수치형 변수 스케일링 from sklearn.preprocessing import RobustScaler scaler = RobustScaler() cols = ['Age','AnnualIncome','FamilyMembers','ChronicDiseases'] display(a_train.head()) a_train[cols] = scaler.fit_transform(a_train[cols]) a_test[cols] = scaler.transform(a_test[cols]) a_train.head()
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
T2-1. 타이타닉(Titanic) Simple Baseline 질문있습니다
# 시험환경 세팅 (코드 변경 X)import pandas as pdimport numpy as npfrom sklearn.model_selection import train_test_splitdef exam_data_load(df, target, id_name="", null_name=""):if id_name == "":df = df.reset_index().rename(columns={"index": "id"})id_name = 'id'else:id_name = id_name if null_name != "":df[df == null_name] = np.nan X_train, X_test = train_test_split(df, test_size=0.2, random_state=2021) y_train = X_train[[id_name, target]]X_train = X_train.drop(columns=[target]) y_test = X_test[[id_name, target]]X_test = X_test.drop(columns=[target])return X_train, X_test, y_train, y_test df = pd.read_csv("../input/titanic/train.csv")X_train, X_test, y_train, y_test = exam_data_load(df, target='Survived', id_name='PassengerId')#print(X_train.shape, X_test.shape, y_train.shape, y_test.shape)X_train = X_train.drop(['Cabin','Name','Ticket'],axis=1)X_test = X_test.drop(['Cabin','Name','Ticket'],axis=1)X_train['Age']=X_train['Age'].loc[X_train['Age']>=1]X_train['Age']=X_train['Age'].fillna(X_train['Age'].mean())X_test['Age']=X_test['Age'].loc[X_test['Age']>=1]X_test['Age']=X_test['Age'].fillna(X_test['Age'].mean())X_train['Embarked']=X_train['Embarked'].fillna(X_train['Embarked'].mode()[0])X_test['Embarked']=X_test['Embarked'].fillna(X_test['Embarked'].mode()[0])cond=pd.get_dummies(X_train['Sex'])cond2=pd.get_dummies(X_test['Sex'])X_train['female']=cond.iloc[:,0]X_train['male']=cond.iloc[:,1]X_test['female']=cond2.iloc[:,0]X_test['male']=cond2.iloc[:,1]X_train = X_train.drop('Sex',axis=1)X_test = X_test.drop('Sex',axis=1)from sklearn.preprocessing import LabelEncoderle=LabelEncoder()cols=['Embarked']for col in cols:le = LabelEncoder()X_train[col]=le.fit_transform(X_train[col])X_test[col]=le.transform(X_test[col])from sklearn.model_selection import train_test_splitX_tr,X_val,y_tr,y_val=train_test_split(X_train,y_train['Survived'],test_size=0.2,random_state=42)from sklearn.metrics import accuracy_scorefrom sklearn.ensemble import RandomForestClassifiermodel = RandomForestClassifier(random_state=42)model.fit(X_tr,y_tr)pred = model.predict(X_val)accuracy_score(y_val,pred)pred=model.predict(X_test)submit = pd.DataFrame({'PassengerId' : X_test['PassengerId'],'Survived' : pred})submit.to_csv("003000000.csv",index=False)submit.head()pd.read_csv("/kaggle/working/003000000.csv")accuracy_score(y_test['Survived'],submit['Survived']) 베이스라인 안보고 혼자 해봤습니다.이렇게 작성했는데 마지막줄에서 점수는 나오는데 타이타닉 캐글 대회에는 제출이 안되서요 혹시 어느부분이 잘못된건지 알수있을까요??그리고 이렇게 실행해도 맞는건지도 답변 부탁드립니다
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 모의문제 2
작업형 결측치 포함된 columns들 삭제하는 과정에서, 영상에서는 host_id는 결측치가 존재하지 않는데 drop으로 삭제하였습니다. 따로 이유가 있는걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
32. 캐글(kaggle) 필사 전략 수업 노트
32. 캐글(kaggle) 필사 전략 강의에서 노션 정리하신 것을 수업 노트에 올려 주신다고 하셨는데, 확인이 안되어 문의드립니다! (18:10)
-
미해결Airflow 마스터 클래스
신규 버전 강의 업데이트 예정일
안녕하세요, 최근에 airflow를 공부해보려고 해당 인강을 구매했는데,airflow3버전 인강 업데이트 예정이라는 공지를 보고, 대기 중에 있습니다.혹시 언제쯤 업데이트 될 예정인지 알 수 있을까요?아니면 우선 airflow2 버전으로라도 보는게 나을까요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
groupby()안 괄호 관련
첫 번째, 두 번째 둘 다 groupby(컬럼명)했는데 왜 첫번째는 에러가 나고 두번째는 정사적으로 작동하나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제 3 문제7번
인덱스 값이 2001인 데이터(행)을 선택할 때df.loc[2001]df.loc[2001].mean()loc 대신 df.iloc[1,:].mean()위처럼 iloc 함수를 사용해도 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
roc_auc 결과 값 문의
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세 위와 같이 실행했는데 baseline roc_auc가 높게 나옵니다 그리고 y_test 실행결과 label과 점수가 비슷합니다. 어떤 이유일때문일까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
9회 기출유형 원본파일 관련 질문
선생님 9회 기출유형 원본파일은 깃허브상에 없던데 업데이트 예정인가요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이해가 가지 않는 것
강의를 보면서 강사님과 똑같이 진행을 하는데 값이 다릅니다. 그리고 영상에서는 max_depth를 설정했을 때가 설정하지 않았을 때 보다 값이 더 올라갔는데 저 같은 경우는 설정한 후 값이 더 내려갔습니다. 정상적인 건가요?#rf from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import roc_auc_score, f1_score, accuracy_score rf = RandomForestClassifier(random_state=2025,max_depth=3) rf.fit(X_tr,y_tr) pred = rf.predict(X_val) pred_proba = rf.predict_proba(X_val) print(roc_auc_score(y_val,pred_proba[:,1])) print(f1_score(y_val,pred)) print(accuracy_score(y_val,pred)) # 0.9227272727272727 # 0.8571428571428571 # 0.8378378378378378 # max_depth = 3 # 0.9242424242424243 # 0.8 # 0.7837837837837838
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이해가 가지 않는 것
roc_auc_score, f1_score, accuracy_score를 구할때 print문의 y_val,pred를 넣는데 왜 저 2가지를 넣는건가요? 그리고 proba는 뭔가요?print(roc_auc_score(y_val,pred_proba[:,1])) print(f1_score(y_val,pred)) print(accuracy_score(y_val,pred))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이해가 가지 않는 것
<모델&평가>에서 fit(학습)을 시킬때는 왜 X_tr,y_tr을 넣고 예측을 할때는 왜 X_val를 넣나요 ?그냥 아무거나 넣어도 되나요 ?#rf from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier(random_state=2025) rf.fit(X_tr,y_tr) pred = rf.predict(X_val)
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
교재도 같이보고있는데요 교재 p.164쪽 'type1_data1.csv'파일은어디에 있나요?
교재도 같이보고있는데요 교재 p.164쪽 'type1_data1.csv'파일은어디에 있나요?(교재 작업형 1 연습문제 파일 어디서 다운받나요?)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이해가 가지 않는 것
<데이터 전처리 &피처엔지니어링>에서 왜 id를 drop 하나요? 그리고 <검증 데이터 분리>에서 는 왜 output을 drop 하나요?train = train.drop('id',axis=1) test_id = test.pop('id') test.head() from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train.drop('output',axis=1),train['output'],test_size=0.15, random_state=2025)
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
라소,릿지 gridsearchcv에서 알파값관련
알파값을 릿지는 0.05,0.1,1,5,8,10,12,15,20라소는 0.001,0.005------ 이렇게 잡는 이유와 기준이 무엇인지?그냥 경험치인건지
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제 1 문제 3번
# your code import pandas as pd df = pd.read_csv("members.csv") df.head() #views 컬럼에 결측치가 있는 데이터(행)을 삭제하고 df.isnull().sum() #views에 결측치 4개 # print(df.shape) df = df.dropna(subset = ['views']) # print(df.shape) #f3 컬럼의 결측치는 0, silver는 1, gold는 2, vip는 3 으로 변환한 후 총 합을 정수형으로 출력하시오 df['f3'] = df['f3'].fillna(0) df['f3'] = df['f3'].replace('silver', 1) df['f3'] = df['f3'].replace('gold', 2) df['f3'] = df['f3'].replace('vip', 3) # print(df.head(20)) print(int(df['f3'].sum()))numpy 안 쓰고 이렇게 작성해도 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제1 _ 문제 1에서
3사분위수 - 1사분위 수 값을 구할 때 선생님 처럼 r2, r1 변수 안 만들고 df = df[:int(len(df) * 0.7)] #70% 데이터 선택 IOQ = df['views'].quantile(.75) - df['views'].quantile(.25) print(IOQ) 이렇게 구해도 되나요?