묻고 답해요
158만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
train과 test object 유형 또는 갯수가 다르게 되면 어떤 처리가 필요한가요?
안녕하세요. train과 test object 유형 또는 갯수가 다르게 되면 어떤 처리가 필요한가요? train.describe(include=object), test.describe(include=object) 프린트해서 보면 개수가 같은지 보고 있는데요. 1.다른 경우는 어떻게 해야하는지, 2.아니면 범주 자체가 다른데 갯수만 똑같으면 상관없는지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
검증데이터 분리
위에가 영상 속 코드고 밑에가 제가 작성한 코드 인데 영상 속 코드 처럼 안하고 제가 작성한 대로 해도 괜찮은가요?target = train.pop('price') from sklearn.model_selection import train_test_split X_tr,X_val,y_tr,y_val = train_test_split(train,target,test_size=0.2, random_state=0)
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
name, host_name,last review,host_id 삭제
컬럼을 삭제할 때 그냥 아무거나 삭제해도 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이제 sklearn에서 rmse를 지원하는걸로 아는데
지원하더라도 그냥 rmse말고 mse를 이용해서 구해도 전혀 상관없는건가요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
함수 매개변수 질문
안녕하세요 질문 있습니다!함수 정의시 예를들어 def maxmin(data): 라고 정의를 할 떄,소괄호안 data 에는 아무 값이나 들어가도 되는건가요? maxmin() 일때는 함수 실행이 안되고maxmin(x) 또는 maxmin(y) 등을 쓰면 실행은 되던데... 소괄호 안에 들어 갈 수 있는 변수의 범위가 궁금합니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
문제풀이 질문있습니다~
몇가지 학습에 있어 궁금함이 생겨 질문드립니다. 1) 작업형 제1유형에서 사진과 같이 짤리는데 방법이 없을까요? 시험 환경도 동일 하더 라구요2) 작업형 1유형에서 문제3을 푸는데선생님이 푼거랑 다르게 풀어서 문제 답 내도 상관없나요?3) 작업형 2유형에서 만약 MAE를 안돌리고 답안제출한다면 y_val은 필요가 없는건지 궁금합니다^^
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이진분류 f1 (target 문자)
안녕하십니까 from sklearn.metrics import f1_score f1 = f1_score(y_true_str, y_pred_str, pos_label='A') 문자일때, pos_label = "A" (A:양성값 1)로 입력이 필요하다고 하셨는데, 여기 양성값(1)에는 어떤 값을 넣어야 하는걸까요?target을 넣으면 될까요 ?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 강의 업데이트 관련
섹션5에 작업형2 강의 내용이 새로 업데이트되었던데, 얼마전에 업데이트 되기전 강의를 다 보았어서요, 업데이트 전과 후가 많이 달라졌나요?? 다시 강의를 듣는게 좋을까요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
검증데이터 분할
검증데이터 분할을 할 때 왜 gender를 drop하나요?from sklearn.model_selection import train_test_splitX_train,X_val,y_train,y_val =train_test_split(train.drop('gender',axis=1),train['gender'],test_size=0.2,random_state=0)print(X_train.shape,X_val.shape,y_train.shape,y_val.shape)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
pos_label 사용 여부
pred 컬럼 명이 0또는1이 아니라 문자일 때 컬럼을 선택해주기 위해서 pos_label을 사용해준다고 하셨는데 모든 평가지표에서 pos_label을 사용해야 하는지와 pos_label을 써서 컬럼을 선택해줬는데, 실제 값을 예측할 때 {'pred':pred[:,1]}을 해주는게 맞는지 궁금합니다 이미 한 컬럼이 선택됐는데 범위를 지정할 경우 이상이 없을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
target 지정하는 방법
pop 이용하지않고 제가 쓴 것처럼 저런 코드로 target 지정하면 추후에 어디에 문제가 발생할까요?import pandas as pd train=pd.read_csv("train.csv") test=pd.read_csv("test.csv") #분류문제이고 랜덤으로 할것이다. #전처리 필요없음 (결측치없음) #basic 수치형데이터만 활용 train.info() target=train['Segmentation'] train=train[['Age','Work_Experience','Family_Size']] test=test[['Age','Work_Experience','Family_Size']] from sklearn.ensemble import RandomForestClassifier model=RandomForestClassifier() model.fit(train,target) pred=model.predict(test) pred
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
8회 기출유형 작업형3 문제 1-1 "0.05 이상" 문의
8회 기출유형 작업형3 문제 1-1 "0.05 이상"이면은 >=로 찾아야 하는게 아닌가요? 영상에서는 >로 작성하셔서 문의드립니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출4 작업형1 1번째문제에서 결측값을 마음대로 제거하고 구하면 안되는거죠?
3사분위수와 1사분위수의 차를 구하는 문제에서결측값이 있는 컬럼들의 결측값을 제거한 후에 즉 전처리를 한후에 답을 구하면 안되는거죠?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
y_test로 실제 채점을 해보려는데 오류가 나네요 ㅠ어디가 문제일까요
import pandas as pd train=pd.read_csv("train.csv") test=pd.read_csv("test.csv") print(train.shape) print(test.shape) train.info() cols=train.select_dtypes(include="O").columns cols from sklearn.preprocessing import LabelEncoder le = LabelEncoder() for col in cols: train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col]) target=train.pop("TravelInsurance") #데이터분할하기 from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=2022) from sklearn.ensemble import RandomForestClassifier model = RandomForestClassifier(n_estimators=800,max_depth=9,random_state=2022) model.fit(X_tr,y_tr) pred=model.predict_proba(X_val) from sklearn.metrics import roc_auc_score print(roc_auc_score(y_val,pred[:,1])) pred=model.predict_proba(test) print(test.shape) print(pred.shape) submit= pd.DataFrame({ "index":test.index, "pred" :pred[:,1] }) submit.to_csv("9999.csv",index=False) y_test=pd.read_csv("y_test.csv") roc_auc_score(y_test,pred)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
정말 기본적인것만 외우고 레이블인코딩으로 해서 돌려봤는데요
혼자 드디어 처음으로 외워서 작성해본 2유형코드입니다~ 평가점수가 저정도 나오는데 아무래도 수치형을 스케일링하지않아서 일까요? 아니면 원핫인코딩이 더 적절한거였을까요?아니면 저정도 점수여도 안전한 구역일까요?import pandas as pd train=pd.read_csv("train.csv") test=pd.read_csv("test.csv") print(train.shape) print(test.shape) train.info() cols=train.select_dtypes(include="O").columns cols from sklearn.preprocessing import LabelEncoder le = LabelEncoder() for col in cols: train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col]) target=train.pop("TravelInsurance") #데이터분할하기 from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=2022) from sklearn.ensemble import RandomForestClassifier model = RandomForestClassifier() model.fit(X_tr,y_tr) pred=model.predict_proba(X_val) from sklearn.metrics import roc_auc_score print(roc_auc_score(y_val,pred[:,1])) #0.7486363636363635
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 이 문제는 데이터가 3개 주어졌다고 치고 풀어보는건가요?
다른 문제들에서는 train과 test데이터 두개만 주어진채로 계속 들은거같은데 이 문제는 주어진 데이터가 3개인건지..제가 앞서 이해했던 문제들의 데이터는 train데이터를 가지고 분할하고 모델링을 한후 validation한 데이터로 pred값을 구하고 실제값과 비교해서 지표로 매겨본후에 최종 test데이터를 넣어서 csv파일로 만드는 순서인데.. 지금 이 문제처럼 데이터가 3개인것은 어떤 차이가있는 것일까요 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형3 문제 형식 문의
실제 시험 문제에서도 큰 제목으로 '다중 선형 회귀' 이렇게 제시해주는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫인코딩 object 컬럼선택 기준
안녕하세요!앞선 강의와 예제들로, id컬럼같은건 머신러닝에 긍정적인 영향을 주지않고 삭제해도 학습에 무방하다고 단순히 이해했습니다. 원핫인코딩 예제때 item_id 삭제에 대해선 설명주시긴 했지만, 모든 상황에서 Id컬럼은 제외한채 뒷 단계를 진행하는것에 고려사항이 있을지 문의드립니다. cols = ['Item_Fat_Content','Item_Type',' Outlet_Size','Outlet_Location_Type ','Outlet_Type']*Item_Identifier/Outlet_Identifier 은 제외 # Column Non-Null Count Dtype --- ------ -------------- ----- 0 Item_Identifier 6818 non-null object 1 Item_Weight 5656 non-null float64 2 Item_Fat_Content 6818 non-null object 3 Item_Visibility 6818 non-null float64 4 Item_Type 6818 non-null object 5 Item_MRP 6818 non-null float64 6 Outlet_Identifier 6818 non-null object 7 Outlet_Establishment_Year 6818 non-null int64 8 Outlet_Size 4878 non-null object 9 Outlet_Location_Type 6818 non-null object 10 Outlet_Type 6818 non-null object 11 Item_Outlet_Sales 6818 non-null float64 dtypes: float64(4), int64(1), object(7) memory usage: 639.3+ KB
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 모의고사 문제 환경
작업형 모의고사 노트북링트는 어디에 나와있나요? 코랩에서 문제를 보려고 하는데 찾을 수 없네요ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
머신러닝 강의 업데이트 관련
안녕하세요.머신러닝 신규 강의 업데이트가 완료됐다는 공지를 봤는데요.회귀 관련 강의가 없는데 확인 요청드립니다!