묻고 답해요
156만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
y_test로 실제 채점을 해보려는데 오류가 나네요 ㅠ어디가 문제일까요
import pandas as pd train=pd.read_csv("train.csv") test=pd.read_csv("test.csv") print(train.shape) print(test.shape) train.info() cols=train.select_dtypes(include="O").columns cols from sklearn.preprocessing import LabelEncoder le = LabelEncoder() for col in cols: train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col]) target=train.pop("TravelInsurance") #데이터분할하기 from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=2022) from sklearn.ensemble import RandomForestClassifier model = RandomForestClassifier(n_estimators=800,max_depth=9,random_state=2022) model.fit(X_tr,y_tr) pred=model.predict_proba(X_val) from sklearn.metrics import roc_auc_score print(roc_auc_score(y_val,pred[:,1])) pred=model.predict_proba(test) print(test.shape) print(pred.shape) submit= pd.DataFrame({ "index":test.index, "pred" :pred[:,1] }) submit.to_csv("9999.csv",index=False) y_test=pd.read_csv("y_test.csv") roc_auc_score(y_test,pred)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
정말 기본적인것만 외우고 레이블인코딩으로 해서 돌려봤는데요
혼자 드디어 처음으로 외워서 작성해본 2유형코드입니다~ 평가점수가 저정도 나오는데 아무래도 수치형을 스케일링하지않아서 일까요? 아니면 원핫인코딩이 더 적절한거였을까요?아니면 저정도 점수여도 안전한 구역일까요?import pandas as pd train=pd.read_csv("train.csv") test=pd.read_csv("test.csv") print(train.shape) print(test.shape) train.info() cols=train.select_dtypes(include="O").columns cols from sklearn.preprocessing import LabelEncoder le = LabelEncoder() for col in cols: train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col]) target=train.pop("TravelInsurance") #데이터분할하기 from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=2022) from sklearn.ensemble import RandomForestClassifier model = RandomForestClassifier() model.fit(X_tr,y_tr) pred=model.predict_proba(X_val) from sklearn.metrics import roc_auc_score print(roc_auc_score(y_val,pred[:,1])) #0.7486363636363635
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 이 문제는 데이터가 3개 주어졌다고 치고 풀어보는건가요?
다른 문제들에서는 train과 test데이터 두개만 주어진채로 계속 들은거같은데 이 문제는 주어진 데이터가 3개인건지..제가 앞서 이해했던 문제들의 데이터는 train데이터를 가지고 분할하고 모델링을 한후 validation한 데이터로 pred값을 구하고 실제값과 비교해서 지표로 매겨본후에 최종 test데이터를 넣어서 csv파일로 만드는 순서인데.. 지금 이 문제처럼 데이터가 3개인것은 어떤 차이가있는 것일까요 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형3 문제 형식 문의
실제 시험 문제에서도 큰 제목으로 '다중 선형 회귀' 이렇게 제시해주는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫인코딩 object 컬럼선택 기준
안녕하세요!앞선 강의와 예제들로, id컬럼같은건 머신러닝에 긍정적인 영향을 주지않고 삭제해도 학습에 무방하다고 단순히 이해했습니다. 원핫인코딩 예제때 item_id 삭제에 대해선 설명주시긴 했지만, 모든 상황에서 Id컬럼은 제외한채 뒷 단계를 진행하는것에 고려사항이 있을지 문의드립니다. cols = ['Item_Fat_Content','Item_Type',' Outlet_Size','Outlet_Location_Type ','Outlet_Type']*Item_Identifier/Outlet_Identifier 은 제외 # Column Non-Null Count Dtype --- ------ -------------- ----- 0 Item_Identifier 6818 non-null object 1 Item_Weight 5656 non-null float64 2 Item_Fat_Content 6818 non-null object 3 Item_Visibility 6818 non-null float64 4 Item_Type 6818 non-null object 5 Item_MRP 6818 non-null float64 6 Outlet_Identifier 6818 non-null object 7 Outlet_Establishment_Year 6818 non-null int64 8 Outlet_Size 4878 non-null object 9 Outlet_Location_Type 6818 non-null object 10 Outlet_Type 6818 non-null object 11 Item_Outlet_Sales 6818 non-null float64 dtypes: float64(4), int64(1), object(7) memory usage: 639.3+ KB
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 모의고사 문제 환경
작업형 모의고사 노트북링트는 어디에 나와있나요? 코랩에서 문제를 보려고 하는데 찾을 수 없네요ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
머신러닝 강의 업데이트 관련
안녕하세요.머신러닝 신규 강의 업데이트가 완료됐다는 공지를 봤는데요.회귀 관련 강의가 없는데 확인 요청드립니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
코랩 자동완성 끄기
문제풀이에 방해되어서 코랩 자동완성 기능을 끄고 싶은데요.알려주신 [도구>설정>편집기>‘컨텍스트 기반 코드 완성 표시‘ 해제 > 저장] 진행 했음에도 불구하고, 계속해서 자동완성이 되어서 학습에 방해가 되고 있습니다.ㅠㅠ 자동완성 끄는 다른 설정 방법이 있는지 알려주세요.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
axis=1 은 열, 그런데 합계(행)?
파이썬을 이제 막 접한 초보자 입니다. 데이터 프레임 처음 배울 때, 열(column)은 axis=1이라고 배웠는데요, '판다스4- 문자열, 내장함수'강의에서 합계(행)을 할 때 df.sum(axis=1, numeric_only=True)라고 하여 혼란이 오고 있습니다 ^^;; 제가 어떻게 이해하면 좋을지 알려주시면 감사하겠습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
모델링 관련 문의드립니다.
안녕하세요, 실기 준비가 막막했는데 강의를 통해서 자신감을 얻어 가고 있습니다. 감사합니다. 강의를 보며 실무 관점에서 궁금한점이 있어 문의드립니다. 시험을 준비하면서는 제공된 데이터를 기반으로 모델링을 하고 답안을 제출하면 끝인데 실무에서는 한번 학습시킨 모델을 나중에 계속 활용해야할거 같은데 학습한 모델을 저장하거나 다시 불러서 사용할 수 있는 방법이 있는지와 이와 같은 상황에서는 보통 어떻게 모델을 관리 하는지 궁금합니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
(체험) 제2유형 빅데이터분석기사
아래와 같이 성별로 0/1로 나누어 표현하라고되어있는데 predict_proba는 확률을 구하는 문제이므로해당 건 pred2 = (pred1 >= 0.5).astype(int)이렇게 표현해도 괜찮은지문의드립니다. target = train.pop('성별')train = pd.get_dummies(train)test = pd.get_dummies(test)train, test = train.align(test, join='left', axis=1)from sklearn.model_selection import train_test_splitx_tr, x_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=0)from sklearn.ensemble import RandomForestClassifierrf = RandomForestClassifier(random_state=0)rf.fit(x_tr, y_tr)pred1 = rf.predict_proba(test)[:,1]pred2 = (pred1 >= 0.5).astype(int)submit = pd.DataFrame({'pred' : pred2})submit.to_csv('result.csv')ans = pd.read_csv('result.csv')print(ans)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
8회 기출유형 작업형 3
2:02예전 영상에서 데이터가 숫자로 써져 있지만 범주형 변수 처럼 보이는 경우 C()로 묶어서 원핫 인코딩 처리를 해야 하고, 혹여나 햇갈리면 모든 독립변수를 C()로 묶어도 상관 없다고 하셨던걸로 기억합니다.로지스틱 회귀에서 모든 독립변수를 C()로 묶어서 처리하니 다중공선성 에러가 떴습니다. 여기서 질문은 1) 작업형3에서 formula를 바탕으로 모델을 생성하는 경우 모든 독립변수에 C()를 묶어도 결과가 달라지지 않는지2) C()를 묶어야 제대로된 정답인데 묶지 않은 경우 답이 달라지는지3) 로지스틱 회귀에선 예외로 C()를 사용하면 안되는건지 궁금증이 들어 질문 드립니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
read_csv("cafe4.csv") 오류
이렇게 오류가 나오는데 어떻게 해결할까요
-
해결됨실리콘밸리 리더가 알려주는 빅데이터 처리 (Spark)
강의자료 다운로드 문의
제게 꼭 필요한 강의를 알기쉽게 강의해 주셔서 감사합니다.다름아니라, 강의 중에 교수님께서 강의자료를 올려놓았으니 다운로드 받으라고 하시는데, 어디에서 강의자료를 다운로드 받을 수 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[심화] 시계열 데이터2 에서 기간을 초로 변경하는데 오류가 있습니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요64번 전까지는 오류 없이 잘 따라가고 있었고요.여기서 갑자기 오류가 납니다.뭐가 잘못됐을까요? 영상은 7분34초 입니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
5:20 부근에 'customerID' 관련 질문
train = train.drop('customerID', axis=1)test = test.drop(['customerID'], axis=1)train에는 [] 표시가 없고 test에는 []가 있는데무슨 차이일까요?둘 중에 무엇을 해도 상관없는 것인가요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시나공교재 2과목 심화(성능개선)
안녕하세요. 인프런과 시나공 병행 공부하고 있는중인데요.혹시 2과목부분에서 심화(성능개선)이 있는데 심화를 하지 않고 제출해도 무방하나요? 아니면 심화까지는 해야 2과목 만점을 받을 수 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫 인코딩 문의사항
강의 및 자료를 따라 아래 코드로 원핫 인코딩 하면 int형(숫자)이 아니라 bool형(True False)으로 나옵니다.train = pd.get_dummies(train)test = pd.get_dummies(test)숫자로 나오게 하려면 어떻게 해야 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
(체험) 제2유형 -빅데이터분석기사
아래처럼 똑같이 풀었는데 답이 0.22, 0.34 와 같이 소수점으로나옵니다. 0 / 1 로 구분하기 위해서는 어떻게 정리하면되나요? import pandas as pdtrain = pd.read_csv("data/customer_train.csv")test = pd.read_csv("data/customer_test.csv")# train.info()# test.info()target = train.pop('성별')train = pd.get_dummies(train)test = pd.get_dummies(test)train, test = train.align(test, join='left', axis=1)# 검증용 데이터 from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state = 0)print(X_tr.shape, X_val.shape, y_tr.shape, y_val.shape)# 모델 학습 및 평가from sklearn.ensemble import RandomForestClassifiermodel = RandomForestClassifier()model.fit(X_tr, y_tr)# pred = model.predict_proba(X_val[cols])pred = model.predict_proba(X_val)from sklearn.metrics import roc_auc_scoreprint(roc_auc_score(y_val, pred[:,1]))# 제출 pred = model.predict_proba(test)submit = pd.DataFrame({ 'pred': pred2[:,1]})submit.to_csv('result.csv', index=False)print(pd.read_csv('result.csv'))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
(체험) 제2유형 -빅데이터분석기사
아래 시험환경 TEST하기 제2유형 풀어보고있는데요. 아래사진과같이 test.info()했을때,최대구매액환불금액 수량이 달라서 null값이 있는걸로 확인됩니다. 해당 건 dropna() 진행하나요? 아니면 그냥 문제풀어도 상관없는지 문의드립니다. https://dataq.goorm.io/exam/116674/체험하기/quiz/4