묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
검증데이터 분할
검증데이터 분할을 할 때 왜 gender를 drop하나요?from sklearn.model_selection import train_test_splitX_train,X_val,y_train,y_val =train_test_split(train.drop('gender',axis=1),train['gender'],test_size=0.2,random_state=0)print(X_train.shape,X_val.shape,y_train.shape,y_val.shape)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
pos_label 사용 여부
pred 컬럼 명이 0또는1이 아니라 문자일 때 컬럼을 선택해주기 위해서 pos_label을 사용해준다고 하셨는데 모든 평가지표에서 pos_label을 사용해야 하는지와 pos_label을 써서 컬럼을 선택해줬는데, 실제 값을 예측할 때 {'pred':pred[:,1]}을 해주는게 맞는지 궁금합니다 이미 한 컬럼이 선택됐는데 범위를 지정할 경우 이상이 없을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
target 지정하는 방법
pop 이용하지않고 제가 쓴 것처럼 저런 코드로 target 지정하면 추후에 어디에 문제가 발생할까요?import pandas as pd train=pd.read_csv("train.csv") test=pd.read_csv("test.csv") #분류문제이고 랜덤으로 할것이다. #전처리 필요없음 (결측치없음) #basic 수치형데이터만 활용 train.info() target=train['Segmentation'] train=train[['Age','Work_Experience','Family_Size']] test=test[['Age','Work_Experience','Family_Size']] from sklearn.ensemble import RandomForestClassifier model=RandomForestClassifier() model.fit(train,target) pred=model.predict(test) pred
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
8회 기출유형 작업형3 문제 1-1 "0.05 이상" 문의
8회 기출유형 작업형3 문제 1-1 "0.05 이상"이면은 >=로 찾아야 하는게 아닌가요? 영상에서는 >로 작성하셔서 문의드립니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출4 작업형1 1번째문제에서 결측값을 마음대로 제거하고 구하면 안되는거죠?
3사분위수와 1사분위수의 차를 구하는 문제에서결측값이 있는 컬럼들의 결측값을 제거한 후에 즉 전처리를 한후에 답을 구하면 안되는거죠?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
y_test로 실제 채점을 해보려는데 오류가 나네요 ㅠ어디가 문제일까요
import pandas as pd train=pd.read_csv("train.csv") test=pd.read_csv("test.csv") print(train.shape) print(test.shape) train.info() cols=train.select_dtypes(include="O").columns cols from sklearn.preprocessing import LabelEncoder le = LabelEncoder() for col in cols: train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col]) target=train.pop("TravelInsurance") #데이터분할하기 from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=2022) from sklearn.ensemble import RandomForestClassifier model = RandomForestClassifier(n_estimators=800,max_depth=9,random_state=2022) model.fit(X_tr,y_tr) pred=model.predict_proba(X_val) from sklearn.metrics import roc_auc_score print(roc_auc_score(y_val,pred[:,1])) pred=model.predict_proba(test) print(test.shape) print(pred.shape) submit= pd.DataFrame({ "index":test.index, "pred" :pred[:,1] }) submit.to_csv("9999.csv",index=False) y_test=pd.read_csv("y_test.csv") roc_auc_score(y_test,pred)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
정말 기본적인것만 외우고 레이블인코딩으로 해서 돌려봤는데요
혼자 드디어 처음으로 외워서 작성해본 2유형코드입니다~ 평가점수가 저정도 나오는데 아무래도 수치형을 스케일링하지않아서 일까요? 아니면 원핫인코딩이 더 적절한거였을까요?아니면 저정도 점수여도 안전한 구역일까요?import pandas as pd train=pd.read_csv("train.csv") test=pd.read_csv("test.csv") print(train.shape) print(test.shape) train.info() cols=train.select_dtypes(include="O").columns cols from sklearn.preprocessing import LabelEncoder le = LabelEncoder() for col in cols: train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col]) target=train.pop("TravelInsurance") #데이터분할하기 from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=2022) from sklearn.ensemble import RandomForestClassifier model = RandomForestClassifier() model.fit(X_tr,y_tr) pred=model.predict_proba(X_val) from sklearn.metrics import roc_auc_score print(roc_auc_score(y_val,pred[:,1])) #0.7486363636363635
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 이 문제는 데이터가 3개 주어졌다고 치고 풀어보는건가요?
다른 문제들에서는 train과 test데이터 두개만 주어진채로 계속 들은거같은데 이 문제는 주어진 데이터가 3개인건지..제가 앞서 이해했던 문제들의 데이터는 train데이터를 가지고 분할하고 모델링을 한후 validation한 데이터로 pred값을 구하고 실제값과 비교해서 지표로 매겨본후에 최종 test데이터를 넣어서 csv파일로 만드는 순서인데.. 지금 이 문제처럼 데이터가 3개인것은 어떤 차이가있는 것일까요 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형3 문제 형식 문의
실제 시험 문제에서도 큰 제목으로 '다중 선형 회귀' 이렇게 제시해주는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫인코딩 object 컬럼선택 기준
안녕하세요!앞선 강의와 예제들로, id컬럼같은건 머신러닝에 긍정적인 영향을 주지않고 삭제해도 학습에 무방하다고 단순히 이해했습니다. 원핫인코딩 예제때 item_id 삭제에 대해선 설명주시긴 했지만, 모든 상황에서 Id컬럼은 제외한채 뒷 단계를 진행하는것에 고려사항이 있을지 문의드립니다. cols = ['Item_Fat_Content','Item_Type',' Outlet_Size','Outlet_Location_Type ','Outlet_Type']*Item_Identifier/Outlet_Identifier 은 제외 # Column Non-Null Count Dtype --- ------ -------------- ----- 0 Item_Identifier 6818 non-null object 1 Item_Weight 5656 non-null float64 2 Item_Fat_Content 6818 non-null object 3 Item_Visibility 6818 non-null float64 4 Item_Type 6818 non-null object 5 Item_MRP 6818 non-null float64 6 Outlet_Identifier 6818 non-null object 7 Outlet_Establishment_Year 6818 non-null int64 8 Outlet_Size 4878 non-null object 9 Outlet_Location_Type 6818 non-null object 10 Outlet_Type 6818 non-null object 11 Item_Outlet_Sales 6818 non-null float64 dtypes: float64(4), int64(1), object(7) memory usage: 639.3+ KB
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 모의고사 문제 환경
작업형 모의고사 노트북링트는 어디에 나와있나요? 코랩에서 문제를 보려고 하는데 찾을 수 없네요ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
머신러닝 강의 업데이트 관련
안녕하세요.머신러닝 신규 강의 업데이트가 완료됐다는 공지를 봤는데요.회귀 관련 강의가 없는데 확인 요청드립니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
코랩 자동완성 끄기
문제풀이에 방해되어서 코랩 자동완성 기능을 끄고 싶은데요.알려주신 [도구>설정>편집기>‘컨텍스트 기반 코드 완성 표시‘ 해제 > 저장] 진행 했음에도 불구하고, 계속해서 자동완성이 되어서 학습에 방해가 되고 있습니다.ㅠㅠ 자동완성 끄는 다른 설정 방법이 있는지 알려주세요.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
axis=1 은 열, 그런데 합계(행)?
파이썬을 이제 막 접한 초보자 입니다. 데이터 프레임 처음 배울 때, 열(column)은 axis=1이라고 배웠는데요, '판다스4- 문자열, 내장함수'강의에서 합계(행)을 할 때 df.sum(axis=1, numeric_only=True)라고 하여 혼란이 오고 있습니다 ^^;; 제가 어떻게 이해하면 좋을지 알려주시면 감사하겠습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
모델링 관련 문의드립니다.
안녕하세요, 실기 준비가 막막했는데 강의를 통해서 자신감을 얻어 가고 있습니다. 감사합니다. 강의를 보며 실무 관점에서 궁금한점이 있어 문의드립니다. 시험을 준비하면서는 제공된 데이터를 기반으로 모델링을 하고 답안을 제출하면 끝인데 실무에서는 한번 학습시킨 모델을 나중에 계속 활용해야할거 같은데 학습한 모델을 저장하거나 다시 불러서 사용할 수 있는 방법이 있는지와 이와 같은 상황에서는 보통 어떻게 모델을 관리 하는지 궁금합니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
(체험) 제2유형 빅데이터분석기사
아래와 같이 성별로 0/1로 나누어 표현하라고되어있는데 predict_proba는 확률을 구하는 문제이므로해당 건 pred2 = (pred1 >= 0.5).astype(int)이렇게 표현해도 괜찮은지문의드립니다. target = train.pop('성별')train = pd.get_dummies(train)test = pd.get_dummies(test)train, test = train.align(test, join='left', axis=1)from sklearn.model_selection import train_test_splitx_tr, x_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=0)from sklearn.ensemble import RandomForestClassifierrf = RandomForestClassifier(random_state=0)rf.fit(x_tr, y_tr)pred1 = rf.predict_proba(test)[:,1]pred2 = (pred1 >= 0.5).astype(int)submit = pd.DataFrame({'pred' : pred2})submit.to_csv('result.csv')ans = pd.read_csv('result.csv')print(ans)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
8회 기출유형 작업형 3
2:02예전 영상에서 데이터가 숫자로 써져 있지만 범주형 변수 처럼 보이는 경우 C()로 묶어서 원핫 인코딩 처리를 해야 하고, 혹여나 햇갈리면 모든 독립변수를 C()로 묶어도 상관 없다고 하셨던걸로 기억합니다.로지스틱 회귀에서 모든 독립변수를 C()로 묶어서 처리하니 다중공선성 에러가 떴습니다. 여기서 질문은 1) 작업형3에서 formula를 바탕으로 모델을 생성하는 경우 모든 독립변수에 C()를 묶어도 결과가 달라지지 않는지2) C()를 묶어야 제대로된 정답인데 묶지 않은 경우 답이 달라지는지3) 로지스틱 회귀에선 예외로 C()를 사용하면 안되는건지 궁금증이 들어 질문 드립니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
read_csv("cafe4.csv") 오류
이렇게 오류가 나오는데 어떻게 해결할까요
-
해결됨실리콘밸리 리더가 알려주는 빅데이터 처리 (Spark)
강의자료 다운로드 문의
제게 꼭 필요한 강의를 알기쉽게 강의해 주셔서 감사합니다.다름아니라, 강의 중에 교수님께서 강의자료를 올려놓았으니 다운로드 받으라고 하시는데, 어디에서 강의자료를 다운로드 받을 수 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[심화] 시계열 데이터2 에서 기간을 초로 변경하는데 오류가 있습니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요64번 전까지는 오류 없이 잘 따라가고 있었고요.여기서 갑자기 오류가 납니다.뭐가 잘못됐을까요? 영상은 7분34초 입니다.