묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이제 sklearn에서 rmse를 지원하는걸로 아는데
지원하더라도 그냥 rmse말고 mse를 이용해서 구해도 전혀 상관없는건가요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
함수 매개변수 질문
안녕하세요 질문 있습니다!함수 정의시 예를들어 def maxmin(data): 라고 정의를 할 떄,소괄호안 data 에는 아무 값이나 들어가도 되는건가요? maxmin() 일때는 함수 실행이 안되고maxmin(x) 또는 maxmin(y) 등을 쓰면 실행은 되던데... 소괄호 안에 들어 갈 수 있는 변수의 범위가 궁금합니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
문제풀이 질문있습니다~
몇가지 학습에 있어 궁금함이 생겨 질문드립니다. 1) 작업형 제1유형에서 사진과 같이 짤리는데 방법이 없을까요? 시험 환경도 동일 하더 라구요2) 작업형 1유형에서 문제3을 푸는데선생님이 푼거랑 다르게 풀어서 문제 답 내도 상관없나요?3) 작업형 2유형에서 만약 MAE를 안돌리고 답안제출한다면 y_val은 필요가 없는건지 궁금합니다^^
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이진분류 f1 (target 문자)
안녕하십니까 from sklearn.metrics import f1_score f1 = f1_score(y_true_str, y_pred_str, pos_label='A') 문자일때, pos_label = "A" (A:양성값 1)로 입력이 필요하다고 하셨는데, 여기 양성값(1)에는 어떤 값을 넣어야 하는걸까요?target을 넣으면 될까요 ?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 강의 업데이트 관련
섹션5에 작업형2 강의 내용이 새로 업데이트되었던데, 얼마전에 업데이트 되기전 강의를 다 보았어서요, 업데이트 전과 후가 많이 달라졌나요?? 다시 강의를 듣는게 좋을까요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
검증데이터 분할
검증데이터 분할을 할 때 왜 gender를 drop하나요?from sklearn.model_selection import train_test_splitX_train,X_val,y_train,y_val =train_test_split(train.drop('gender',axis=1),train['gender'],test_size=0.2,random_state=0)print(X_train.shape,X_val.shape,y_train.shape,y_val.shape)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
pos_label 사용 여부
pred 컬럼 명이 0또는1이 아니라 문자일 때 컬럼을 선택해주기 위해서 pos_label을 사용해준다고 하셨는데 모든 평가지표에서 pos_label을 사용해야 하는지와 pos_label을 써서 컬럼을 선택해줬는데, 실제 값을 예측할 때 {'pred':pred[:,1]}을 해주는게 맞는지 궁금합니다 이미 한 컬럼이 선택됐는데 범위를 지정할 경우 이상이 없을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
target 지정하는 방법
pop 이용하지않고 제가 쓴 것처럼 저런 코드로 target 지정하면 추후에 어디에 문제가 발생할까요?import pandas as pd train=pd.read_csv("train.csv") test=pd.read_csv("test.csv") #분류문제이고 랜덤으로 할것이다. #전처리 필요없음 (결측치없음) #basic 수치형데이터만 활용 train.info() target=train['Segmentation'] train=train[['Age','Work_Experience','Family_Size']] test=test[['Age','Work_Experience','Family_Size']] from sklearn.ensemble import RandomForestClassifier model=RandomForestClassifier() model.fit(train,target) pred=model.predict(test) pred
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
8회 기출유형 작업형3 문제 1-1 "0.05 이상" 문의
8회 기출유형 작업형3 문제 1-1 "0.05 이상"이면은 >=로 찾아야 하는게 아닌가요? 영상에서는 >로 작성하셔서 문의드립니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출4 작업형1 1번째문제에서 결측값을 마음대로 제거하고 구하면 안되는거죠?
3사분위수와 1사분위수의 차를 구하는 문제에서결측값이 있는 컬럼들의 결측값을 제거한 후에 즉 전처리를 한후에 답을 구하면 안되는거죠?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
y_test로 실제 채점을 해보려는데 오류가 나네요 ㅠ어디가 문제일까요
import pandas as pd train=pd.read_csv("train.csv") test=pd.read_csv("test.csv") print(train.shape) print(test.shape) train.info() cols=train.select_dtypes(include="O").columns cols from sklearn.preprocessing import LabelEncoder le = LabelEncoder() for col in cols: train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col]) target=train.pop("TravelInsurance") #데이터분할하기 from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=2022) from sklearn.ensemble import RandomForestClassifier model = RandomForestClassifier(n_estimators=800,max_depth=9,random_state=2022) model.fit(X_tr,y_tr) pred=model.predict_proba(X_val) from sklearn.metrics import roc_auc_score print(roc_auc_score(y_val,pred[:,1])) pred=model.predict_proba(test) print(test.shape) print(pred.shape) submit= pd.DataFrame({ "index":test.index, "pred" :pred[:,1] }) submit.to_csv("9999.csv",index=False) y_test=pd.read_csv("y_test.csv") roc_auc_score(y_test,pred)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
정말 기본적인것만 외우고 레이블인코딩으로 해서 돌려봤는데요
혼자 드디어 처음으로 외워서 작성해본 2유형코드입니다~ 평가점수가 저정도 나오는데 아무래도 수치형을 스케일링하지않아서 일까요? 아니면 원핫인코딩이 더 적절한거였을까요?아니면 저정도 점수여도 안전한 구역일까요?import pandas as pd train=pd.read_csv("train.csv") test=pd.read_csv("test.csv") print(train.shape) print(test.shape) train.info() cols=train.select_dtypes(include="O").columns cols from sklearn.preprocessing import LabelEncoder le = LabelEncoder() for col in cols: train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col]) target=train.pop("TravelInsurance") #데이터분할하기 from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=2022) from sklearn.ensemble import RandomForestClassifier model = RandomForestClassifier() model.fit(X_tr,y_tr) pred=model.predict_proba(X_val) from sklearn.metrics import roc_auc_score print(roc_auc_score(y_val,pred[:,1])) #0.7486363636363635
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 이 문제는 데이터가 3개 주어졌다고 치고 풀어보는건가요?
다른 문제들에서는 train과 test데이터 두개만 주어진채로 계속 들은거같은데 이 문제는 주어진 데이터가 3개인건지..제가 앞서 이해했던 문제들의 데이터는 train데이터를 가지고 분할하고 모델링을 한후 validation한 데이터로 pred값을 구하고 실제값과 비교해서 지표로 매겨본후에 최종 test데이터를 넣어서 csv파일로 만드는 순서인데.. 지금 이 문제처럼 데이터가 3개인것은 어떤 차이가있는 것일까요 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형3 문제 형식 문의
실제 시험 문제에서도 큰 제목으로 '다중 선형 회귀' 이렇게 제시해주는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫인코딩 object 컬럼선택 기준
안녕하세요!앞선 강의와 예제들로, id컬럼같은건 머신러닝에 긍정적인 영향을 주지않고 삭제해도 학습에 무방하다고 단순히 이해했습니다. 원핫인코딩 예제때 item_id 삭제에 대해선 설명주시긴 했지만, 모든 상황에서 Id컬럼은 제외한채 뒷 단계를 진행하는것에 고려사항이 있을지 문의드립니다. cols = ['Item_Fat_Content','Item_Type',' Outlet_Size','Outlet_Location_Type ','Outlet_Type']*Item_Identifier/Outlet_Identifier 은 제외 # Column Non-Null Count Dtype --- ------ -------------- ----- 0 Item_Identifier 6818 non-null object 1 Item_Weight 5656 non-null float64 2 Item_Fat_Content 6818 non-null object 3 Item_Visibility 6818 non-null float64 4 Item_Type 6818 non-null object 5 Item_MRP 6818 non-null float64 6 Outlet_Identifier 6818 non-null object 7 Outlet_Establishment_Year 6818 non-null int64 8 Outlet_Size 4878 non-null object 9 Outlet_Location_Type 6818 non-null object 10 Outlet_Type 6818 non-null object 11 Item_Outlet_Sales 6818 non-null float64 dtypes: float64(4), int64(1), object(7) memory usage: 639.3+ KB
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 모의고사 문제 환경
작업형 모의고사 노트북링트는 어디에 나와있나요? 코랩에서 문제를 보려고 하는데 찾을 수 없네요ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
머신러닝 강의 업데이트 관련
안녕하세요.머신러닝 신규 강의 업데이트가 완료됐다는 공지를 봤는데요.회귀 관련 강의가 없는데 확인 요청드립니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
코랩 자동완성 끄기
문제풀이에 방해되어서 코랩 자동완성 기능을 끄고 싶은데요.알려주신 [도구>설정>편집기>‘컨텍스트 기반 코드 완성 표시‘ 해제 > 저장] 진행 했음에도 불구하고, 계속해서 자동완성이 되어서 학습에 방해가 되고 있습니다.ㅠㅠ 자동완성 끄는 다른 설정 방법이 있는지 알려주세요.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
axis=1 은 열, 그런데 합계(행)?
파이썬을 이제 막 접한 초보자 입니다. 데이터 프레임 처음 배울 때, 열(column)은 axis=1이라고 배웠는데요, '판다스4- 문자열, 내장함수'강의에서 합계(행)을 할 때 df.sum(axis=1, numeric_only=True)라고 하여 혼란이 오고 있습니다 ^^;; 제가 어떻게 이해하면 좋을지 알려주시면 감사하겠습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
모델링 관련 문의드립니다.
안녕하세요, 실기 준비가 막막했는데 강의를 통해서 자신감을 얻어 가고 있습니다. 감사합니다. 강의를 보며 실무 관점에서 궁금한점이 있어 문의드립니다. 시험을 준비하면서는 제공된 데이터를 기반으로 모델링을 하고 답안을 제출하면 끝인데 실무에서는 한번 학습시킨 모델을 나중에 계속 활용해야할거 같은데 학습한 모델을 저장하거나 다시 불러서 사용할 수 있는 방법이 있는지와 이와 같은 상황에서는 보통 어떻게 모델을 관리 하는지 궁금합니다.