묻고 답해요
158만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
5회 기출 작업형2 코드 봐주시면 감사하겠습니다.
혼자 작성해보고 결과값도 나온거같은데 문제없는 코드일지요~ import pandas as pd train=pd.read_csv("train.csv") test=pd.read_csv("test.csv") #train.info(), test.info() #원핫인코딩(범주형을 수치형으로) target=train.pop("price") train=pd.get_dummies(train) test=pd.get_dummies(test) #데이터분할 및 검증하기 from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train,target, test_size=0.2,random_state=2022) #랜덤포레스트회귀? from sklearn.ensemble import RandomForestRegressor model=RandomForestRegressor(max_depth=7, random_state=2022) model.fit(X_tr, y_tr) pred=model.predict(X_val) pred # 모델성능평가 from sklearn.metrics import root_mean_squared_error re=root_mean_squared_error(y_val, pred) re pred = model.predict(test) result=pd.DataFrame({ "pred" : pred } ) result.to_csv("55.csv", index=False)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
rmse값이 작다는 기준?
무엇과 비교했을때 작다고 판단하는것일까요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
강의연장 요청부탁드립니다.
강의 아직 다 듣지 못했는데 오늘까지 만료네여.작년에 수강등록 후 일이 바빠서 못듣다가 다시 공부중인데.. 아직 다 못들었어여 -.-;;; 이번 6월 시험 접수는 해두었는데.. .부탁드려요
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
혹시 8,9회차도 한가지방법으로 풀기를 올려주실수 있는지
안녕하세요 열심히 선생님거 보면서 빅분기학습하고 있습니다.여러 문제 풀면서는 뭘 외워야 하는지도 잘 몰랐고 공부하면서 굉장히 복잡했는데, 확실히 한 가지 방법으로 풀기 강의를 보면서 문제를 푸니까 뭔가 그래도 잡히는 거 같아요해서 최신 기출회차인 8회,9회도 한가지방법으로 풀기 colab으로라도 올려주실수 있는지 궁금합니다. 항상 늘 강의 잘 보고 있습니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫, 레이블 인코딩에서 합치기와 분리를 사용하는 시점이 언제일까요???
안녕하세요!24. 머신러닝 학습 및 평가 (분류)25. 머신러닝 학습 및 평가 (회귀)강의를 듣고 궁금한게 생겨서 질문을 남기고 있습니다! 0) 궁금증의 개요: Train 데이터와 Test 데이터의 컬럼수가 차이가 날 때,원핫 인코딩으로 풀기위해서는 합치기(concat) 와 분리를 사용하는 것으로 인지하고 있습니다. 1) 분류 문제의 경우① Train 데이터와 Test 데이터의 컬럼수가 차이가 남-> 원핫 인코딩을 쓰려면 합치기 (concat) 사용 + 원핫 인코딩 사용 + 분리-> 레이블 인코딩으로 합치기 (concat) 미사용하고, 풀이 진행함 2) 회귀 문제의 경우① Train 데이터와 Test 데이터의 컬럼수가 차이가 안남② 합치기(concat) -> 레이블 인코딩 -> 분리를 진행하고 풀이 진행함 3) 궁금한 점① 분류 문제에서 트레인 데이터와 테스트 데이터의 컬럼의 수가 다를 때,원핫 인코딩으로 풀이 진행하려면 .concat 사용 -> 원핫 인코딩 -> 분리해야하는데이 과정이 하기 싫으면 레이블 인코딩 사용하면 되나요??? ② Train 데이터와 Test 데이터의 컬럼수가 차이가 날때만,원핫 인코딩에서 합치기와 분리를 진행하는거 아닌가요??? ③ 회귀 문제에서는 Train 데이터와 Test 데이터의 컬럼수가 차이가 안나는데,왜 레이블 인코딩으로 합치기와 분리를 하신건가요??? ④ 회귀 문제에서 레이블 인코딩을 할 때, 왜 Test 데이터에는 트랜스폼을 진행안하신 이유가 있을까요?분류 문제에서는 트랜스폼을 진행하셨는거 같은데 ㅠㅠ ⑤ 원핫 인코딩, 레이블 인코딩에서 합치기와 분리 순서가 맞는지 확인 부탁드려도 될까요?- 순서 : 합치기 -> 원핫,레이블 인코딩 -> 분리 ※ 제가 파이썬이 처음이라 궁금한점이 너무 많은거 같습니다 ㅜㅜ번거롭게 해드려 죄송합니다ㅜㅜ
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
자동완성기능 해제 관련해서 문의드립니다 ㅠㅠ
주피터로 학습초반에 환경을 잘못 건드린것 같은데 회색 글씨 없애는 방법이 있을까요..?? 코드 치면서 나오는 도움 박스도 없애고 싶습니다....
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 1~5까지의 작업형 3
은 왜 없나요 ??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
레이블 인코더를 함수써서 작성했는데요 마지막에 score점수가 나온거면 문제없이 코드작성 된걸까요? 저 코드가 맞는지 ...(작성하고도 자신이 없네요)
#고급모델링 import pandas as pd train=pd.read_csv("train.csv") test=pd.read_csv("test.csv") #범주형데이터의 컬럼들만 가져오기 cols=train.select_dtypes(include="O").columns #이번에는 레이블인코딩해보기 from sklearn.preprocessing import LabelEncoder le =LabelEncoder() for col in cols: train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col]) target=train.pop('Segmentation') train= train.drop("ID",axis=1) test_ID = test.pop("ID") from sklearn.ensemble import RandomForestClassifier model = RandomForestClassifier(max_depth=9, random_state=2022) #교차검증 from sklearn.model_selection import cross_val_score score=cross_val_score(model, train, target, scoring='f1_macro',cv=5) print(score) [0.52381264 0.51261137 0.52051415 0.53607741 0.51389807]
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
모의고사 1-3 결과값 smoothness error 문의
smoothness error 면 제대로 된 결과값이 안 뜬거 아닌가요? 강의 결과값에도 똑같이 나와있어서 문의드립니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
결과가 1로 나오는데 어디가 잘못된걸까요
target = train.pop('output')from sklearn.preprocessing import MinMaxScalersc = MinMaxScaler()train = sc.fit_transform(train)test = sc.transform(test)from sklearn.model_selection import train_test_splitx_tr, x_val, y_tr, y_val = train_test_split(train, target, test_size = 0.2 , random_state =5)# print(x_tr.shape, x_val.shape, y_tr.shape, y_val.shape)from sklearn.ensemble import RandomForestClassifierrf = RandomForestClassifier(random_state=5, max_depth = 5)rf.fit(x_tr, y_tr)pred1 = rf.predict(x_val)pred2 = rf.predict_proba(x_val)from sklearn.metrics import roc_auc_score, f1_scoreroc_auc_score = roc_auc_score(y_val, pred2[:,1])f1_score = f1_score(y_val, pred1)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
copy()
copy()함수를 사용하면 좋은 점?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제3 문제8 오류발생
선생님과 코드를 동일하게 작성하였는데, groupby부분을 실행하면 첨부한 사진과 같은 형식으로 결과값이 나옵니다.문제해결 도와주시면 감사하겠습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출문제 8회 2유형 관련 문의
안녕하세요.프로그램에 대한 지식이 없다보니 이것저것 내용을 보고 판단해서 작성한건데, 이렇게 하면 크게 문제가 없을까 싶어서 문의 드립니다. #1. 데이터불러오기import pandas as pdtrain = pd.read_csv(r'C:\Users\user\Desktop\빅데이터분석기사 실기\8회\train.csv')test = pd.read_csv(r'C:\Users\user\Desktop\빅데이터분석기사 실기\8회\test.csv')#customerID, TotalCharges#불필요 삭제train = train.drop('customerID', axis=1)test_ID = test.pop('customerID')#타켓 지정target = train.pop('TotalCharges')#원핫 라벨링train = pd.get_dummies(train)test = pd.get_dummies(test)이후데이터분리데이터학습데이터검증
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
문제 5번 IQR 관련 문제
import pandas as pd df=pd.read_csv('members.csv') q3 = df['views'].quantile(0.75) q1= df['views'].quantile(0.25) IQR=q3-q1 cond = (df['views']<q1-1.5*IQR)|(df['views']>q3+1.5*IQR) print(sum(cond)) 스스로 풀었을 때 이렇게 적었는데, or로 엮어서 합계를 구해도 각 조건 마다 카운트 해서 값을 정확히 내는 게 맞을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
컬럼 생략 ..?
id나 subscribed 컬럼은 어떻게해서 생략이 됐나요 ??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
object type 문제 다른 풀이 확인
#모의문제 2 - 내가 푼 것 import pandas as pd df=pd.read_csv('members.csv') #print(df.info()) cond=df.dtypes=='object' #print(df.shape) df=df.drop(df.columns[cond],axis=1) df=df.fillna(0) #print(df.shape) #print(df.info()) cond2=df.sum(axis=1)>3000 print(len(df[cond2])) 이렇게 해도 정답 73으로 동일한데, 이렇게 풀어도 되는지 여쭙고싶습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
age 결측치 및 이상치 처리 순서
age 컬럼의 결측치를 채운 후 이상치를 처리하는 순서로 진행이 되는 코드로 이해했습니다.그런데, age 컬럼의 이상치가 음수, 소수, 0 등으로 이상치 처리 전 결측치를 채우기 위해 평균(mean)값을 먼저 구한다면, 이상치가 평균값에 영향을 끼쳐 결측치 채움(대입)에 문제가 있지 않을까 생각이 되는데, 결측치 및 이상치의 전처리 순서를 바꾸어 이상치 처리를 먼저 하는 것은 어떨까요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
오류가 나는데 왜그런걸까요 ? 똑같이 타이핑했거든요 ㅠ
#중급단계 #목표 : 범주형 카테고리 데이터 활용하기 import pandas as pd train=pd.read_csv("train.csv") test=pd.read_csv("test.csv") #원핫?레이블인코딩? #EDA train.shape #범주형데이터를 원핫인코딩해보기 train.describe(include="O") test.describe(include="O") train=pd.get_dummies(train) test=pd.get_dummies(test) target=train.pop('Segmentation') test_ID = test.pop("ID") from sklearn.ensemble import RandomForestClassifier model = RandomForestClassifier(max_depth=9, random_state=2022) model.fit(train,target) pred = model.predict(test) pred
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
베이직과 중급단계 분석까지 왜 데이터분할검증은 하지 않는것일까요?
바로 모델학습 예측을 하시는데 데이터분할검증 과정은 왜 안하셨는지 이유가 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제 1의 문제2번 질문
문제 2번에서 isnull()로 결측치를 계산해 보니 f1 컬럼이 결측치가 30% 이상이었습니다. 이때 결측치가 30% 이상인 컬럼을 df.columns[...]로 변수에 저장해서 사용하는 것보다, 컬럼 이름 f1을 직접 코드에 넣는 방식이 더 적절한 건가요? 실무에서는 어떤 방식이 더 많이 쓰이는지도 궁금합니다.