질문 & 답변 - 인프런 | 커뮤니티

묻고 답해요

169만명의 커뮤니티!! 함께 토론해봐요.

인프런 TOP Writers

해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

라벨 인코딩 관련 질문입니다!

test데이터에 있는 변수가 train에 없을 경우 데이터를 합쳐야한다고 말씀해주셨습니다.test데이에 있는 변수가 train에 있는지 없는지를 확인할 수 있는 코드는 뭐가 있을까요?print(train['칼럼'].value_counts())print(test['칼럼'].value_counts()) 이 두개로 비교하면 될까요?

김건우 · 2023.11.29 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

330

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

예시문제 작업형2(신버전)

학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 train.describe()를 찍어봤을 때, 총구매액과 최대구매액의 최솟값이 음수로 나오던데 이 부분은 전처리 하지 않아도 큰 문제는 없을까요? 음수인 값을 0으로만 바꿔줬더니 0.67로 성능이 조금 더 좋아지긴 하더라고요..! 그냥 원본데이터 그대로 제출하는 것이 좋을지, 이 부분도 음수인 값들만 처리해준 다음에 성능만 높아진다면 처리하는 게 좋을지 궁금합니다.좋은 수업 감사합니다!

suksuk5058 · 2023.11.29 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

246

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

dir 사용 문의

좋은 강의 감사드립니다. dir로 목록 찾을때 python문제인지 아니면 원래 출력이 가변적으로 되는지 모르겠습니다. Base 코드from statsmodels import statsprint(dir(stats))초기에는 anova, multicomp이 보이지 않습니다. 1. 실행 후 제거from statsmodels.stats import anovafrom statsmodels.stats import multicomp 0번 코드 실행 -> 1번 코드 실행(실행 후 지우기)-> 0번 코드 실행 이렇게 하면 print(dir(stats)) 실행 시 초기에 출력이 안되던 anova, multicomp가 보이는데 왜 그런지 궁금합니다

hyunskim · 2023.11.29 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

353

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

일원분산분석 scipy 와 ols

선생님 ols로 보여주실 때는 일렬 표로 재구조화 해주셨는데 재구조화 없이 scipy로 하는 것은 어려운지 궁금합니다!

이석민 · 2023.11.29 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

477

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

4-3 type1 9번 문제

subscribed 컬럼을 str[6:7] month로 분리 해서 계산 했는데 다른 값이 나와요 .df['month'] = df['subscribed'].str[6:7] df = df.groupby('month').count() print(df.sort_values('subscribed').index[0]) 잘 분리 되는 거 까지 봤는데 왜 계산 할 때 달라질까요 ? 날짜 데이터가 아니라 그룹바이 할 때 부터 계산이 달라 질까요 ?

paul1142 · 2023.11.29 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

215

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

4-3 type1 7번 문제

r1 = sum(df.loc[2001] > df.loc[2001].mean()) r2 = sum(df.loc[2003] < df.loc[2003].mean()) 이렇게 푸셨는데. ---------------------------------------------- df = df.T # print(df.head()) # print (sum(df[2001] > df[2001].mean())) # print (sum(df[2003] < df[2003].mean())) print(sum(df[2001] > df[2001].mean()) + sum(df[2003] < df[2003].mean())) 요렇게 풀어도 되죠 ? 그리고 다 공부 했었는데 다시 보니 헷갈려서 그런데 loc 나 iloc 는 행단위로 계산이 되나요 ? 그럼 역으로 열단위로 iloc, loc는 계산 해야 할 때 (axis=1) 로 해줘야 하는 걸까요 ?

paul1142 · 2023.11.29 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

355

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

과대적합에 대해 궁금합니다

학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요사람들의 실기 후기를 보면 과대적합을 많이 걱정하고 또 과대적합으로 많이 떨어졌던데 검증 수치들을 0.8 ~ 0..9정도로 맞추면 과대적합을 피할 수 있나요? 아니라면 피하는 방법 알려주세요ㅠ

윤민성 · 2023.11.29 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

333

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형2유형에 대해서 질문드립니다!

시험보기전 작업형 2유형을 잘 풀고있는지 의문이 들어 이렇게 문의드립니다..!틀린부분이 없는지 한번 확인해주시면 감사하겠습니다!train과 test의 범주형컬럼의 고윳값 개수가 다를 때는 concat을 한 다음 라벨, 원핫인코딩을 해야한다는 최근 강의를 들었습니다. 그래서 아래와 같이 코드를 진행하였습니다.(2개의 범주형 컬럼의 고윳값이 10개 이상이어서 원핫은 하지 않았습니다.)train과 test의 범주형 컬럼의 고윳값 개수가 같을때도 concat을 사용하여 진행한 뒤 다시 train과 test로 데이터를 나누어 진행해도 괜찮은지 궁금합니다!최종적으로는 어떠한 문제가 나와도 concat을 사용하여 label과 one_hot을 진행해도 되는지 궁금합니다!늦은시간 죄송합니다ㅠ

최준환 · 2023.11.29 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

349

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

여러가지 질문

sum을 사용할때 sum(값) 혹은 .sum( ) 이런식으로 두가지로 사용되던데 두가지의 차이가 있나요?sum 에서 어떤 경우에는 합을, 어떤 경우에는 개수를 셀때 사용하던데 각각 어떤 경우에 보통 사용되는지 혹시 예시 코드를 알려주실수 있을까요? 원핫인코딩을 할 때 object 값만 넣는게 아니라 보통 전체 데이터셋을 넣어주나요? 만약에 object 값만 넣었을때랑 전체 데이터셋을 넣었을 때랑 차이가 있을까요?관찰값과 기대값을 구분하는 법을 잘 모르겠습니다..! 관찰값과 기대값의 리스트 순서를 동일하게 맞추기 위해서 sort를 진행하는 건가요?만약에 관찰값과 기대값의 순서가 다를 경우 결과에 크게 영향을 미칠까요?문제를 보고 어떤부분을 봐야 적합도 검정인지 어떻게 알 수 있을까요? 문제를 보았을 때 정확히 무엇을 묻는(어떤 방식으로 풀어야하는지) 문제인지 구분하기가 힘든 것 같습니다.. 적합도 검정뿐만 아니라 회귀분석/분산분석/ 독립성 검정 문제에서 정확히 어떤 부분을 보고 회귀 분석이다! 아니면 독립성 검정이다! 를 알 수 있을까요? 개념이 정확히 정리가 안된 것 같은데 .. 문제를 보고 구분하는 방법을 알려주시면 감사하겠습니다.. ㅜㅠgroupby(~~).mean() 형태로 많이 쓰이던데 mean 말고 다른 것도 사용할 수 있는지, mean 밖에 안되는지 궁금합니다. 다른 것도 사용할 수 있으면 어떤게 있는지 알려주세요! 질문이 너무 많네요..!! 답변 부탁드립니다

inflearn · 2023.11.29 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

242

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

3회기출 유형 작업형 2번 질문있습니다.

학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 아래 코드에서y_test 는 0,1,0 등의 값이고pred 는 proba 확률값인데 저렇게 평가점수를내는것도 가능한가요?y_test = pd.read_csv("y_test.csv") y_test roc_auc_score(y_test, pred)

kwon10375 · 2023.11.29 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

369

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

3회기출 유형 작업형 2번 질문있습니다.

학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요age 칼럼의경우 20대 30대 40대 이렇게 나누는 이유가있을까요?또 그렇게 범주형으로 나누려면 어떻게 코드를작성해야할지 궁금합니다!!

kwon10375 · 2023.11.29 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

199

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

[], [[]] 차이

df = df.groupby(['city', 'f4'])['f5'].mean()df = df.groupby(['city', 'f4'])[['f5']].mean() 위 코드와 아래 코드에 [], [[]]의 차이가 있는데 둘다 실행은 되지만 그 차이를 알고 싶습니다.

옥준호 · 2023.11.29 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

270

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

섹션5. 문제1

학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요아래 코드 실행시, RandomForestRegressor' object has no attribute 'predict_proba'에러가 발생하는데, 원인이 무엇인지궁금합니다. # data 불러오기import pandas as pdtrain = pd.read_csv('train.csv')test = pd.read_csv('test.csv')y_test = pd.read_csv('y_test.csv')# EDAtrain.shape# 전처리#test.isnull().sum() # 피처엔지니어링cols = train.select_dtypes(include = 'O').columns#train = train.drop(cols, axis = 1)#test = test.drop(cols, axis = 1)# 라벨 인코딩from sklearn.preprocessing import LabelEncoderfor col in cols: le = LabelEncoder() train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col])train = train.drop('CLIENTNUM', axis = 1)test_id = test.pop('CLIENTNUM')# 검증데이터 분리from sklearn.model_selection import train_test_splitx_tr,x_val, y_tr, y_val = train_test_split(train.drop('Attrition_Flag', axis = 1), train['Attrition_Flag'], test_size = 0.2, random_state= 2022) # 모델, 평가from sklearn.ensemble import RandomForestRegressorrd = RandomForestRegressor()rd.fit(x_tr, y_tr)pred = rd.predict(x_val) # 예측, 제출pred = rd.predict_proba(test)submit = pd.DataFrame({ 'CLIENTNUM' : test_id, 'Attrition_Flag' : pred[:, 1]})submit.to_csv('0000.csv', index = False)

kdmin88 · 2023.11.28 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

553

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

반올림 조건

작업형3에서 반올림round 함수를쓸즐몰라서 코드는반올림없이 결과를 출력하고 정답기입은 눈으로 맞게했다면 채점은 어떻게 되나요

aprilminji · 2023.11.28 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

297

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형3 예시문제 구버전

작업형3 예시문제 구버전에서지금 문제론궈무가설이 치료 후 효과있다아닌지요

aprilminji · 2023.11.28 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

273

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

2회기출 유형 작업형 2번 질문있습니다.

학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 안녕하세요, 선생님 강의와 동일하게 전처리 및인코딩 후 결과값을 출력했는데 강의와 제 답의 pred[:,1] 값이 차이가 나는데 , roc_auc_score 값은0.72 정도로 잘 나옵니다. 말씀하신것처럼평가는 제출된 csv로 한다고 했을떄 확률값이다른건 자연스러운 현상일까요?

kwon10375 · 2023.11.28 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

271

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형 2번 라벨 인코딩 질문입니다!

이전에 강의하실 때 라벨 인코딩 없이 먼저 예측값을 보고 이후에 라벨 인코딩을 진행했었는데 오브젝트들이 있으면 라벨 인코딩을 처음부터 진행하는게 모델 성능에 확실히 좋은건가요?아니면 선생님처럼 인코딩 없이 진행 후 다시 인코딩을 진행하는게 비교하기 더 좋은가요?

김건우 · 2023.11.28 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

349

답변

2
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

범주형 변수

A를 drop하게 되면 A에 대한 회귀계수는 해당 과정에서 얻지 못하는 건가요?혹시 A에 대한 회귀계수가 얻고싶을땐 다른 것을 drop해야하나요?

apollon3110 · 2023.11.28 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

286

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

6회 작업형1

마지막 3번에서 풀이방식중에df['연도'] = df['날짜'].str[:4] 이건 어떻게 하겠다는 뜻인가용?

강샛별 · 2023.11.28 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

209

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

dir 로 ols 찾는 법

시험 환경에서 dir로 ols 찾는 법이 궁금합니다.이것저것 다 해보왔는데, 시험환경에서 statsmodels 하위로 진행이 안되네요.

에구 · 2023.11.28 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

167

답변

1

인기 태그

주간 인기글