질문 & 답변 - 인프런 | 커뮤니티

묻고 답해요

169만명의 커뮤니티!! 함께 토론해봐요.

인프런 TOP Writers

해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

질문 판다스기초1에서..

DataFrame.drop() takes from 1 to 2 positional arguments but 3 were given열 삭제 부분에서 axis = 1 실행할땐 잘 되었는데 앞을 생략해서 1만 쓰고 다시 해서 이런 오류가 뜹니다. 어떻게 할 수 있을까요?

woddl27 · 2024.05.17 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

565

답변

2
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

섹션3 작업형1 모의고사 풀어보기 1-3 문제 질문드립니다

학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요~섹션3 작업형1 모의고사 풀어보기 1-3 문제에서 '고유한 값'이 가장 많은 칼럼을 구하라고 했는데, 고유한 값이라는게 중복 데이터가 아닌 값들의 갯수를 구하는 건가요? 지금 이해가 안가는게 뭐냐면, nuique함수를 쓰면 고유한 값의 갯수가 400 이상 되는데, 실제로 data의 크기는 (5,31)니까 고유한 값은 최대 5개 이상 안되는거 아닌가요?? nuique가 어떤 값을 의미하는지 잘 모르겠습니다..

sonovan · 2024.05.17 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

257

답변

3
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

라이브러리 및 데이터 불러오기 그리고 EDA 데이터 합치기 나누기

라이브러리 및 데이터 불러오기 그리고 EDA 강의를 듣고있는데, 데이터를 나누고 합치는데 그 기준은 무엇인가요? 강의 끝부분에서 x_train, y_train 데이터를 합치고, train 을 x,y 로 나누던데 어떤 기준으로 합치기를 하고 income만 남기고 왜 또 나누는건지 감을 못잡겠습니다. 데이터를 힙치고 나눠야한다는 기준은 어떤 기준을 잡아서 실행해야 할까요?

momgrp24 · 2024.05.17 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

212

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

라이브러리 및 데이터 불러오기 그리고 EDA 강의 합치기 나누기

라이브러리 및 데이터 불러오기 그리고 EDA 강의를 듣고있는데, 데이터를 나누고 합치는데 그 기준은 무엇인가요? 강의 끝부분에서 데이터를 합치고, 나누던데 어떤 기준으로 합치기를 하고 income만 남기고 왜 또 나누는건지 감을 못잡겠습니다. 데이터를 힙치고 나눠야한다는 기준은 어떤거로 잡아서 실행해야 할까요?

2024.05.17 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

213

답변

2
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

캐글 T1-6 문제에서 iloc

문제 : T1-6. 결측치 제거 및 그룹 합계 Expected Questionshttps://www.kaggle.com/agileteam/py-t1-6-expected-questions 문의 내용 : 'city가 경기이면서 f2가 0'인 조건에 만족하는 f1 값을 구할 때df.iloc[0, 0]["f1"] 이 아니라 왜 df.iloc[0]["f1"] 이렇게 입력해야 하는지 궁금합니다!

soyoung an · 2024.05.17 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

172

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

3유형 데이터 전처리에 대해

예를 들어 회귀분석에서 설명변수 표준화, 이상치 처리, 반응변수 로그변환 등 전처리를 통해 모델 성능을 높일 수 있잖아요.전처리에 따라 계수추정치, p value가 달라질 수 밖에 없는데, 계수추정치와 p value를 묻는 문제에서는 전처리한 결과를 바탕으로 정답 작성하면 오답처리 되나요?3유형은 정답이 있다고 들었습니다. 사람마다 전처리 과정이 다 다를텐데 정답이 있을 수 있다는게 잘 이해가 안돼요. 아니면 3유형은 무조건 전처리 없이 풀어야 하나요??

hnino · 2024.05.17 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

211

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

데이터 전처리(결측치 채울때 궁금한점)

학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요! 공부하다 궁금한 점이 있어 질문드립니다.데이터 전처리할때, 수치형 변수 스케일링은x_train의 값으로 scaler.transform(test)만 하는것으로 이해를 했습니다! 그런데 결측치 처리를 할때에는 train은 train의 값으로test는 test의 값으로 채우는데.. 수치형 변수 처리할때처럼 train값으로 test 값을 처리하는 것이 아니라, 결측치는 각 데이터 셋의 값으로 채우는것이 맞을까요 ?

단순한 캥거루 · 2024.05.16 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

333

답변

2
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

sum(), len(), count() 각각 언제 사용되는지 차이가 궁금합니다

합계, 길이, 개수 이런식으로 문제에 명시되지 않고 데이터 수를 구하여라 이런 식으로 적혀있을 때, sum이 사용된 적도 있고 len이 사용된 적도 있는데 sum(), len(), count() 각각 언제 사용되는지 궁금합니다수치형, 범주형에 따른 사용 가능 여부 차이도 있나요??

soyoung an · 2024.05.16 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

1

조회수

717

답변

2
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

섹션3-3 문제 8번에서

views가 세번째로 큰 city(도시) 이름을df.iloc[2,0] 가 아닌 df.loc[2,0] 로 출력하면 오류가 나는 이유가 무엇인가요??왜 loc로는 안되는지 궁금합니다! 또, iloc는 해당 숫자를 미포함하는걸로 이해하고 있는데 3번째인 대구를 출력하기 위해 왜 df.iloc[3,0] 가 아니라 df.iloc[2,0] 가 입력되는지 모르겠습니다 ㅠㅠ

soyoung an · 2024.05.16 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

166

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

[6회 기출] 작업형 1.3문제에 대해 질문드립니다.

월평균을 구해야하는 데선생님께서는 뒤에 sum() / 12를 하셨는데 이거를 그냥 mean()으로 구해도 되는걸까요?! 그리고 sum() / 12와 mean()은 둘다 평균을 구하는 코드 일까요.?

성욱 · 2024.05.16 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

153

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형3유형에서 가설검증 결과를 제출할 때

print("귀무가설 기각") 라고만 작성해도 되나요? "귀무가설 기각. 약물을 복용한 그룹과 복용하지 않은 그룹의 평균 체온은 유의미한 차이가 없다" 이런 식으로 가설 내용도 함께 기재해야 하나요??

soyoung an · 2024.05.16 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

151

답변

1
미해결
[개정판] 파이썬 머신러닝 완벽 가이드

PCA 강의 질문 관련 문의

안녕하세요. 귀한 강의 잘 듣고 있습니다 감사합니다!다름이 아니라 PCA 관련하여 'PCA의 이해' 강의에서, 데이터 변동성이 가장 큰 방향으로 축을 생성하고 데이터를 그 축에 사영한다고 해주셨는데요.혹시 그럼 데이터의 사영 방향이 축(키-몸무게 축)에 직교하는 형태로 사영하는 것이 아닌가요?! 제가 이해한 바랑 그림이 조금 달라서 여쭤보게 되었습니다 ㅎㅎ감사합니다!

장해리 · 2024.05.16 · [개정판] 파이썬 머신러닝 완벽 가이드

투표점수

0

조회수

319

답변

2
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

nothon 노트 질문

Notion 노트는 어떻게 다운로드 또는 같은 notion으로 페이지 복사를 할 수 있나여??

DataAnonymous · 2024.05.16 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

189

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

len과 sum의 차이

조건에 len을 쓰면 조건 값의 길이가 아닌 전체 행의 길이가 나오는데 len은 sum과 같이 조건식 계산 출력이 안되나요??조건의 합을 구하려면 sum만 가능한가요?print(sum(df['qsec'] >0.5)) -> 9print(len(df['qsec'] >0.5)) -> 32

석구 · 2024.05.15 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

379

답변

2
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

'행'과 '인덱스'는 같은 개념이라고 봐도 될까요?

loc , iloc를 따질 때 '행'과 '인덱스'를 같은 개념이라고 생각하고 풀어도 상관없을까요..?

성욱 · 2024.05.15 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

174

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

독립표본검정강의

독립표본 검정 강의 예시에서 보면 두집단 A,B에 대해 2가지 방법을 아래와 같이 설명 하셨는데, 결론이 상이한것이 질문입니다.방법 1: shapiro-wilk 정규성 검증 을 통해 A집단이 정규성을 띄지 않는 다는 것을 알았고, 비모수 검증으로 mannwhiteyu 검정을 통해 그룹별 차이가 없다로 결론방법2: levene 검증을 통해 분산이 동일 하지 않다를 알고,ttest_ind에 equal_var=False 옵션을 추가해서 검증 후, B그룹 평균점수가 더 높다라는 결론 -> 데이터가 동일한데 결론이 달라서 이해가 안갑니다

. · 2024.05.15 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

318

답변

2
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

리스트에서 원하는 요소만 추출하기

리스트에서 연속된 요소가 아닌, 원하는 요소만 추출하려고 한다면 어떻게 해야되나요?예로 들면, 마지막 연습문제에서 '행복과 사랑만 추출'하는 것이 아닌 '행복과 공감만 출력'하는 경우입니다.

hjhhh3760 · 2024.05.15 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

233

답변

1
미해결
실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크

pyspark 현업에서 로컬 개발 및 운영

안녕하세요. 좋은 강의 감사합니다.scala를 이용하여 spark streaming을 배포할 때, 주로 shadow jar 파일을 생성하고 해당 파일을 이용하여 배포하는 걸로 알고 있는데, pyspark 같은 경우는 현업에서 어떤 방법으로 배포를 하고 있을까요? 1. 강의에서 소개해준 것처럼 파일 단위로 배포를 하는지 다른 방법으로 배포를 하는지 궁금합니다. 2. 강의에서 도커를 이용하여 빠르게 개발 및 배포하는 방법을 소개해주셨는데, 현업 로컬 환경에서도 주로 도커를 이용하여 개발을 하고 계실까요? 감사합니다.

장원용 · 2024.05.14 · 실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크

투표점수

1

조회수

343

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

빅분기 내용을 들으면서 질문드립니다.

선생님 안녕하세요. 이제 갓 빅분기 3강... list 쪽 강의 듣는 학생입니다.이전부터 현재,, 그리고 나중에 강의에서 다루는 모든 내용은 숙지가 되고.. 자동으로 코딩이 되어야 시험 합격이 가능한것인가요?예를 들면 list.append 이런것을 전부 외워야 하는지 궁금합니다. 끝으로 해당 내용들을 모두 숙지하는게 맞다면.. 쉽게 할 수 있는 방법이 뭐가 있을까요? 파이썬이 아무래도 익숙하지 않다보니 어렵네요

신용우 · 2024.05.14 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

226

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

예시문제 작업형 2 질문

학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 예시문제 작업형2번을 풀고 강의를 보고 궁금한점이 생겨 질문드립니다. 우선 아래는 제가 작성한 코드입니다.# 출력을 원하실 경우 print() 함수 활용 # 예시) print(df.head()) # getcwd(), chdir() 등 작업 폴더 설정 불필요 # 파일 경로 상 내부 드라이브 경로(C: 등) 접근 불가 import pandas as pdtrain = pd.read_csv("data/customer_train.csv")test = pd.read_csv("data/customer_test.csv") # 사용자 코딩print(train.info())train['환불금액'] = train['환불금액'].fillna(0)test['환불금액'] = test['환불금액'].fillna(0)# train['환불금액'] = train['환불금액'].fillna(train['환불금액'].mean())# test['환불금액'] = test['환불금액'].fillna(test['환불금액'].mean()) train = train.drop(columns = '회원ID')test_id = test.pop('회원ID')X = train.iloc[:,:-1]y = train.iloc[:,-1] from sklearn.model_selection import train_test_splitX_tr , X_val , y_tr , y_val = train_test_split(X,y,test_size = 0.2 ,random_state=42)print(X_tr.shape, X_val.shape , y_tr.shape ,y_val.shape) # X_tr, X_val를 명시적으로 복사본 생성X_tr = X_tr.copy()X_val = X_val.copy() from sklearn.preprocessing import LabelEncoderle_col = ['주구매상품','주구매지점']le = LabelEncoder()for i in le_col:X_tr.loc[:, i] = le.fit_transform(X_tr[i])X_val.loc[:, i] = le.transform(X_val[i])test.loc[:, i] = le.transform(test[i]) from sklearn.ensemble import RandomForestClassifierfrom xgboost import XGBClassifierfrom sklearn.metrics import roc_auc_score rf = RandomForestClassifier(random_state = 42,n_estimators=100, # 트리의 개수max_depth=7, # 트리의 최대 깊이min_samples_split=10, # 내부 노드를 분할하기 위한 최소 샘플 수min_samples_leaf=4, # 리프 노드에 있어야 하는 최소 샘플 수max_features='sqrt', # 각 트리를 분할할 때 고려할 최대 피처 수bootstrap=True) # 부트스트래핑 사용 여부 rf.fit(X_tr,y_tr)pred = rf.predict_proba(X_val) # xgb = XGBClassifier(random_state=42,use_label_encoder=False, eval_metric='logloss')# xgb.fit(X_tr,y_tr)# pred = xgb.predict_proba(X_val)print(roc_auc_score(y_val,pred[:,1])) pred = rf.predict_proba(test)[:,1]submit = pd.DataFrame({'pred' : pred})submit.to_csv('result.csv',index=False)print(pd.read_csv('result.csv')) # rf# 0.6435519983529352# rf 하이퍼# 0.6732206123306826# xgb# 0.624477786070292# 답안 제출 참고# 아래 코드는 예시이며 변수명 등 개인별로 변경하여 활용# pd.DataFrame변수.to_csv("result.csv", index=False) Q1)우선 강의중 라벨인코딩시 오브젝트 컬럼의 unique값 중 test에는 있고 train에는 없다면 test와 train을 합쳐서 라벨인코딩 후 나눠야 한다고 말씀해주셨는데요. 방식은 알겠으나 그렇게 되면 data leakege 현상이 있을수 있어 과적합 위험도 있지 않나요? Q2) xgb에는 라벨인코딩기능이 자동탑제된걸로아는데 오브젝트타입 컬럼의 unique값중 test에는 있고 train에는 없는경우에도 작동이 되나요? Q3) # X_tr, X_val를 명시적으로 복사본 생성 X_tr = X_tr.copy() X_val = X_val.copy()이 부분은 오류가 떠서 gpt에게 물어보고 수정 한 것인데요 왜 copy를 적용해야 오류가 안뜨는지 설명해주실수있나요? 지피티가 해주는 설명은 이해가 잘안되네요

최우영 · 2024.05.14 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

252

답변

1

인기 태그

주간 인기글