묻고 답해요
131만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 1번 공부하다가 질문이 있어 남깁니다.
안녕하세요. 작업형 1번 공부하다가 의문점이 있어 질문 남깁니다.혹시 작업형 1번을 풀 때, 중간에 csv 파일을 제출하고 해당 csv 파일을 불러와서 다시 작업을 이어가도 괜찮을까요?예를들어 행이 1~100까지의 DataFrame이 있는데 결측치 처리를 한다고 20개의 행을 날려서 80개의 행만 남았습니다. 근데 행이 중간중간 날라가서 index 번호를 보니까 0 1 2 4 6 7 8 10 이렇게 군데 군데가 비어있습니다. for문을 사용할 때, 해당 DataFrame을 loc으로 처리하면 중간에 비어있는 index 번호 때문에 오류가 납니다. 그래서 이렇게 결측치 처리된 csv 파일을 중간에 to_csv로 보내고, 해당 파일을 다시 불러오면 index가 0~80까지 이쁘게 나오더라고요. 혹시 이러한 방법이 문제가 될까요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
질문 판다스기초1에서..
DataFrame.drop() takes from 1 to 2 positional arguments but 3 were given열 삭제 부분에서 axis = 1 실행할땐 잘 되었는데 앞을 생략해서 1만 쓰고 다시 해서 이런 오류가 뜹니다. 어떻게 할 수 있을까요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
섹션3 작업형1 모의고사 풀어보기 1-3 문제 질문드립니다
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요~섹션3 작업형1 모의고사 풀어보기 1-3 문제에서 '고유한 값'이 가장 많은 칼럼을 구하라고 했는데, 고유한 값이라는게 중복 데이터가 아닌 값들의 갯수를 구하는 건가요? 지금 이해가 안가는게 뭐냐면, nuique함수를 쓰면 고유한 값의 갯수가 400 이상 되는데, 실제로 data의 크기는 (5,31)니까 고유한 값은 최대 5개 이상 안되는거 아닌가요?? nuique가 어떤 값을 의미하는지 잘 모르겠습니다..
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
라이브러리 및 데이터 불러오기 그리고 EDA 데이터 합치기 나누기
라이브러리 및 데이터 불러오기 그리고 EDA 강의를 듣고있는데, 데이터를 나누고 합치는데 그 기준은 무엇인가요? 강의 끝부분에서 x_train, y_train 데이터를 합치고, train 을 x,y 로 나누던데 어떤 기준으로 합치기를 하고 income만 남기고 왜 또 나누는건지 감을 못잡겠습니다. 데이터를 힙치고 나눠야한다는 기준은 어떤 기준을 잡아서 실행해야 할까요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
라이브러리 및 데이터 불러오기 그리고 EDA 강의 합치기 나누기
라이브러리 및 데이터 불러오기 그리고 EDA 강의를 듣고있는데, 데이터를 나누고 합치는데 그 기준은 무엇인가요? 강의 끝부분에서 데이터를 합치고, 나누던데 어떤 기준으로 합치기를 하고 income만 남기고 왜 또 나누는건지 감을 못잡겠습니다. 데이터를 힙치고 나눠야한다는 기준은 어떤거로 잡아서 실행해야 할까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 T1-6 문제에서 iloc
문제 : T1-6. 결측치 제거 및 그룹 합계 Expected Questionshttps://www.kaggle.com/agileteam/py-t1-6-expected-questions 문의 내용 : 'city가 경기이면서 f2가 0'인 조건에 만족하는 f1 값을 구할 때df.iloc[0, 0]["f1"] 이 아니라 왜 df.iloc[0]["f1"] 이렇게 입력해야 하는지 궁금합니다!
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3유형 데이터 전처리에 대해
예를 들어 회귀분석에서 설명변수 표준화, 이상치 처리, 반응변수 로그변환 등 전처리를 통해 모델 성능을 높일 수 있잖아요.전처리에 따라 계수추정치, p value가 달라질 수 밖에 없는데, 계수추정치와 p value를 묻는 문제에서는 전처리한 결과를 바탕으로 정답 작성하면 오답처리 되나요?3유형은 정답이 있다고 들었습니다. 사람마다 전처리 과정이 다 다를텐데 정답이 있을 수 있다는게 잘 이해가 안돼요. 아니면 3유형은 무조건 전처리 없이 풀어야 하나요??
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 전처리(결측치 채울때 궁금한점)
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요! 공부하다 궁금한 점이 있어 질문드립니다.데이터 전처리할때, 수치형 변수 스케일링은x_train의 값으로 scaler.transform(test)만 하는것으로 이해를 했습니다! 그런데 결측치 처리를 할때에는 train은 train의 값으로test는 test의 값으로 채우는데.. 수치형 변수 처리할때처럼 train값으로 test 값을 처리하는 것이 아니라, 결측치는 각 데이터 셋의 값으로 채우는것이 맞을까요 ?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
sum(), len(), count() 각각 언제 사용되는지 차이가 궁금합니다
합계, 길이, 개수 이런식으로 문제에 명시되지 않고 데이터 수를 구하여라 이런 식으로 적혀있을 때, sum이 사용된 적도 있고 len이 사용된 적도 있는데 sum(), len(), count() 각각 언제 사용되는지 궁금합니다수치형, 범주형에 따른 사용 가능 여부 차이도 있나요??
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
섹션3-3 문제 8번에서
views가 세번째로 큰 city(도시) 이름을df.iloc[2,0] 가 아닌 df.loc[2,0] 로 출력하면 오류가 나는 이유가 무엇인가요??왜 loc로는 안되는지 궁금합니다! 또, iloc는 해당 숫자를 미포함하는걸로 이해하고 있는데 3번째인 대구를 출력하기 위해 왜 df.iloc[3,0] 가 아니라 df.iloc[2,0] 가 입력되는지 모르겠습니다 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[6회 기출] 작업형 1.3문제에 대해 질문드립니다.
월평균을 구해야하는 데선생님께서는 뒤에 sum() / 12를 하셨는데 이거를 그냥 mean()으로 구해도 되는걸까요?! 그리고 sum() / 12와 mean()은 둘다 평균을 구하는 코드 일까요.?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형3유형에서 가설검증 결과를 제출할 때
print("귀무가설 기각") 라고만 작성해도 되나요? "귀무가설 기각. 약물을 복용한 그룹과 복용하지 않은 그룹의 평균 체온은 유의미한 차이가 없다" 이런 식으로 가설 내용도 함께 기재해야 하나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
nothon 노트 질문
Notion 노트는 어떻게 다운로드 또는 같은 notion으로 페이지 복사를 할 수 있나여??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
len과 sum의 차이
조건에 len을 쓰면 조건 값의 길이가 아닌 전체 행의 길이가 나오는데 len은 sum과 같이 조건식 계산 출력이 안되나요??조건의 합을 구하려면 sum만 가능한가요?print(sum(df['qsec'] >0.5)) -> 9print(len(df['qsec'] >0.5)) -> 32
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
'행'과 '인덱스'는 같은 개념이라고 봐도 될까요?
loc , iloc를 따질 때 '행'과 '인덱스'를 같은 개념이라고 생각하고 풀어도 상관없을까요..?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
독립표본검정강의
독립표본 검정 강의 예시에서 보면 두집단 A,B에 대해 2가지 방법을 아래와 같이 설명 하셨는데, 결론이 상이한것이 질문입니다.방법 1: shapiro-wilk 정규성 검증 을 통해 A집단이 정규성을 띄지 않는 다는 것을 알았고, 비모수 검증으로 mannwhiteyu 검정을 통해 그룹별 차이가 없다로 결론방법2: levene 검증을 통해 분산이 동일 하지 않다를 알고,ttest_ind에 equal_var=False 옵션을 추가해서 검증 후, B그룹 평균점수가 더 높다라는 결론 -> 데이터가 동일한데 결론이 달라서 이해가 안갑니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
리스트에서 원하는 요소만 추출하기
리스트에서 연속된 요소가 아닌, 원하는 요소만 추출하려고 한다면 어떻게 해야되나요?예로 들면, 마지막 연습문제에서 '행복과 사랑만 추출'하는 것이 아닌 '행복과 공감만 출력'하는 경우입니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
빅분기 내용을 들으면서 질문드립니다.
선생님 안녕하세요. 이제 갓 빅분기 3강... list 쪽 강의 듣는 학생입니다.이전부터 현재,, 그리고 나중에 강의에서 다루는 모든 내용은 숙지가 되고.. 자동으로 코딩이 되어야 시험 합격이 가능한것인가요?예를 들면 list.append 이런것을 전부 외워야 하는지 궁금합니다. 끝으로 해당 내용들을 모두 숙지하는게 맞다면.. 쉽게 할 수 있는 방법이 뭐가 있을까요? 파이썬이 아무래도 익숙하지 않다보니 어렵네요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 작업형 2 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 예시문제 작업형2번을 풀고 강의를 보고 궁금한점이 생겨 질문드립니다. 우선 아래는 제가 작성한 코드입니다.# 출력을 원하실 경우 print() 함수 활용 # 예시) print(df.head()) # getcwd(), chdir() 등 작업 폴더 설정 불필요 # 파일 경로 상 내부 드라이브 경로(C: 등) 접근 불가 import pandas as pdtrain = pd.read_csv("data/customer_train.csv")test = pd.read_csv("data/customer_test.csv") # 사용자 코딩print(train.info())train['환불금액'] = train['환불금액'].fillna(0)test['환불금액'] = test['환불금액'].fillna(0)# train['환불금액'] = train['환불금액'].fillna(train['환불금액'].mean())# test['환불금액'] = test['환불금액'].fillna(test['환불금액'].mean()) train = train.drop(columns = '회원ID')test_id = test.pop('회원ID')X = train.iloc[:,:-1]y = train.iloc[:,-1] from sklearn.model_selection import train_test_splitX_tr , X_val , y_tr , y_val = train_test_split(X,y,test_size = 0.2 ,random_state=42)print(X_tr.shape, X_val.shape , y_tr.shape ,y_val.shape) # X_tr, X_val를 명시적으로 복사본 생성X_tr = X_tr.copy()X_val = X_val.copy() from sklearn.preprocessing import LabelEncoderle_col = ['주구매상품','주구매지점']le = LabelEncoder()for i in le_col:X_tr.loc[:, i] = le.fit_transform(X_tr[i])X_val.loc[:, i] = le.transform(X_val[i])test.loc[:, i] = le.transform(test[i]) from sklearn.ensemble import RandomForestClassifierfrom xgboost import XGBClassifierfrom sklearn.metrics import roc_auc_score rf = RandomForestClassifier(random_state = 42,n_estimators=100, # 트리의 개수max_depth=7, # 트리의 최대 깊이min_samples_split=10, # 내부 노드를 분할하기 위한 최소 샘플 수min_samples_leaf=4, # 리프 노드에 있어야 하는 최소 샘플 수max_features='sqrt', # 각 트리를 분할할 때 고려할 최대 피처 수bootstrap=True) # 부트스트래핑 사용 여부 rf.fit(X_tr,y_tr)pred = rf.predict_proba(X_val) # xgb = XGBClassifier(random_state=42,use_label_encoder=False, eval_metric='logloss')# xgb.fit(X_tr,y_tr)# pred = xgb.predict_proba(X_val)print(roc_auc_score(y_val,pred[:,1])) pred = rf.predict_proba(test)[:,1]submit = pd.DataFrame({'pred' : pred})submit.to_csv('result.csv',index=False)print(pd.read_csv('result.csv')) # rf# 0.6435519983529352# rf 하이퍼# 0.6732206123306826# xgb# 0.624477786070292# 답안 제출 참고# 아래 코드는 예시이며 변수명 등 개인별로 변경하여 활용# pd.DataFrame변수.to_csv("result.csv", index=False) Q1)우선 강의중 라벨인코딩시 오브젝트 컬럼의 unique값 중 test에는 있고 train에는 없다면 test와 train을 합쳐서 라벨인코딩 후 나눠야 한다고 말씀해주셨는데요. 방식은 알겠으나 그렇게 되면 data leakege 현상이 있을수 있어 과적합 위험도 있지 않나요? Q2) xgb에는 라벨인코딩기능이 자동탑제된걸로아는데 오브젝트타입 컬럼의 unique값중 test에는 있고 train에는 없는경우에도 작동이 되나요? Q3) # X_tr, X_val를 명시적으로 복사본 생성 X_tr = X_tr.copy() X_val = X_val.copy()이 부분은 오류가 떠서 gpt에게 물어보고 수정 한 것인데요 왜 copy를 적용해야 오류가 안뜨는지 설명해주실수있나요? 지피티가 해주는 설명은 이해가 잘안되네요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
섹션3 파일불러오기 오류 해결 방안
import pandas as pddf=pd.read_csv("members.csv") 강의처럼 똑같이 불러왔는데 아래 오류가 발생할경우 어떻게 해결하면되나요? --------------------------------------------------------------------------- FileNotFoundError Traceback (most recent call last) <ipython-input-1-f7b7bdb7966f> in <cell line: 3>() 1 # your code 2 import pandas as pd ----> 3 df=pd.read_csv("members.csv") 4 5 4 frames/usr/local/lib/python3.10/dist-packages/pandas/io/common.py in get_handle(path_or_buf, mode, encoding, compression, memory_map, is_text, errors, storage_options) 857 if ioargs.encoding and "b" not in ioargs.mode: 858 # Encoding --> 859 handle = open( 860 handle, 861 ioargs.mode, FileNotFoundError: [Errno 2] No such file or directory: 'members.csv'