묻고 답해요
160만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 모의문제 1
선생님, quantile 부터 저렇게 에러나서 안되는데 어떻게 해야하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 핸들링을 위한 판다스 기초1 - Quiz 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요데이터 핸들링을 위한 판다스 기초1 강의 Quiz 3. 컬럼 삭제에서 데이터를 확인했을 때 왜 이벤트가와 할인가 컬럼은 보이지 않나요? 제가 동일하게 실습 진행했을 때는 추가한 컬럼들이 보여서 질문합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
강의를 구매하면 얻을 수 있는 정보와 파일 다운로드
안녕하세요. 강의 구매했는데, 강의노트랑 기출문제 등 강의를 구매하면 얻을 수 있는 정보와 파일은 어디서 다운 받을 수 있나요? 인프런 처음 구매해봐서 다운로드 장소를 잘 모르겠습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
상관계수에 대한 t 검정 관련 질문
안녕하세요, 회귀분석 강의에서 "상관계수에 대한 t검정" 부분에서 궁금한 것 있어 문의드립니다. "상관계수에 대한 t검정"이라는 것이 상관계수를 구하고 나서 상관계수가 통계적으로 유의미한지 확인하기 위해 두 변수 사이의 상관계수가 0이 아닌지 검증하는 것이고,- 귀무: 상관계수가 0이다- 대립: 상관계수가 0이 아니다이렇게 설정하는 것으로 이해했습니다. 이후, t통계량 계산하고, p-value 구하고, 어떤 가설을 채택할지 선택하는 것이구요. 그런데 이 과정이 꼭 필요한 것인지, 이를테면 상관계수가 높게 나왔음에도 불구하고 상관계수에 대한 t검정을 했을 때 p value가 0.05보다 커서 귀무가설을 채택하는 경우가 있을 수 있는 것인지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 작업형2(신버전) 레이블인코딩 관련 질문입니다.
레이블 인코딩 시, train은 fit_transform 하고 test는 fit작업만 하는데 혹시 포문을 이용하지 않고 train['주구매상품'] = le.fit_transform(train['주구매상품'])train['주구매지점'] = le.fit_transform(train['주구매지점'])test['주구매상품'] = le.fit(test['주구매상품'])test['주구매지점'] = le.fit(test['주구매지점'])이런식으로 하드코딩 해줄때도 동일하게 test는 fit처리만 하면 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제2 6번
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 아래와 같이 작성했는데 마지막 답이 다르게 나옵니다...왜그럴까요..ㅠimport pandas as pd df = pd.read_csv("members.csv") print(df.shape) res1 = np.std(df['views']) condition = df['age'] >0 df = df[condition] print(df.shape) condition2 = df['age'] == round(df['age'],0) df = df[condition2] print(df.shape) res2 = np.std(df['views']) print(round(res1+res2,2)) (100, 10) (96, 10) (90, 10) 8374.13 << 이 부분이 강의와 상이함
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
행일치 관련해서 개념이 헷갈립니다.
인강에서 배운코드는 위와 같고 간단하게 X_train[cols]와 y_train을 display하면 아래와 같이 나옵니다.제가 궁금한 것은 X_train과 y_train이 어쨌든 각 행별 id가 서로 1:1 매칭이되기 때문에 심플하게 submit = pd.DataFrame( { 'id':X_test['id'], 'income':pred } )이렇게 표기할 수 있는것같은데 만약에 X_train과 y_train이 서로 id별로 뒤죽박죽이면 둘다 id별로 sort_value를 하고 해야하는게 맞을까요? 그리고 시험문제에서는 이정도까지 처리를 요구할까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
코랩 코드 실행결과 정렬? 설정방법
코랩에서 코드를 실행하면 위 이미지처럼 결과 값이 나오는데요.강사님 처럼 출력결과값이 예쁘게 정렬이 안되는데어떤 설정을 바꿔야 할까요?..사소하지만 결과 확인하는데 불편해서 질문 남깁니다~
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
test data 결측치 채우는 이유?
이렇게 X_test도 fillna로 결측치를 없애주셨는데제가 정확히 어느강의에서 들은건지는 기억이 안나나test data는 말그대로 테스트용이기 때문에 가공하면안된다라고 기억하고있습니다.그런데 결측치를 채우는 이유가 뭘까요?테스트데이터는 정확히 어느정도까지 가공이 되는지가 궁금합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2에서 pop 함수
train = train.drop['ID']target = train.pop['target']test_ID = test.pop['ID'] 작업형2에서 위의 코드들을 쓰시는데, 정확히 이 코드들은 어느 단계에서 쓰는걸까요?1) 피처 엔지니어링 전2) 피처 엔지니어링 후, train / validation 데이터 분리 전
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 질문
1) 수치형 변수만 활용2) 수치형 변수 & 범주형 변수 모두 활용 (라벨인코딩, 원핫인코딩) 두 가지 방식을 알려주셨는데, 질문이 있습니다.각 방식을 사용하고 평가를 해보았을 때, 1)의 방식으로 했을 때 모델의 성능이 더 좋아지는 것을 확인하였다고 한다면, 실제 시험 시 모델 성능이 더 좋은 1)의 방식으로 제출해야 하는 걸까요, 아니면 보다 심화 버전인 2)의 방식으로 제출해야 하는 걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4회 기출 유형(작업형2)
4회 기출 유형(작업형2)까지 수강하였을 때, 제가 이해한 내용은 다음과 같습니다. <모델의 성능을 평가하는 방법>데이터 분리 (X_tr, X_val, y_tr, y_val) → 모델 학습 & 하이퍼 파라미터 튜닝 → 평가 (f1 score, roc_auc_score 등) 하이퍼 파라미터 튜닝의 값을 조절해가며 평가 점수 확인데이터 분리 없이, 모델 학습 & 하이퍼 파라미터 튜닝 → 교차검증 (cross_val_score) 이때 질문드립니다.제가 이해한 대로, 모델의 성능을 평가하는 방법이 위의 2가지가 있는게 맞을까요?강사님이 영상에서 교차검증을 사용한 이유는 문제에서 평가 방식을 '평가: Macro f1-score'라고 제시해주었기 때문인가요?혹시 실제 시험 상황에서 평가 방식을 제시해주지 않는다면, 위의 2가지 방법 중 어떤 것을 사용해도 상관이 없는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
섹션3-2 문제 6번에서
섹션3-2 문제 6번에서 아래와 같이 풀면 왜 정답이 달라지는지 알 수 있을까요??? 어느 부분을 수정하면 될까요?? import pandas as pd df = pd.read_csv("members.csv") # 제거 전 views 표준편차 std_before = df["views"].std() df["age"] = df["age"] == round(df["age"], 0) df["age"] = df["age"] > 0 # 제거 후 views 표준편차 std_after = df["views"].std() round(std_before + std_after, 2)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
Wilcoxon 검정 관련 질문
안녕하세요, 강의 복습 중 Wilcoxon 검정 관련질의사항이 있어 질문 남깁니다. 단일표본 검정에서 wilcoxon 검정 시stats.wilcoxon(df['무게'] - 120, alternative='less')-120을 사용해서 진행이 되었는데요. 대응표본에서는 - 부호가 아닌df['before'], df['after'] 나열식 혹은df['before'] - df['after'] 둘다 동일한 결과값을얻는 것 같아 단일표본도 동일하게 df['무게'], 120 으로 입력 하였더니 오류가 발생하더라고요.통계 개념이 약해서인지 단일표본은 안되고 대응표본은되는게 이해가 안되서 질의드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4-2 작업형 1 모의문제2 문제4
4-2 작업형 1 모의문제2 에서 문제 4 에서 df = df.select_dtypes(exclude="O").columns 말고 df = df.select_dtypes(exclude="O") 로 해서 풀어도 맞게 푸는거죠? object 타입 칼럼을 제외시키는 것 = 거기에 딸린 데이터들도 같이 제거하는 것 이라고 생각해서 df = df.select_dtypes(exclude="O")로만 해서 풀고 결과는 같게 나왔거든요.이게 문제가 없다면 간략한 방식으로 접근하고 싶은데, 확인차 문의글 남깁니다. 확인 부탁드립니다. 감사합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 3회 작업형2 예측부분 오류
몇 번을 봐도 선생님과 동일하게 코드를 작성했는데 이부분에서 ValueError가 나네요 ㅠㅠ혹시 어디부분 코드 수정 필요한지 알려주시면 감사하겠습니다!!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 결측치 채울 때 기준데이터
피처 엔지니어링 강의 시작부분 데이터 전처리 로직 관련 질문입니다.데이터전처리 X_test 결측치를 채울 때 클래스, 국가의 경우 X_test의 최빈값을 사용하고, 나이나 주당 근무시간은 X_train 평균을 사용하는데 어떤건 X_train을 사용하고, 어떤건 X_test를 사용하는 이유가 있는걸까요???
-
미해결비전공자/입문자를 위한 Data Science(DS)와 AI 학습 & 취업 가이드
강의자료 부탁드려도 될까요?
강의가 너무 잘 정리되어 있어서 복습하고 싶은데강의자료를 받을 수 있을까요? gustjs93@naver.com으로 부탁드립니다. 감사합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제2 5번 질문
안녕하세요 선생님!작업형1 모의문제 2번의 문제5를 풀고 있는데,다른 인강에서 알려준 syntax로 코딩하는데 이렇게 하니 outlier 검출이 안되더라구요.문법적으로는 오류가 없어 보이는데 혹시 이 syntax는 틀린 걸까요?? q1 = np.quantile(df['views'], 0.25) q3 = np.quantile(df['views'], 0.75) iqr = q3-q1 print(iqr) lower = q1 - iqr*1.5 upper = q3 + iqr*1.5 outliers = (df['views'] < lower) | (df['views'] > upper) sum_out = sum(outliers) print(sum_out)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출4회 작업형 2 오류(샘플수)
# 라이브러리 불러오기import pandas as pd # 데이터 불러오기train = pd.read_csv("train.csv")test = pd.read_csv("test.csv") # EDAtrain.shape, test.shapetrain.head()test.head()train.info()train.isnull().sum()train['Segmentation'].value_counts() # 변수값 처리target = train.pop('Segmentation')train = train.drop('ID', axis=1)test_id = test.pop('ID') # 피처엔지니어링train = pd.get_dummies(train)test = pd.get_dummies(test) # 데이터분리from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_tr = train_test_split(train, target, test_size=0.2, random_state=2024)X_tr.shape, X_val.shape, y_tr.shape, y_tr.shape>> ((5332, 28), (1333, 28), (1333,), (1333,)) # 모델구축 및 평가from sklearn.ensemble import RandomForestClassifierfrom xgboost import XGBClassifierfrom sklearn.metrics import f1_score [에러부분] 샘플갯수가 안맞다고 하는거 같은데 해결방법을 모르겠어요.rf = RandomForestClassifier(random_state=2024) rf.fit(X_tr, y_tr) pred = rf.fit(X_val) print(f1_score(y_val, pred))