묻고 답해요
169만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
수강연장문의
안녕하세요 6/13 8:56 으로 수강기간이 끝나는데,1주일 단기 연장이 가능할까요? 결제를 통해서라도 비슷한 글이 있어서 보고 올려봅니다.이메일은 jeahyunning@naver.com 입니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
전체적인 머신러닝 순서
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 제미나이 같은 곳에 물어봐도 뭔가 명확한 답을 못 찾겠어서 질문합니다.EDA 결측치 삭제 또는 채우기train y값 pop수치형 데이터 스케일링범주형 데이터 인코딩데이터분할머신러닝 학습 및 평가테스트 값 도출 및 파일 생성이러한 과정에서 pop 하는 타이밍, 결측치 처리, 스케일링, 인코딩, 데이터 분할을 어떻게 해야 하는지 순서가 감이 안 옵니다.과정이 꼬이면 y값 데이터에 영향을 줄까봐 걱정돼서요.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
빅분기 실기 유형2질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 안녕하세요! 유형2검증까지 다 완료하고 모델 확정하고 나서80퍼센트만 학습한 상태이니정확도 올리고 싶어100퍼센트 다시 학습시키고test 검증해서 최종제출해도 되나요? 파일이미지 확인 부탁드려요!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
ID 전처리 이유
train = train.drop('CLIENTNUM', axis=1) test_id = test.pop('CLIENTNUM') id에 대해 드랍을 하는 이유가 무엇인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터제공
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요기출문제를 풀어보면 대부분 train, test로 데이터가 제공되어있는데, 실제 시험에서도 보통 이렇게 주는건가요? X_train, X_test, y_train 이렇게 나눠서 주는게 보통의 경우인건지 아님 train, test로 주는게 보통인건지 궁금합니다!
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 작업형3 꼬리질문2번
두 집단의 로그 리지스틴 값에 대한 합동 분산 추정량을 구하기 위에서 아래의 코드로 푸는 풀이가 알맞는지 질문드립니다.(혹은 우연의 일치로 해당 값이 나온건지 궁금합니다.) 꼬리질문 2에서 두 집단이라고 출제되었기에 df를 나누지않고, 로그 리지스틴 값이라고 명시되어 로그 리지스틴을 기준으로 구하는 것이기에 리지스틴에 로그를 취한 것을 종속변수로 설정해 풀었습니다. import pandas as pd import numpy as np df = pd.read_csv("data/bcc.csv") # 사용자 코딩 from statsmodels.formula.api import ols from statsmodels.stats.anova import anova_lm model = ols('np.log(Resistin) ~ C(Classification)', data=df).fit() print(anova_lm(model))출력 결과 (분산은 잔차들의 제곱의 평균이니까)이렇게 출력된 결과 Residual(잔차)의 mean_sq의 값을 두 집단의 로그 리지스틴 값에 대한 분산이라고 생각해도 되는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 개수를 구할 때, len과 value_counts 차이
20강작업형1 - 연습문제 8번5분 55초 데이터 개수를 구할 때 len 대신 value_counts를 사용할 수는 없는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 제출방
안녕하세요~작업형 2 분류와 회귀 강의를 학습하는 도중 질문이 있습니다!분류에서는제출 파일은 예측값만 result.csv 파일로 생성해 제출(컬럼명: pred, 1개) 회귀에서는제출 파일은 예측값만 포함된 result.csv로 생성 (컬럼명: pred, 1개) 분류 강의에서는 생성해 제출이라고 하셨고, 회귀 강의에서는 생성이라고 하셨는데 분류와 회귀 강의에서 한 작업에서 다른 점이 없는 거 같아서 질문드립니다. (데이터프레임 만들어서 제출하되 read로 행 개수 확인하기)정확히 어떤 차이가 있는 걸까요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
인코딩 스케일링 순서
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요인코딩과 스케일링 순서가 궁금합니다.인코딩 하고 스케일링 하면 문자형들이 이미 숫자로 바껴서 스케일링 먼저 하고 인코딩이 낫나요?라벨 인코딩 하면 0~1보다 더 큰 숫자여서 라벨 인코딩 한 것 자체도 스케일링 될 거 같은데 괜찮은지 모르겠습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
실제 시험에서도 공식을 문제에서 주는지
실제 시험에서는 3번째 줄까지만 문제로 주어지는걸까요?아니면 해당 문제와 같이 min_max 스케일링의 공식도 같이 주어지는 건가요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
수강 연장 문의
안녕하세요 6.8까지 강의를 수강 했던 수강생입니다.6.9 부로 기간이 만료됐는데 다시 결제를 하자니 부담이 되는상황이라혹시 6.20 시험 전까지라도 단기기간 결제를 하여 연장이 가능할까요?인프런 고객문의를 통해서 오늘 하루 연장하여 이렇게나마 문의를 드립니다.이메일 woog2866@naver.com 입니다!
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 정리한 내용 확인 부탁드립니다 ㅜㅜ
###데이터전처리(범주형 데이터 수 많은데 카테고리 다를 때 삭제, 비행기 문제 생각)train = train.drop(‘컬럼명’, axis=1)test = test.drop(‘컬럼명’, axis=1)결측치 채우기 (범주형)cond_o = ['범주형컬럼명1',‘컬럼명2’...]train[cond_o]=train[cond_o].fillna("X")test[cond_o]=test[cond_o].fillna("X")결측치 채우기 (수치형, 0/중앙값/최소값/평균 등 데이터에 맞게)cond_f = ['컬럼명1‘,’컬럼명2'...]train[cond_f]=train[cond_f].fillna(0)test[cond_f]=test[cond_f].fillna(0)target = train.pop(‘타겟컬럼명’) ###인코딩print(train.shape, test.shape)train = pd.get_dummies(train)test = pd.get_dummies(test)print(train.shape, test.shape) (범주형 카테고리 다르면 합쳐서 원핫인코딩 진행)print(train.shape, test.shape)concat = pd.concat([train,test])concat_dummies = pd.get_dummies(concat)n_train = len(train)train = concat_dummies[:n_train]test = concat_dummies[n_train:]print(train.shape, test.shape)###하이퍼파라미터class_weight='balanced' : 타겟 데이터 불균형일 때 사용max_depth : 3~7(분류) 7~12(회귀)n_estimators : 200~600 (100단위)learning_rate : n_estimators 와 반비례하게 사용 - 0.01~0.1 (랜덤포레스트에서 적용 안됨)이렇게 정리해서 외워도 될까요??하이퍼파라미터는 각각 어떤 상황에 사용해야 하는지 잘 모르겠습니다ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
14강 "" 사용 관련 질문
14강 18분 37초 수강중입니다.# 하나의 열에 대해 여러 집계 함수를 동시에 적용 pt = df.pivot_table( index=['구분', '크기'], values=['수량', '금액'], aggfunc={'수량': "mean", '금액': ["min", "max", "mean"]} ) pt이 부분에서,"min", "max", "mean" 같은 내장함수를 왜 "" 안에 넣어야 하는지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 제출 점수
코랩에서 lightgbm으로 학습시키고 f1-score 출력했을 때는 0.5277이 나왔는데 캐글에 제출하니까 0.3028으로 더 낮게 나오는데 왜 이런 건가요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 마무리 방법
이제 시험도 약 10일 남았는데 지금 3유형 마지막에 회귀 분석만 들으면일단 이론이 끝나고 기출유형 공부하고자 하는데 고심끝에 8회 ~ 11회 기출에 집중하는 식으로 마무리 하고자 해요.그 문제 2~3회 회독하면 시간 다 될꺼 같은데어떤 식으로 하면 되는지 마지막 조언을 부탁합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
빅이시 작업형2 기초 - 케이스 1~3 관련 문의
안녕하세요. 빅이시 강의 수강 및 코드 관련 문의 드립니다.'추천' 파트와 달리 '기초'에는 랜덤 포레스트 모델로(만) 예측하는 코드가 구현되어 있음을 확인했습니다.기초 케이스에도 LightGBM으로도 예측하는 코드를 추가 가능하실까요?추천(1~3) 코드에서 LightGBM 부분을 추출하여 기초 코드를'# 2_1. 머신러닝 학습 및 예측(랜덤포레스트)''# 2_2. 머신러닝 학습 및 예측(LightGBM)''# 3_1. 결과 파일 생성(랜덤포레스트)''# 3_2. 결과 파일 생성(LightGBM)'이렇게 코드를 자체적으로 이식(?)하고 이원화하여 수정해보려고 했는데 재대로 한 게 맞는지 확신이 없어 문의드립니다ㅠㅜ
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터프레임 슬라이싱 인덱싱 질문2
같은 질문 다시 드려서 죄송합니다;;;;;(기출 9회의 작업형 1의 3번 문제를 풀고 있습니다.)이전 인덱싱 혹은 슬라이싱 질문에서 df[숫자]는 행 선택만 되고 열 선택은 되지 않아 df.loc와 df.iloc를 사용했었는데 9번 기출에서 unstack한 경우에는 어째서 df[숫자]로 열선택이 가능한지에 대한 질문을 드렸습니다. 답변으로 기본적으로 df[숫자]는 인덱스 기반으로한 행 선택이고 unstack에서 컬럼명이 숫자(정수)로 바뀌어서 가능했다 라고 답변을 받았었습니다.일반 df[숫자] → 행 선택 (인덱스 기반) 컬럼명이 정수인 df[숫자] → 열 선택 (컬럼명 기반)그런데 이번에 9번 기출에 혹시나 하고 df[0]을 넣었는데 이 상황에서는 왜 에러가 나는 것인가요? 참고로 df를 새로 불러오고 시도해도 오류가 났었습니다.;;; 그런데 기출 9회 작업형 3에서는 df[:140]으로 데이터 분할을 합니다.... 무슨 차이 인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
단일표본검정, 샤피로검정, 윌콕슨검정
제일 먼저 정규성을 판단하기 위해 샤피로검정을 진행한 후, 따른다면 단일표본검정을 진행하면 되고, 따르지 않는다면 윌콕슨검정을 진행하면 된다 라고 이해하면 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
강의자료 다운로드 여부
강의 PPT 자료는 공유가 안 되는 걸까요? 파이썬을 완전 처음 접하는 거라 복습을 어떻게 해야할지가 막막해서 질문드려요!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
문제에 첨부된 예시와 실제 출력된 샘플 비교
문제에 명시되어있는 샘플pred0.170.330.11...이건 형식만 참고하면 되는거 맞을까요? 그러니까 샘플에 있는 수치들과 제가 만든 csv head() 출력했을 때의 수치도 샘플과 유사해야하는건지 궁금합니다. 또한 제출 버튼 누를 때 result.csv 만드는 코드 아래 csv가 잘 만들어졌는지 개인적으로 확인하는 코드 (head나 shape)는 냅둬도 괜찮은건가요? 아님 csv 만드는 코드가 마지막 줄에 있는 상태로 제출 버튼을 눌러야 하는 것일까요? 감사합니다.