묻고 답해요
169만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
유형3
유형3번에서 문제에서 00검정을 하라고 명시를 해주나요?아니면 문제를 보고 판단해서 검정을 알아서 해야하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 연습문제 섹션 3
아래와 같이 학습 데이터, 테스트 데이터를 합쳐서 데이터 인코딩을 진행했을 때 칼럼명이 1267개가 나오는데 모델 학습 시 시간이 많이 걸리는 요소가 되는 건가요? 칼럼이 이 정도면 많이 있는건지, 괜찮은 건지, 그 기준도 궁금합니다.이렇게 합쳐서 했을 시, 모델 학습 및 예측 시간이 37초 정도 걸리는데 (코랩에서) 시험 환경에서는 더 많이 걸릴 수도 있는 거죠?(반응속도의 차이로 인해서)랜덤포레스트 모델 이용했을 때 37초 걸리고,RMSE : 3779.6769 값이 나옵니다. lightgbm 모델을 이용했을 때 5초가 걸리고, RMSE : 4070.0473 값이 나옵니다. 만약 랜덤포레스트 모델 학습 및 예측 시간이 시험 환경에서 1분을 초과한다면 성능이 좀 떨어지더라고 lightgbm 모델을 사용해서 제출하는 것이 더 나을까요? 또한, df.iloc를 쓰지 않고, 위 그림처럼 바로 df[:len(train)]을 써도 동일한 결과가 나오는 것 같은데 맞나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
11 기출문제 ipynb파일
제가 잘 못찾는건진 모르겠는데 10회 11회 기출문제는 파일이 업로드가 안되어있어서요,,어디들어가서 받아 볼 수 있을까요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 3 유형
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요작업형 3에 되게 많은 분석과 검정이 있는데많이 나오는 기출이나 특정 유형이 있을까요?3유형 함수나 그런것들이 너무 많아서 어떤 것이 핵심이고 자주 기출에 나오며 뭐가 출제 예상이신지 궁금합니다
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
11회 기출 유형(작업형1) 2번 정답
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요11회 기출 유형(작업형1) 강의 15:10초에서초기 값 25.055round 씌우고 24.xxprint 씌우고 25.022가 되어 답이 25.022라고 설명해주셨는데 답이 25.022라는건가요?초기값 25.055로 알고있으면 되는건가요?!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
f1 score 질문
인코딩을하면 f1 score에서 pos_label을 따로 지정할 필요가 없나요??그리고 평가하는 게 모의시험 느낌이라고 말씀하셨는데, pred = model.predict(X_val) orpred_proba = model.predict_proba(X_val)로 한 다음에, pred = model.predict(test) orpred = model.predict_proba(test)로 제출하면 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
10회 작업형 2 인코딩 질의
작업형 2에서 업로드해주신 자료에서는 원핫인코딩을 진행했는데요.원핫인코딩을 진행한 사유가 있나요?저는 시군구명만 레이블인코딩을 사용했는데 , 인코딩 종류를 결정하는 것이 헷갈립니다,제가 사용한인코딩 코드를 첨부합니다!from sklearn.preprocessing import LabelEncodercols=train.columns[train.dtypes=='O']for col in cols:le=LabelEncoder()train[col]=le.fit_transform(train[col])test[col]=le.fit(test[col]) 이렇게만 했더니, train 만 object ->int로 바뀌고 test는 바뀌지 않아서랜덤포레스트를 활용할수 없다는 에러가나와 아래를 추가했습니다..! from sklearn.preprocessing import LabelEncodercols=test.columns[test.dtypes=='O']for col in cols: le=LabelEncoder() test[col]=le.fit_transform(test[col]) 이렇게 해도 되나요..?? dtypes로 마지막에 점검했을 때는, 둘다 int로 바뀌어 있기는 했습니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
53번 강의에서 갑자기 수업노트가 없어졌습니다.
안녕하세요 오후만해도 실제 시험 환경으로 53번 강의 내용으로 수업을 들을 수 있었는데 갑자기 지금 들어오니 수업노트가 없습니다. 하단에 원래 있었거든요..빠진건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
28:19 roc_auc이유
예측을 predict으로 하지 않고 predict_proba로 하신 이유가 무엇인가요?? 크게 상관없는 걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
수강연장문의
안녕하세요 6/13 8:56 으로 수강기간이 끝나는데,1주일 단기 연장이 가능할까요? 결제를 통해서라도 비슷한 글이 있어서 보고 올려봅니다.이메일은 jeahyunning@naver.com 입니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
전체적인 머신러닝 순서
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 제미나이 같은 곳에 물어봐도 뭔가 명확한 답을 못 찾겠어서 질문합니다.EDA 결측치 삭제 또는 채우기train y값 pop수치형 데이터 스케일링범주형 데이터 인코딩데이터분할머신러닝 학습 및 평가테스트 값 도출 및 파일 생성이러한 과정에서 pop 하는 타이밍, 결측치 처리, 스케일링, 인코딩, 데이터 분할을 어떻게 해야 하는지 순서가 감이 안 옵니다.과정이 꼬이면 y값 데이터에 영향을 줄까봐 걱정돼서요.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
빅분기 실기 유형2질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 안녕하세요! 유형2검증까지 다 완료하고 모델 확정하고 나서80퍼센트만 학습한 상태이니정확도 올리고 싶어100퍼센트 다시 학습시키고test 검증해서 최종제출해도 되나요? 파일이미지 확인 부탁드려요!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
ID 전처리 이유
train = train.drop('CLIENTNUM', axis=1) test_id = test.pop('CLIENTNUM') id에 대해 드랍을 하는 이유가 무엇인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터제공
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요기출문제를 풀어보면 대부분 train, test로 데이터가 제공되어있는데, 실제 시험에서도 보통 이렇게 주는건가요? X_train, X_test, y_train 이렇게 나눠서 주는게 보통의 경우인건지 아님 train, test로 주는게 보통인건지 궁금합니다!
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 작업형3 꼬리질문2번
두 집단의 로그 리지스틴 값에 대한 합동 분산 추정량을 구하기 위에서 아래의 코드로 푸는 풀이가 알맞는지 질문드립니다.(혹은 우연의 일치로 해당 값이 나온건지 궁금합니다.) 꼬리질문 2에서 두 집단이라고 출제되었기에 df를 나누지않고, 로그 리지스틴 값이라고 명시되어 로그 리지스틴을 기준으로 구하는 것이기에 리지스틴에 로그를 취한 것을 종속변수로 설정해 풀었습니다. import pandas as pd import numpy as np df = pd.read_csv("data/bcc.csv") # 사용자 코딩 from statsmodels.formula.api import ols from statsmodels.stats.anova import anova_lm model = ols('np.log(Resistin) ~ C(Classification)', data=df).fit() print(anova_lm(model))출력 결과 (분산은 잔차들의 제곱의 평균이니까)이렇게 출력된 결과 Residual(잔차)의 mean_sq의 값을 두 집단의 로그 리지스틴 값에 대한 분산이라고 생각해도 되는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 개수를 구할 때, len과 value_counts 차이
20강작업형1 - 연습문제 8번5분 55초 데이터 개수를 구할 때 len 대신 value_counts를 사용할 수는 없는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 제출방
안녕하세요~작업형 2 분류와 회귀 강의를 학습하는 도중 질문이 있습니다!분류에서는제출 파일은 예측값만 result.csv 파일로 생성해 제출(컬럼명: pred, 1개) 회귀에서는제출 파일은 예측값만 포함된 result.csv로 생성 (컬럼명: pred, 1개) 분류 강의에서는 생성해 제출이라고 하셨고, 회귀 강의에서는 생성이라고 하셨는데 분류와 회귀 강의에서 한 작업에서 다른 점이 없는 거 같아서 질문드립니다. (데이터프레임 만들어서 제출하되 read로 행 개수 확인하기)정확히 어떤 차이가 있는 걸까요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
인코딩 스케일링 순서
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요인코딩과 스케일링 순서가 궁금합니다.인코딩 하고 스케일링 하면 문자형들이 이미 숫자로 바껴서 스케일링 먼저 하고 인코딩이 낫나요?라벨 인코딩 하면 0~1보다 더 큰 숫자여서 라벨 인코딩 한 것 자체도 스케일링 될 거 같은데 괜찮은지 모르겠습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
실제 시험에서도 공식을 문제에서 주는지
실제 시험에서는 3번째 줄까지만 문제로 주어지는걸까요?아니면 해당 문제와 같이 min_max 스케일링의 공식도 같이 주어지는 건가요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
수강 연장 문의
안녕하세요 6.8까지 강의를 수강 했던 수강생입니다.6.9 부로 기간이 만료됐는데 다시 결제를 하자니 부담이 되는상황이라혹시 6.20 시험 전까지라도 단기기간 결제를 하여 연장이 가능할까요?인프런 고객문의를 통해서 오늘 하루 연장하여 이렇게나마 문의를 드립니다.이메일 woog2866@naver.com 입니다!