묻고 답해요
169만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
Data type에 따른 처리
object type에는 C() 처리해서 통계 계산하는 걸로 강의시간에 배웠는데, 1번 문제에는 처리가 안돼있어서 이유가 있는걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 전처리 관련
안녕하세요.수업을 듣다가 replace와 map의 차이를 찾아보니 map은 딕셔너리 형태에 적여 있지 않은 모든 키값을 null로 만들고 replace는 그대로 손대지 않는다고 하는데, 그러면 1과목에서 자세한 EDA가 전제 되지 않는다고 가정했을때 왠만하면 map을 피하고 replace를 해야하지 않을까? 하는 생각이 들었는데수업에는 map을 조금 권장하는거 같기도 하여 혹시나 여기에 대해서 제가 어떻게 생각을 정리해야할지 질문드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험에서 문제 불러오기
시험에서는 csv파일로 제공이 되나요?그렇다면 df = pd.read_csv('aaa.csv')를 하면 될까요?모든 문제(데이터를 불러오는 문제)에서 이 부분을 가장 먼저 실행해야 하나요? 감사합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2번문제 출력값 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 2번문제 평균 계산하니깐 원래 25.055 였는데강의에서는 print() , round()를 씌우니깐 25.022로 출력되던데이유가 뭔가요???저는 계속 25.055로 출력이 되네요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
pd.get_dummies()가 bool로 반환
23:20 위치 one-hot encoding 부분에서 pd.get_dummies()를 실행했을때, 제 실행 결과에서는 컬럼 값이 영상에서처럼 0/1로 나타나지 않고, True, False로 보여집니다.이부분 왜그런 것이고, 어떻게 0,1로 바꿀 수 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
대응표본검정 레빈
정규성, 등분산 O: ttest_ind정규성O, 등분산 X: ttest_ind, equal_val=False 정규성x일때 맨 휘트니라고 배웠는데,레빈->ttest_ind, equal_val=False 하신 이유는 무엇인가요? 정규성과, 등분산 언급이 없을 때 일까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
단일표본검정 문제 유형
문제 유형이정규성 만족할때 정규성 만족하지 않을 때샤피로 검정(문제에서 언급된다.)윌콕슨가 맞을까요? 감사합니다~
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[작업형 3] 6~7. 카이제곱 검정
1. 적합도 검정 문제에서 검정통계량은 22.1666이고, p-value는 0.0001856이 맞나요? 2. 적합도 검정 문제에서 검정결과에 대한 답이 없는데 pvalue값이 0.05보다 작으니 대립가설을 채택하고, 귀무가설을 기각하는게 맞는 것인가요? (정답 : 기각??)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
9회 작업형3 문제 1-1
1. data=df 라고 여태 적어왔어서 그냥 당연하게 df로 적었는데 어느 때에 df라 적고 어느 때에 train이라 적는건가요..?2. 그냥 헷갈리지않게 회귀분석을 할 때에 독립변수에 C()로 싹다 해줘버려도 되는걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
최종답안 계산 방식 질문
안녕하세요. 시험이 얼마 남지 않은 시점에서 필수함수 공부 + 노가다/육안으로 직접 확인해서 계산하기를 병행하고 있습니다. 이 문제는 소수점 셋째 자리까지 계산하라고 하였기 때문에 어떤 방식을 택하든 문제가 발생하진 않습니다만, 실제 시험에서 최종 답안을 계산할 때 어떤 방식이 더 맞는지 여쭙고 싶습니다. [코드]# 스팸 메시지의 평균 단어 개수와 정상 메시지의 평균 단어 개수를 각각 구하시오.wordsdata = df.groupby(['label'])['word_count'].mean()print(wordsdata.head())print(abs(wordsdata.iloc[0]-wordsdata.iloc[1])) # 방법 1print(abs(10.070026-10.022919)) # 방법 2 방법 1은 나름 정석(?)으로 구하는 것이고, 방법 2는 앞서 출력해본 wordsdata.head()의 결과물에 있는 숫자들을 그대로 활용하여 계산하는 방법입니다. [출력결과]> labelham 10.070026spam 10.022919Name: word_count, dtype: float640.047106439394330124 # 방법 1 계산 결과0.047107000000000454 # 방법 2 계산 결과보시면 출력되는 숫자가 방법에 따라 미세하게 다름을 확인할 수 있습니다. 어떤 방법이 실전 시험에서 더 적절한지 의견 여쭙고 싶습니다. 그리고 시험 출제하시는 분들도 이런 미세한 차이를 인지하시고 소수 셋째 지점까지 구하라고 한건지도 문의드리고 싶습니다. 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험 치기 전 급하게 질문 사항
다름이 아니라 실기 시험장에서 2유형 문제 풀때 만약 평가지표가 rmse가 나온다면 예전에는 mse로 바꿔가면서 0.5 곱하고 이런식으로 한거 같은데 최근에 rmse 시험장에서 되나요? 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
유형3
유형3번에서 문제에서 00검정을 하라고 명시를 해주나요?아니면 문제를 보고 판단해서 검정을 알아서 해야하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 연습문제 섹션 3
아래와 같이 학습 데이터, 테스트 데이터를 합쳐서 데이터 인코딩을 진행했을 때 칼럼명이 1267개가 나오는데 모델 학습 시 시간이 많이 걸리는 요소가 되는 건가요? 칼럼이 이 정도면 많이 있는건지, 괜찮은 건지, 그 기준도 궁금합니다.이렇게 합쳐서 했을 시, 모델 학습 및 예측 시간이 37초 정도 걸리는데 (코랩에서) 시험 환경에서는 더 많이 걸릴 수도 있는 거죠?(반응속도의 차이로 인해서)랜덤포레스트 모델 이용했을 때 37초 걸리고,RMSE : 3779.6769 값이 나옵니다. lightgbm 모델을 이용했을 때 5초가 걸리고, RMSE : 4070.0473 값이 나옵니다. 만약 랜덤포레스트 모델 학습 및 예측 시간이 시험 환경에서 1분을 초과한다면 성능이 좀 떨어지더라고 lightgbm 모델을 사용해서 제출하는 것이 더 나을까요? 또한, df.iloc를 쓰지 않고, 위 그림처럼 바로 df[:len(train)]을 써도 동일한 결과가 나오는 것 같은데 맞나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
11 기출문제 ipynb파일
제가 잘 못찾는건진 모르겠는데 10회 11회 기출문제는 파일이 업로드가 안되어있어서요,,어디들어가서 받아 볼 수 있을까요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 3 유형
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요작업형 3에 되게 많은 분석과 검정이 있는데많이 나오는 기출이나 특정 유형이 있을까요?3유형 함수나 그런것들이 너무 많아서 어떤 것이 핵심이고 자주 기출에 나오며 뭐가 출제 예상이신지 궁금합니다
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
11회 기출 유형(작업형1) 2번 정답
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요11회 기출 유형(작업형1) 강의 15:10초에서초기 값 25.055round 씌우고 24.xxprint 씌우고 25.022가 되어 답이 25.022라고 설명해주셨는데 답이 25.022라는건가요?초기값 25.055로 알고있으면 되는건가요?!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
f1 score 질문
인코딩을하면 f1 score에서 pos_label을 따로 지정할 필요가 없나요??그리고 평가하는 게 모의시험 느낌이라고 말씀하셨는데, pred = model.predict(X_val) orpred_proba = model.predict_proba(X_val)로 한 다음에, pred = model.predict(test) orpred = model.predict_proba(test)로 제출하면 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
10회 작업형 2 인코딩 질의
작업형 2에서 업로드해주신 자료에서는 원핫인코딩을 진행했는데요.원핫인코딩을 진행한 사유가 있나요?저는 시군구명만 레이블인코딩을 사용했는데 , 인코딩 종류를 결정하는 것이 헷갈립니다,제가 사용한인코딩 코드를 첨부합니다!from sklearn.preprocessing import LabelEncodercols=train.columns[train.dtypes=='O']for col in cols:le=LabelEncoder()train[col]=le.fit_transform(train[col])test[col]=le.fit(test[col]) 이렇게만 했더니, train 만 object ->int로 바뀌고 test는 바뀌지 않아서랜덤포레스트를 활용할수 없다는 에러가나와 아래를 추가했습니다..! from sklearn.preprocessing import LabelEncodercols=test.columns[test.dtypes=='O']for col in cols: le=LabelEncoder() test[col]=le.fit_transform(test[col]) 이렇게 해도 되나요..?? dtypes로 마지막에 점검했을 때는, 둘다 int로 바뀌어 있기는 했습니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
53번 강의에서 갑자기 수업노트가 없어졌습니다.
안녕하세요 오후만해도 실제 시험 환경으로 53번 강의 내용으로 수업을 들을 수 있었는데 갑자기 지금 들어오니 수업노트가 없습니다. 하단에 원래 있었거든요..빠진건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
28:19 roc_auc이유
예측을 predict으로 하지 않고 predict_proba로 하신 이유가 무엇인가요?? 크게 상관없는 걸까요?