묻고 답해요
169만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형3 기출
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요작업형3 기출 2, 3, 4, 5 회는 없던데제가 못찾는건가요?!!!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
유형2에서 데이터분할 생략 가능여부
안녕하세요, 급하게 벼락치기 중인 수강생입니다ㅠ작업유형2에서train,val 분리없이(데이터분할 과정 생략) 작성해도 괜찮은지요?타겟분리와 관련해서 순서가 너무 헷갈려서 그러는데 데이터 불러온 후 바로 타겟분리하고 전처리 하더라도 지장이 없을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
9회 기출 유형3 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 질문합니다. 문제1-1에서는 p-value가 0.05보다 작은 이라고 적어져 있고문제1-2에서는 p-value가 0.05 이하라고 적어져 있어요답에는 차이가 없지만 '보다 작은'으로 봐야하나요? 이하라고 봐야하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
lgb 기초편
안녕하세요9회 시험을 볼 때, 강의를 작업형 2까지만 듣고 갔다가 60점으로 떨어졌습니다.그동안 바쁘다고 시험을 치루지 못하다가 마지막 기회라 이번에 접수했는데요.이번에도 시간이 없던 중에 반갑게도 [94. 빅이사] 강의가 있어서 작업형 2를 [기초편]으로 rf로 외웠는데 [96. 오징어게임]에서 Q&A 시간에 하나만 하면 LightGBM라고 하셔서요그럼 lgb 기초편 버전을 알려주실 수 있을까요?2년 전에는 정식으로 검증데이터 분할해서 했는데, 1주일동안 작업형 1/2/3을 다 외우려니 쉽지 않아 기초편으로 가보려 합니다.금요일 휴가는 냈는데 열심히 해보고 합격소식 올려볼게요...ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
괄호 사용
학습하다보니, (), [], {} 각 괄호의 사용이 너무 헷갈려서 문의드립니다.때로는 두개를 같이 사용하기도 하던데, 정확하게 세 가지 괄호를 각각 어떤 기준으로 괄호를 사용하면 될까요? 예1) ['칼럼명']# 지역별 평균 계산 df = df.groupby(['city']).mean(numeric_only=True) 예2) ("칼럼명") ->여기서는 왜 []를 안 쓰는건지....# 'f2'컬럼이 가장 큰 지역 출력 print(df.sort_values("f2", ascending = False).index[0])
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 데이터 전처리 질문
작업형 2번에서 1차로 모델 평가 후 feature importance를 확인하고, 중요도가 낮은 feature를 제거했을 때 성능이 개선되면, 제거하고 모델을 만들어도 시험에서 괜찮을지, 아니면 별도로 고려해야하는게 있을지 궁금합니다 .
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
11회 기출 유형 작업형1 문제 3-1
새로운 컬럼 cancel_TF 생성: 주문번호가 'C'로 시작하면 True, 아니면 False ('C'는 취소 주문) 라고 문제에 작성되어있는데str.contains('c')가 아니라str.startswith('c')로 해야하는거 아닌가요? contains는 c가 포함이되었는가를 판단하는걸로 알고 있고startswith는 c로 시작하는지를 판단하는걸로 알고있는데 말이죠
-
미해결빅데이터분석기사 실기 기출 완전정복 [전 회차 수록 ·계속 업데이트 · 전용 실습환경 제공]
7회 3유형 2번문제 질문
다중회귀, 로지스틱에서 독립변수에 범주형이 나오고, "회귀계수가 가장 큰 변수를 구하라"와 같은 문제가 나오면 해당 변수를 원핫인코딩/라벨인코딩 어떤걸 선택하는지, 원핫인코딩이라면 기준범주가 무엇인지, 라벨인코딩이라면 각각 어떤 값으로 매핑했는지에 따라 답이 달라지지 않나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 작업형2 (ver2023) 질문입니다
train 데이터를 학습할때 회원 id를 제외하는편이 학습하는데 있어서 더 좋지않나요? 회원 ID 같은 고유값 컬럼을 빼내고 학습시키는 경우도 본적 있는거같아서 질문드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
Data type에 따른 처리
object type에는 C() 처리해서 통계 계산하는 걸로 강의시간에 배웠는데, 1번 문제에는 처리가 안돼있어서 이유가 있는걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 전처리 관련
안녕하세요.수업을 듣다가 replace와 map의 차이를 찾아보니 map은 딕셔너리 형태에 적여 있지 않은 모든 키값을 null로 만들고 replace는 그대로 손대지 않는다고 하는데, 그러면 1과목에서 자세한 EDA가 전제 되지 않는다고 가정했을때 왠만하면 map을 피하고 replace를 해야하지 않을까? 하는 생각이 들었는데수업에는 map을 조금 권장하는거 같기도 하여 혹시나 여기에 대해서 제가 어떻게 생각을 정리해야할지 질문드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험에서 문제 불러오기
시험에서는 csv파일로 제공이 되나요?그렇다면 df = pd.read_csv('aaa.csv')를 하면 될까요?모든 문제(데이터를 불러오는 문제)에서 이 부분을 가장 먼저 실행해야 하나요? 감사합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2번문제 출력값 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 2번문제 평균 계산하니깐 원래 25.055 였는데강의에서는 print() , round()를 씌우니깐 25.022로 출력되던데이유가 뭔가요???저는 계속 25.055로 출력이 되네요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
pd.get_dummies()가 bool로 반환
23:20 위치 one-hot encoding 부분에서 pd.get_dummies()를 실행했을때, 제 실행 결과에서는 컬럼 값이 영상에서처럼 0/1로 나타나지 않고, True, False로 보여집니다.이부분 왜그런 것이고, 어떻게 0,1로 바꿀 수 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
대응표본검정 레빈
정규성, 등분산 O: ttest_ind정규성O, 등분산 X: ttest_ind, equal_val=False 정규성x일때 맨 휘트니라고 배웠는데,레빈->ttest_ind, equal_val=False 하신 이유는 무엇인가요? 정규성과, 등분산 언급이 없을 때 일까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
단일표본검정 문제 유형
문제 유형이정규성 만족할때 정규성 만족하지 않을 때샤피로 검정(문제에서 언급된다.)윌콕슨가 맞을까요? 감사합니다~
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[작업형 3] 6~7. 카이제곱 검정
1. 적합도 검정 문제에서 검정통계량은 22.1666이고, p-value는 0.0001856이 맞나요? 2. 적합도 검정 문제에서 검정결과에 대한 답이 없는데 pvalue값이 0.05보다 작으니 대립가설을 채택하고, 귀무가설을 기각하는게 맞는 것인가요? (정답 : 기각??)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
9회 작업형3 문제 1-1
1. data=df 라고 여태 적어왔어서 그냥 당연하게 df로 적었는데 어느 때에 df라 적고 어느 때에 train이라 적는건가요..?2. 그냥 헷갈리지않게 회귀분석을 할 때에 독립변수에 C()로 싹다 해줘버려도 되는걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
최종답안 계산 방식 질문
안녕하세요. 시험이 얼마 남지 않은 시점에서 필수함수 공부 + 노가다/육안으로 직접 확인해서 계산하기를 병행하고 있습니다. 이 문제는 소수점 셋째 자리까지 계산하라고 하였기 때문에 어떤 방식을 택하든 문제가 발생하진 않습니다만, 실제 시험에서 최종 답안을 계산할 때 어떤 방식이 더 맞는지 여쭙고 싶습니다. [코드]# 스팸 메시지의 평균 단어 개수와 정상 메시지의 평균 단어 개수를 각각 구하시오.wordsdata = df.groupby(['label'])['word_count'].mean()print(wordsdata.head())print(abs(wordsdata.iloc[0]-wordsdata.iloc[1])) # 방법 1print(abs(10.070026-10.022919)) # 방법 2 방법 1은 나름 정석(?)으로 구하는 것이고, 방법 2는 앞서 출력해본 wordsdata.head()의 결과물에 있는 숫자들을 그대로 활용하여 계산하는 방법입니다. [출력결과]> labelham 10.070026spam 10.022919Name: word_count, dtype: float640.047106439394330124 # 방법 1 계산 결과0.047107000000000454 # 방법 2 계산 결과보시면 출력되는 숫자가 방법에 따라 미세하게 다름을 확인할 수 있습니다. 어떤 방법이 실전 시험에서 더 적절한지 의견 여쭙고 싶습니다. 그리고 시험 출제하시는 분들도 이런 미세한 차이를 인지하시고 소수 셋째 지점까지 구하라고 한건지도 문의드리고 싶습니다. 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험 치기 전 급하게 질문 사항
다름이 아니라 실기 시험장에서 2유형 문제 풀때 만약 평가지표가 rmse가 나온다면 예전에는 mse로 바꿔가면서 0.5 곱하고 이런식으로 한거 같은데 최근에 rmse 시험장에서 되나요? 궁금합니다.