묻고 답해요
158만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
to csv 과정 중 index false 미기입
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요혹시 제출할 때 index false없이 제출하게되면 0점 처리가 되나요...? 이번 10회차에서 안하고 제출한게 기억이 났습니다...이의제기신청하면 바뀔까요...?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
10회차 작업형2 라벨 인코딩 관련
라벨 인코딩 하는 과정에서 le.fit_transform(train[col])을 한 뒤에 le.fit_transform(test[col]) test에 fit_을 같이 붙여버렸습니다. col인 상권유형의 개수(unique)가 train과 test 차이가 둘다 a b c d e f 6개로 같았으면 성능평가에 지장 없을까요? 지장이 있다면 감점이 크게 될지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 결측치...
어차피 지나간 시험이지만.. 여기저기 후기랑 카페를 둘러보니 논란이 많아서 물어볼수밖에 없네요..타겟값에 결측치를 0으로 제거했다고 되어있으면 결측치를 제거해야하는건가요.? 그냥 진행해도 무방한가요? 저는 원핫인코딩하고 렌덤포레스트만 해서 600대인가 500대 인가 기억은 잘 안나지만 딱 기본만 하고 제출했거든요... 딴짓님의 의견이 궁금합니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 ..
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요아 뭔생각이었는지 인코딩깜박하고모델돌렸다가 오브젝트 컬럼 오류 뜨길래그냥 드랍하고 모델돌렷는데 .. 이러면 아예 40점 다 날라가나요..? ㅠㅠ 2유형 빼고 나머지 4문제맞췄는데 이거때메 떨어져야하나요 ..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2유형 제출 방식
pd.DataFrame({"pred":pred}).to_csv("result.csv", index=False) 2유형 제출할때 마지막 csv 만드는 코드를submit에 담지않고 저렇게만 해도 되나요?? pred=rf.predict(test)pd.DataFrame({"pred":pred}).to_csv("result.csv", index=False) 마지막 2줄을 이렇게만 작성해서 제출했습니다read_csv로 파일 확인했을땐 test데이터와 size는 동일했습니다
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
10회차 작업형2 결측치 논란 문의
시험문제에 'gas_totl(taeget)의 결측치는 0으로 대체했다' 라고 명시되어있는데 다들 뭐 삭제해야하니 평균 중앙값 처리해야하니 하는데.. 어떻게 생각하시나요..솔직히 isnull에도 안잡혀서 그냥 처리됐구나 하고 넘어갔는데 불안감 조성하니까 착잡하네요.. 작업형1-3빼곤다맞았는데.. 이전에도 타겟값에 결측치있거나 그런문제가 있었나요? 추가로 작업형2 질문이 있습니다만..submit.to_csv('result.csv',index=False)제출print(test.shape, submit.shape)result = pd.read_csv('result.csv')print(test.shape, result.shape)이렇게 했는데 제출 한후에 파일 불러와서 형식이랑 result랑 테스트쉐잎 확인했는데 제출한 후에 확인해도 상관없는걸까요?? 그리고 이렇게 해도 괜찮은지도 질문드립니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
10회 실기 작업형2 문제 관련 문의
이슈였던 결측치(0) 전처리 작업없이 그대로 두고가장 기본적으로 라벨인코딩 / 랜덤포레스트 적용했는데, 평가 점수가689 나오더라구요...!! 가장 기본적으로 해야되는 것들만 적용해서 나온 점수인데, 많은 분들 점수대는 400후반 ~ 500중반 미만으로 나왔다고 해서 조금 걱정이 듭니다ㅠ 간격에 대해서 기준은 없지만, 600후반으로 나와도 어느정도 점수는 받을 수 있을까요~~??! 선생님 덕분에 빅분기 시험에 대해서 포기하지 않고 끝까지 공부하여 시험까지 잘 마무리한 것 같습니다~!여러 질문들에 대해서 빠르고 친절한 답변도 항상 감사했습니다!!^^
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
실기 10회 작업형 2유형
실기 10회 작업형 2유형object 컬럼 하나 있던거 train, test에서 각각 제거int형이라서 인코딩 안하고 진행 ..rmse 590.xx 점 나옴 ..이런 풀이로 점수는 받을 수 있을까요 .. ㅋㅋㅋ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
실기시험 복기는 없을까요 ?
1유형 2유형 3유형 시험 복기는 없을까요 ? 1유형 1-1번 / 1-2번40만 ? 43만 ? / 20만 1유형 2번1유형 3번 2유형은 RMSE 530정도 나왔습니다.근데 결측치 이야기가 있던데 isnull().sum() 했을 때 타겟 변수에 결측치가 없었는데,결측치는 0으로 표시된다? 라는 내용이 있긴 했으나.. 별도 결측치 처리를 안 했는데 여러분은 어떻게 하셨나요? 그리고 3유형에 오즈비 구하는 문제에 값이 2 증가한다는 가정이 있었나요 ?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
실기10회 풀이
10회 실기를 치고왔습니다작업형2.3은 무난했던거같은데 작업형1은 조금 어려웠습니다혹시 풀이강의가 있을까요??
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출10회 작업형2 결측치처리
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요타겟에 결측치가 있는 것에 대해 처리를 안하고 제출했는데그러면 무조건 틀리나요..?ㅠ점수는 잘 나왔습니다
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
딴짓님 질문있습니다
이번 10회 실기시험 1유형 3번 문제가 띄어쓰기 제외하고 단어 수 세는거였는데 저는 (띄어쓰기 전 문장의길이 - replace로 띄어쓰기 지운 문장의길이) + 1 해줬는데 단어 개수가 이렇게해도 세어질까요??10개정도 확인했을땐 다 맞아서 그냥 그렇게 풀었는데 저처럼 푼 사람이 없는 것 같아 여쭤봅니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험환경 질문 있습니다
안녕하세요 우선 늦게 질문 남기는 점 죄송합니다다름이 아니라 시험환경 관련해서 질문이 있습니다. 기존 강의에서 코랩에서 코딩을 할 때 이전 셀 실행 기능이 있어 유용하게 사용했는데시험 환경에서 같은 기능을 사용하려면 어떻게 해야하는지 궁금합니다. 추가적으로 코드 라인별 실행 불가라고 되어있는데 순차적으로 실행하면서 진행하는건 가능할까요?예를 들어 2유형이라고 치면 전처리 하고 결과 보고 이후 그 밑에 코드 이어서 인코딩 진행한 후 결과 보고 모델 돌리고 결과 보고 이런식으로 순차적으로 코드 작성하면서 실행 결과 확인하는게 가능한지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3과목 유형
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요3과목 공부할 시간이 너무 없어서그러는데강의에서 심화라고 나오는건 일단은 건너뛰어도 될까요? 3과목은 한문제라도 맞추는게 목표입니다.ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출7회 작업형3 1-3
아래 문제를 제가 혼자 다시 풀었을 때, 처음에 model = logit(formula,test).fit()이라고 test데이터로 모델을 학습해서 답이 안나왔었습니다.작업형2에서 배웠던 머신러닝의 train, test의 개념이 동일하게 적용되어학습은 무조건 test가 아니라 train데이터로 진행하는 걸 대전제로 이해하면 될까요? 기출7회 작업형3 / 문제1-3. 독립변수 weight 만 사용해 학습한 로지스틱 회귀모델에서 test데이터의 gender를 예측하고, error rate(오류율)를 구하시오. (반올림하여 소수 셋째자리까지 계산)import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/7_3/clam.csv") # train test 나누기 train = df.iloc[:210] test = df.iloc[210:] # print(train.shape, test.shape) (210, 6) (90, 6) # logit from statsmodels.formula.api import logit formula = 'gender ~ weight' model = logit(formula,train).fit() # test데이터의 gender 예측 pred = model.predict(test) print(pred) pred_ver2 = pred > 0.5 from sklearn.metrics import accuracy_score AS = accuracy_score(test['gender'],pred_ver2) ER = 1 - AS print(round(ER,3))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
평가지표 코드
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 퇴근후딴짓님 강의 잘 듣고 있습니다 🙂다름이 아니라 2유형 코드 제출 시 제가 확인하려고 써둔 코드인1) 평가 지표 코드ROC_AUC / RMSE 등등from sklearn.metrics import roc_auc_score2) 생성 csv파일 확인 코드print(pd.read_csv("r.csv").head()위의 두 코드를 주석처리하거나 지운 후 맨 마지막 코드가 submit.to_csv가 되도록 하여 제출해야하는지 궁금합니다 !감사합니다 !!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 3 문제 2-1번
logit에서 독립변수를 쓸 때 HasPhoneService와 HasTechInsurance에 C를 붙여주지 않는 건 그저 문제에 범주형이라고 나오지 않았기 때문인가요?그럼 데이터가 범주형으로 나와있어도 문제에 범주형이라고 써져 있지 않다면 C를 쓰면 안되는건가요? 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2-2 오즈비 질문
안녕하세요 강사님 2-2에서 오즈비를 np.exp(model.params['HasPhoneService'])를 통해서 구했는데 강사님과 제 답이 달라서 질문드립니다. 저는 0.692가 나왔습니다0.701이 나오려면 np.exp에 model.summary() 통해서 HasPhoneService의 회귀계수 -0.3681을 직접 복붙해 넣으면 0.701이 나오더라구요..어디서 잘못된건지, 시험에서는 어떤 방식을 써야할지 모르겠어 여쭤봅니다ㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
문제 2-2 오즈비 구하실때 왜 그게 오즈비인가요?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요부연설명도 조금 해주세요. 전화서비스를 받지 않은 고객이 이탈할 확률 대비, 전화 서비스를 받은 고객이 이탈할 확률에 대한 오즈비가 단순히 HasPhoneService에 대한 회귀계수 집어넣는 이유가 뭐에요? 나중에 또 이런문제가 나왔을때 그걸 판단하는 방법을 알려주세요... ㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 7회 작업형 1-3
안녕하세요. 질문이 있습니다.기출 7회 작업형 1-3 문제에서 저는 강사님처럼 gender 컬럼을 pop하지 않고 그냥 바로 test 데이터를 넣어 예측하였습니다. 강사님이랑 결과는 동일하게 나오는데 혹시 gender 컬럼을 꼭 분리해야 할까요? 사실 test 안에는 weight 말고도 다른 독립변수들이 같이 있잖아요.근데 모델이 독립변수로 weight을 사용하여 종속변수 gender를 예측하는 모델이니까자동으로 test 안의 weight 변수만 사용한다고 생각하고 있는데 틀린 생각인가요? from statsmodels.formula.api import logit # 1) 로지스틱 회귀모델 적합 model = logit('gender ~ weight', data = train).fit() # 2) test 데이터의 gender 예측 (남자로 분류되는 기준을 0.5로 임의 설정) pred = model.predict(test) > 0.5 # print(sum(pred)) # 3) error rate 구하기 from sklearn.metrics import accuracy_score acc = accuracy_score(test['gender'], pred) er = 1 - acc print(round(er, 3)) # 0.478