묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
bfill / ffill 관련 질문입니다.
문제 8번의 df.fillna(method='bfill') 관련입니다. bfill의 경우, 데이터 최하단 행에 있는 결측치는 어떻게 해결할 수 있을까요? 마찬가지로 ffill의 경우, 데이터 최상단 행에 있는 결측치는 어떻게 해결 가능한지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
결측치 그냥 최빈값으로 채우는게 무난할까요?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요연습문제 섹션4결측치 채우기아래와 같이 때려넣어도됩니까? a = train['gender'].mode()[0] train['gender'] = train['gender'].fillna(a) b = train['enrolled_university'].mode()[0] train['enrolled_university'] = train['enrolled_university'].fillna(b) c = train['education_level'].mode()[0] train['education_level'] = train['education_level'].fillna(c) d = train['major_discipline'].mode()[0] train['major_discipline'] = train['major_discipline'].fillna(d) e = train['experience'].mode()[0] train['experience'] = train['experience'].fillna(e) f = train['company_size'].mode()[0] train['company_size'] = train['company_size'].fillna(f) g = train['company_type'].mode()[0] train['company_type'] = train['company_type'].fillna(g) h = train['last_new_job'].mode()[0] train['last_new_job'] = train['last_new_job'].fillna(h)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
결측치 X 채우는 이유가 ?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요결측치 처리를 간단하게 X 로 하셨던데 특별한 이유가 있나요? mode 나 mean 말고 저런걸로 처리해도 문제없는지?# 결측치 처리 train = train.fillna("X") test = test.fillna("X")
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
범주형칼럼 삭제 기준?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 범주형칼럼 unique 수가 너무 많아서 그냥 drop 하는 경우도 있었는데.. 기준을 어떻게 잡아야하나요?그냥 너무 많다싶으면 그냥 삭제해도되는건지?..(종속변수뺴고) 개인적인 기준ㅇ ㅣ있으신가요?혹시 괜히 날려서 0점 처리 되는 경우는 없나요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
잔차이탈도 구하는 법
잔차이탈도는 GLM으로만 구할 수 있는게 아닌가요? logit 으로는 못구한다고 했었던거 같은데 헷갈려요. 그냥 로그우도 사용해서 구하면 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫인코딩 만능여부
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 해당 문제에서 원핫인코딩 사용시 (4116, 18) (1764, 18)(4116, 4159) (1764, 1807)보시는 것처럼 엄청 늘어나게 되는데 그대로 랜덤포레스트로 예측하고 제출해도 괜찮을까요? 그리고 인코딩이후에 트레인과 테스트의 열의 수가 다르면 뭔가 잘못된건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫인코딩 concat 여부 이렇게 확인하면 되나요?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요train.descirbe(include='O'), test.descirbe(include='O') 한 다음에 범주형칼럼이 일치하고 유니크수가 같다면 바로 진행하고, 범주형칼럼이 다르다던지 유니크수가 상이하면 concat 해서 진행하면될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[작업형2] 결과 파일 생성시
이진분류 결과파일 생성시submit = pd.DataFrame({'pred':pred[:,1]}) 이렇게 적으셨는데, 값이 1,0일 때만 그런가요? A/B/C와 같이 다중 분류인 경우는 어떻게 되나요..? 양성이라고 하신 부분이 무슨 뜻인지 잘 모르겠어서요... 다중이나 회귀일때는 submit = pd.DataFrame({'pred':pred}) 로 적으면 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 3 유형
작업형 3 강의에 있는 유형들 다 풀어보았는데간단히 정리해보니 수치형 데이터 결측치 → 눈치껏 처리범주형 fillna('X')pd.concat 후 분리하여 원핫인코딩회기/ 분류 따라 RandomForestRegressor/Classifier사용하이퍼 파라미터 튜닝max_depth 3~5, n_estimators 300-500(?) 이정도하면 무난히 점수 받을수 있을까요?과정중에 잘못된게 있다면 짚어주시면 감사하겠습니다.하이퍼파라미터 튜닝할때 저 둘이 같이 안쓰고 하나만 수정해도 과적합 문제가 발생하지 않을지도 궁금합니다. (저 범주안에서는 과적합 걱정하지 않아도될까요?)
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 cvs 제출전 확인하기
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요마지막 result.csv 제출할때 index=False 하잖아요그 이유가 처음에 문제 답안 예시처럼 pred만 나오게하려고한다고 알고있는데마지막 확인차 pd.read로 확인시 pred 0 2 1 0 2 0 3 2 4 0 이렇게 인덱스번호가 그대로 나오는데 원래 이런건가요? index=False 만 잘 붙이면 괜찮은 거 맞나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2문제에서 데이터프레임 저장 후 확인절차에서
print(pred.shape) print(pd.read_csv('result.csv').head(5)) 데이터프레임 저장 후 확인과정에서 이 부분을 확인 후 주석처리한 다음에 제출해야 되는지요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
체험환경에서 rmse
체험환경에서 풀어보고 있는데 rmse가 없다고 뜨네요. 올려주신 풀이를 외워서 시험장에 가야할까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 오브젝트 카테고리 확인할때
오브젝트 카테고리가 동일한지 알아보려고 set이용하는것과 nunique()로 알아보는게 다른가요? nuique()로 동일한 숫자가 나오면 카테고리가 동일하다고 볼수 없나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 전처리 질문
cols = [ '지역', '작물종류', '토양유형', '등급'] from sklearn.preprocessing import LabelEncoder le = LabelEncoder() df= pd.concat([train,test]) for i in cols: df[i] =le.fit_transform(df[i]) train = df.iloc[:4000] test = df.iloc[4000:] print(train.shape, test.shape)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 평가 질문있습니다
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 작업형 2에서 만약 앞에서 모델만 잘 만들었다면 굳이 평가안하고 바로 테스트하고 제출해도 될까요?예를 들어 평가지표를 rmse로 하라고했는데 그냥 생략하고 잘 만들어겠지 하고 제출하려고합니다어차피 랜덤포레스트 원툴인데 실전에서 기준점수가 뭔지도 모르고 이것저것 시도해서 점수를 높일 여유가 없을거같아서요 ㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 랜덤스테이트 질문있습니다
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 값들을 고정시키고자 랜덤스테이트 = 0의 작업을 한다고 배웠는데 그럼 혹시 실전에서 나는 랜덤포레스트 원툴로 간다 라고하면 랜덤스테이트 = 0 등을 안적어도 무방할까요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 분리
안녕하세요 시간이 별로 없는 상태라 빅이시를 학습 중입니다.빅이시에선# 1. 데이터 전처리 target = train.pop('TravelInsurance') # ' '에는 예측할(타겟) 컬럼명 작성 train = pd.get_dummies(train) # train 문자형 컬럼 인코딩 (숫자로 변경) test = pd.get_dummies(test) 이렇게 하고 바로 머신러닝 모델 선택 후 학습을 진행하는데 꿀팁 섹션의 한가지 방법으로 풀기에서는 검증 데이터 분리를 추가로 수행하도록 되어 있더라구요# 검증데이터 분리 from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=0)40점을 받기 위해서는 굳이 한가지 방법에 정리된 검증데이터 분리 코드를 사용하지 않아도 되는 것인가요 ?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
카이제곱검정 관찰값, 기대값
카이제곱검정에서 관찰값과 기대값은 어떻게 구분하는게 안 헷갈릴까요? ㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
머신러닝 학습 및 평가
기출 5회 제 2유형을 풀고 있는데요, 모델 성능의 평가 기준이 RMSE라고 되어 있어, from sklearn.metrics import root_mean_squared_error 을 import 하더라고요, 실제 시험장에서도 이 코드까지 제출해야하는건가요? 아니면 단순히 제출후에 모델 성능을 따로 판별할 수 없어서 혼자 모델성능을 비교해보기 위해, 이렇게 import를 하는건지 궁금합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험 대비 점수 배점 궁금해요
작업형2, 작업형3을 만점 목표 + 작업형 1은 아는 것까지만 풀려고 합니다 완벽하게 풀면 물론 문제당 10점을 받겠지만, 최종적인 답을 못내도 중간까지만 코드를 작성해도 부분점수를 받을 수 있나요? all or nothing인지 궁금합니다 어렵게 내면 더 어렵게 낼 수 있겠지만 우선 인강에서 찝어주신 부분 위주로만제대로 해서 가려고 합니다 감사합니다