묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
빅이시 작업형2 기초-케이스(1~3)
여유가 된다면 추천-케이스(1~3)도 하겠지만, 시간이 촉박하여 우선 기초 먼저 해볼까 합니다코드를 봤는데 로직의 흐름 등 내용 이해는 다 됐습니다.기출 문제를 통해서 제가 타이핑도 직접 해 볼 예정이기도 합니다.다만, 타겟 컬럼명 등 문제지에서 주어지는 내용에 따라 변동되는 부분 별도로 하고 전체적인 코드를 통으로 암기하여 가는거 괜찮을까요..?추천형은 코드가 꽤 길어 통으로 암기하기에 쉽지 않을거 같은데 기초형은 그래도 어찌 외워볼만 하다는 생각이 드네요...!
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
welch 형태도 공부 해야할까요?
분산분석에서 정규성은 만족하는데 등분산성을 만족안하면 welch anova를 구해야 한다고 하는데 이렇게까지 나올지 의견 여쭙습니다. 외울게 많아지니까 부담스러워서요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
검증용 데이터 부분 질문
검증용 데이터 전후 과정에서 일관된 코드를 만들고 싶은데 과정이 헷갈려서요. ~~ train_test_split(train, target, test_size=0.2, random_state = 0)모의문제에서는 이 부분에서 train.drop('목표컬럼', axis=1), train['목표컬럼'],~ 이렇게 사용하는 것으로 이해했는데 그렇게 진행해도 무방할까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
상관계수가 가장큰값?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 상관계수가 가장 큰 값을 물어보면 차이가 가장 큰값과 같이 절댓값을 씌우나요? 아니면 양수중에서 제일 큰 값을 찾나요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
bfill / ffill 관련 질문입니다.
문제 8번의 df.fillna(method='bfill') 관련입니다. bfill의 경우, 데이터 최하단 행에 있는 결측치는 어떻게 해결할 수 있을까요? 마찬가지로 ffill의 경우, 데이터 최상단 행에 있는 결측치는 어떻게 해결 가능한지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
결측치 그냥 최빈값으로 채우는게 무난할까요?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요연습문제 섹션4결측치 채우기아래와 같이 때려넣어도됩니까? a = train['gender'].mode()[0] train['gender'] = train['gender'].fillna(a) b = train['enrolled_university'].mode()[0] train['enrolled_university'] = train['enrolled_university'].fillna(b) c = train['education_level'].mode()[0] train['education_level'] = train['education_level'].fillna(c) d = train['major_discipline'].mode()[0] train['major_discipline'] = train['major_discipline'].fillna(d) e = train['experience'].mode()[0] train['experience'] = train['experience'].fillna(e) f = train['company_size'].mode()[0] train['company_size'] = train['company_size'].fillna(f) g = train['company_type'].mode()[0] train['company_type'] = train['company_type'].fillna(g) h = train['last_new_job'].mode()[0] train['last_new_job'] = train['last_new_job'].fillna(h)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
결측치 X 채우는 이유가 ?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요결측치 처리를 간단하게 X 로 하셨던데 특별한 이유가 있나요? mode 나 mean 말고 저런걸로 처리해도 문제없는지?# 결측치 처리 train = train.fillna("X") test = test.fillna("X")
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
범주형칼럼 삭제 기준?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 범주형칼럼 unique 수가 너무 많아서 그냥 drop 하는 경우도 있었는데.. 기준을 어떻게 잡아야하나요?그냥 너무 많다싶으면 그냥 삭제해도되는건지?..(종속변수뺴고) 개인적인 기준ㅇ ㅣ있으신가요?혹시 괜히 날려서 0점 처리 되는 경우는 없나요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
잔차이탈도 구하는 법
잔차이탈도는 GLM으로만 구할 수 있는게 아닌가요? logit 으로는 못구한다고 했었던거 같은데 헷갈려요. 그냥 로그우도 사용해서 구하면 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫인코딩 만능여부
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 해당 문제에서 원핫인코딩 사용시 (4116, 18) (1764, 18)(4116, 4159) (1764, 1807)보시는 것처럼 엄청 늘어나게 되는데 그대로 랜덤포레스트로 예측하고 제출해도 괜찮을까요? 그리고 인코딩이후에 트레인과 테스트의 열의 수가 다르면 뭔가 잘못된건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫인코딩 concat 여부 이렇게 확인하면 되나요?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요train.descirbe(include='O'), test.descirbe(include='O') 한 다음에 범주형칼럼이 일치하고 유니크수가 같다면 바로 진행하고, 범주형칼럼이 다르다던지 유니크수가 상이하면 concat 해서 진행하면될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[작업형2] 결과 파일 생성시
이진분류 결과파일 생성시submit = pd.DataFrame({'pred':pred[:,1]}) 이렇게 적으셨는데, 값이 1,0일 때만 그런가요? A/B/C와 같이 다중 분류인 경우는 어떻게 되나요..? 양성이라고 하신 부분이 무슨 뜻인지 잘 모르겠어서요... 다중이나 회귀일때는 submit = pd.DataFrame({'pred':pred}) 로 적으면 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 3 유형
작업형 3 강의에 있는 유형들 다 풀어보았는데간단히 정리해보니 수치형 데이터 결측치 → 눈치껏 처리범주형 fillna('X')pd.concat 후 분리하여 원핫인코딩회기/ 분류 따라 RandomForestRegressor/Classifier사용하이퍼 파라미터 튜닝max_depth 3~5, n_estimators 300-500(?) 이정도하면 무난히 점수 받을수 있을까요?과정중에 잘못된게 있다면 짚어주시면 감사하겠습니다.하이퍼파라미터 튜닝할때 저 둘이 같이 안쓰고 하나만 수정해도 과적합 문제가 발생하지 않을지도 궁금합니다. (저 범주안에서는 과적합 걱정하지 않아도될까요?)
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 cvs 제출전 확인하기
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요마지막 result.csv 제출할때 index=False 하잖아요그 이유가 처음에 문제 답안 예시처럼 pred만 나오게하려고한다고 알고있는데마지막 확인차 pd.read로 확인시 pred 0 2 1 0 2 0 3 2 4 0 이렇게 인덱스번호가 그대로 나오는데 원래 이런건가요? index=False 만 잘 붙이면 괜찮은 거 맞나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2문제에서 데이터프레임 저장 후 확인절차에서
print(pred.shape) print(pd.read_csv('result.csv').head(5)) 데이터프레임 저장 후 확인과정에서 이 부분을 확인 후 주석처리한 다음에 제출해야 되는지요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
체험환경에서 rmse
체험환경에서 풀어보고 있는데 rmse가 없다고 뜨네요. 올려주신 풀이를 외워서 시험장에 가야할까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 오브젝트 카테고리 확인할때
오브젝트 카테고리가 동일한지 알아보려고 set이용하는것과 nunique()로 알아보는게 다른가요? nuique()로 동일한 숫자가 나오면 카테고리가 동일하다고 볼수 없나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 전처리 질문
cols = [ '지역', '작물종류', '토양유형', '등급'] from sklearn.preprocessing import LabelEncoder le = LabelEncoder() df= pd.concat([train,test]) for i in cols: df[i] =le.fit_transform(df[i]) train = df.iloc[:4000] test = df.iloc[4000:] print(train.shape, test.shape)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 평가 질문있습니다
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 작업형 2에서 만약 앞에서 모델만 잘 만들었다면 굳이 평가안하고 바로 테스트하고 제출해도 될까요?예를 들어 평가지표를 rmse로 하라고했는데 그냥 생략하고 잘 만들어겠지 하고 제출하려고합니다어차피 랜덤포레스트 원툴인데 실전에서 기준점수가 뭔지도 모르고 이것저것 시도해서 점수를 높일 여유가 없을거같아서요 ㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 랜덤스테이트 질문있습니다
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 값들을 고정시키고자 랜덤스테이트 = 0의 작업을 한다고 배웠는데 그럼 혹시 실전에서 나는 랜덤포레스트 원툴로 간다 라고하면 랜덤스테이트 = 0 등을 안적어도 무방할까요?