묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫인코딩 concat 여부 이렇게 확인하면 되나요?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요train.descirbe(include='O'), test.descirbe(include='O') 한 다음에 범주형칼럼이 일치하고 유니크수가 같다면 바로 진행하고, 범주형칼럼이 다르다던지 유니크수가 상이하면 concat 해서 진행하면될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[작업형2] 결과 파일 생성시
이진분류 결과파일 생성시submit = pd.DataFrame({'pred':pred[:,1]}) 이렇게 적으셨는데, 값이 1,0일 때만 그런가요? A/B/C와 같이 다중 분류인 경우는 어떻게 되나요..? 양성이라고 하신 부분이 무슨 뜻인지 잘 모르겠어서요... 다중이나 회귀일때는 submit = pd.DataFrame({'pred':pred}) 로 적으면 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 3 유형
작업형 3 강의에 있는 유형들 다 풀어보았는데간단히 정리해보니 수치형 데이터 결측치 → 눈치껏 처리범주형 fillna('X')pd.concat 후 분리하여 원핫인코딩회기/ 분류 따라 RandomForestRegressor/Classifier사용하이퍼 파라미터 튜닝max_depth 3~5, n_estimators 300-500(?) 이정도하면 무난히 점수 받을수 있을까요?과정중에 잘못된게 있다면 짚어주시면 감사하겠습니다.하이퍼파라미터 튜닝할때 저 둘이 같이 안쓰고 하나만 수정해도 과적합 문제가 발생하지 않을지도 궁금합니다. (저 범주안에서는 과적합 걱정하지 않아도될까요?)
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 cvs 제출전 확인하기
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요마지막 result.csv 제출할때 index=False 하잖아요그 이유가 처음에 문제 답안 예시처럼 pred만 나오게하려고한다고 알고있는데마지막 확인차 pd.read로 확인시 pred 0 2 1 0 2 0 3 2 4 0 이렇게 인덱스번호가 그대로 나오는데 원래 이런건가요? index=False 만 잘 붙이면 괜찮은 거 맞나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2문제에서 데이터프레임 저장 후 확인절차에서
print(pred.shape) print(pd.read_csv('result.csv').head(5)) 데이터프레임 저장 후 확인과정에서 이 부분을 확인 후 주석처리한 다음에 제출해야 되는지요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
체험환경에서 rmse
체험환경에서 풀어보고 있는데 rmse가 없다고 뜨네요. 올려주신 풀이를 외워서 시험장에 가야할까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 오브젝트 카테고리 확인할때
오브젝트 카테고리가 동일한지 알아보려고 set이용하는것과 nunique()로 알아보는게 다른가요? nuique()로 동일한 숫자가 나오면 카테고리가 동일하다고 볼수 없나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 전처리 질문
cols = [ '지역', '작물종류', '토양유형', '등급'] from sklearn.preprocessing import LabelEncoder le = LabelEncoder() df= pd.concat([train,test]) for i in cols: df[i] =le.fit_transform(df[i]) train = df.iloc[:4000] test = df.iloc[4000:] print(train.shape, test.shape)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 평가 질문있습니다
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 작업형 2에서 만약 앞에서 모델만 잘 만들었다면 굳이 평가안하고 바로 테스트하고 제출해도 될까요?예를 들어 평가지표를 rmse로 하라고했는데 그냥 생략하고 잘 만들어겠지 하고 제출하려고합니다어차피 랜덤포레스트 원툴인데 실전에서 기준점수가 뭔지도 모르고 이것저것 시도해서 점수를 높일 여유가 없을거같아서요 ㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 랜덤스테이트 질문있습니다
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 값들을 고정시키고자 랜덤스테이트 = 0의 작업을 한다고 배웠는데 그럼 혹시 실전에서 나는 랜덤포레스트 원툴로 간다 라고하면 랜덤스테이트 = 0 등을 안적어도 무방할까요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 분리
안녕하세요 시간이 별로 없는 상태라 빅이시를 학습 중입니다.빅이시에선# 1. 데이터 전처리 target = train.pop('TravelInsurance') # ' '에는 예측할(타겟) 컬럼명 작성 train = pd.get_dummies(train) # train 문자형 컬럼 인코딩 (숫자로 변경) test = pd.get_dummies(test) 이렇게 하고 바로 머신러닝 모델 선택 후 학습을 진행하는데 꿀팁 섹션의 한가지 방법으로 풀기에서는 검증 데이터 분리를 추가로 수행하도록 되어 있더라구요# 검증데이터 분리 from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=0)40점을 받기 위해서는 굳이 한가지 방법에 정리된 검증데이터 분리 코드를 사용하지 않아도 되는 것인가요 ?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
카이제곱검정 관찰값, 기대값
카이제곱검정에서 관찰값과 기대값은 어떻게 구분하는게 안 헷갈릴까요? ㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
머신러닝 학습 및 평가
기출 5회 제 2유형을 풀고 있는데요, 모델 성능의 평가 기준이 RMSE라고 되어 있어, from sklearn.metrics import root_mean_squared_error 을 import 하더라고요, 실제 시험장에서도 이 코드까지 제출해야하는건가요? 아니면 단순히 제출후에 모델 성능을 따로 판별할 수 없어서 혼자 모델성능을 비교해보기 위해, 이렇게 import를 하는건지 궁금합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험 대비 점수 배점 궁금해요
작업형2, 작업형3을 만점 목표 + 작업형 1은 아는 것까지만 풀려고 합니다 완벽하게 풀면 물론 문제당 10점을 받겠지만, 최종적인 답을 못내도 중간까지만 코드를 작성해도 부분점수를 받을 수 있나요? all or nothing인지 궁금합니다 어렵게 내면 더 어렵게 낼 수 있겠지만 우선 인강에서 찝어주신 부분 위주로만제대로 해서 가려고 합니다 감사합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터프레임에서 일정 조건의 셀값 변경하는 방법
안녕하세요. 작업형 1관련하여 질문있습니다. 나올것 같지는 않기는 한데, 혹시 몰라서요.지금까지는 fillna를 통해 결측값을 대치하는 명령어를 사용하였는데요. 예를 들어,'abc(카테고리변수)', 'price(연속형)' 두개의 변수가 있다고 할때, abc 변수의 'a'인 값의 price가 잘못기입하여 기존값(abc 변수의 'a'값에 해당하는 'price' 값)의 1.1배를 해야 한다고 하면, 어떻게 코드를 작성하면 좋을까요? replace를 하기에는 변경해야할 변수 값이 많아서 어떻게 해야할지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 8회 작업형2 질문
공지를 확인하였는데 궁금한 점이 있어 질문드립니다.기출에서 컬럼을 삭제하는 경우가 없다 하셨는데 혹시 기출 8회에서도 컬럼 삭제 없이 문제를 풀 수가 있나요?저는 아무리 해봐도 customerID 컬럼을 삭제하지 않으면 인코딩이 안 되어서요 ㅜㅜ 혹시 저는 원핫인코딩 하나로 밀고 나가고 있는데 공지는 레이블인코딩으로 진행하는 상황 기준인 걸까요..?감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
스케일링 방법
안녕하세요! 최근 기출에는 작업형1에서 스케일링 문제가 안 나오는 걸로 알고 있는데, 스케일링에 대해서도 알아야 할까요?.....
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
9회 작업형1 문제 이중포문으로 해결해도 되나요?
9회부터 작업형1이 갑자기 어려워진 것 같습니다. 기존에 알고 있던 걸로 풀리지 않아, 알고리즘 문제 풀듯이 2중포문을 사용해서 문제를 풀었습니다. 코랩에서는 바로 결과가 나오나, 구름에서 코드를 돌려보니 1분안에 결과가 안나오던데, 실제 시험장에서는 이렇게 문제를 풀어도 되는지 여쭤보고 싶습니다. 작업형1 2번 문제와 3번문제를 둘 다 이중포문으로 풀었습니다.2번 코드import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/9_1/crime.csv") # print(df) list(set(df['연도'])) # print(df.columns[2]) store = [] for i in range(0,len(df),2): rate = 0; name = '' for j in range(2,16): temp = df.iloc[i+1,j] / df.iloc[i,j] if temp > rate: rate = temp name = df.columns[j] store.append(name) print(store) cond_result = df['구분'] == '검거건수' df_result = df[cond_result].reset_index(drop = True) print(df_result) sum = 0 for i in range(7): sum = sum + df_result.loc[i,store[i]] print(sum) #77993번 코드import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/9_1/hr.csv") print(df) # print(df.shape) # print(df.isnull().sum()) # print(df.head()) a = df['만족도'].mean() # print(a) df['만족도'] = df['만족도'].fillna(a) df_group = df.groupby(['부서', '성과등급'])['근속연수'].mean().reset_index() print(df_group) cond1 = df['근속연수'].isnull() df_null = df[cond1].drop(['사원번호', '연봉', '교육참가횟수', '만족도'], axis = 1).sort_values(['부서', '성과등급']) print(df_null) for i in range (len(df_null)): for j in range (len(df_group)): if (df_null.iloc[i,0] == df_group.iloc[j,0]) & (df_null.iloc[i,1] == df_group.iloc[j,1]): df_null.iloc[i,2] = int(df_group.iloc[j,2]) break; # df['근속연수'] print(df_null) print(df) df['근속연수'] = df['근속연수'].fillna(df_null['근속연수']) df['연봉/근속연수'] = df['연봉'] / df['근속연수'] print(df.sort_values('연봉/근속연수',ascending = False)) #1 df['연봉/만족도'] = df['연봉'] / df['만족도'] print(df.sort_values('연봉/만족도',ascending = False)) #6 print(1+6)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
전처리 관련 문의
전처리 과정에서 꼭 ID 칼럼을 train과 test 둘다 제거해야하는건가요? 그대로 진행하면 안되는건지 여쭤보고 싶습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[작업형2] 연습문제 섹션 1
인코딩하지 않고 분할로 바로 넘어간 이유를 설명해주세요.