묻고 답해요
156만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이해가 가지 않는 것
<모델&평가>에서 fit(학습)을 시킬때는 왜 X_tr,y_tr을 넣고 예측을 할때는 왜 X_val를 넣나요 ?그냥 아무거나 넣어도 되나요 ?#rf from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier(random_state=2025) rf.fit(X_tr,y_tr) pred = rf.predict(X_val)
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
교재도 같이보고있는데요 교재 p.164쪽 'type1_data1.csv'파일은어디에 있나요?
교재도 같이보고있는데요 교재 p.164쪽 'type1_data1.csv'파일은어디에 있나요?(교재 작업형 1 연습문제 파일 어디서 다운받나요?)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이해가 가지 않는 것
<데이터 전처리 &피처엔지니어링>에서 왜 id를 drop 하나요? 그리고 <검증 데이터 분리>에서 는 왜 output을 drop 하나요?train = train.drop('id',axis=1) test_id = test.pop('id') test.head() from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train.drop('output',axis=1),train['output'],test_size=0.15, random_state=2025)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제 1 문제 3번
# your code import pandas as pd df = pd.read_csv("members.csv") df.head() #views 컬럼에 결측치가 있는 데이터(행)을 삭제하고 df.isnull().sum() #views에 결측치 4개 # print(df.shape) df = df.dropna(subset = ['views']) # print(df.shape) #f3 컬럼의 결측치는 0, silver는 1, gold는 2, vip는 3 으로 변환한 후 총 합을 정수형으로 출력하시오 df['f3'] = df['f3'].fillna(0) df['f3'] = df['f3'].replace('silver', 1) df['f3'] = df['f3'].replace('gold', 2) df['f3'] = df['f3'].replace('vip', 3) # print(df.head(20)) print(int(df['f3'].sum()))numpy 안 쓰고 이렇게 작성해도 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제1 _ 문제 1에서
3사분위수 - 1사분위 수 값을 구할 때 선생님 처럼 r2, r1 변수 안 만들고 df = df[:int(len(df) * 0.7)] #70% 데이터 선택 IOQ = df['views'].quantile(.75) - df['views'].quantile(.25) print(IOQ) 이렇게 구해도 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출8회 제2유형
제가 푼 내용을 보면pred = rf.predict(test) : 질문자 pred = rf.predict(x_val) : 해설위 두가지가 다릅니다.해당 건 때문에 pred 했을 때, 값 차이가 많이 나는건가요? ㅜ_ㅠ챗gpt에 물어보니 어떨때는 test고 어떨대는 x_val인지 아직도 모르겠습니다. # 라이브러리 및 데이터 불러오기 import pandas as pd train = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/8_2/churn_train.csv") test = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/8_2/churn_test.csv") # train.info() # test.info() target = train.pop('TotalCharges') train = pd.get_dummies(train) test = pd.get_dummies(test) train, test = train.align(test, join='left', axis=1) from sklearn.model_selection import train_test_split x_tr, x_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=0) from sklearn.ensemble import RandomForestRegressor rf = RandomForestRegressor(random_state=0) rf.fit(x_tr, y_tr) pred = rf.predict(test) submit = pd.DataFrame({'pred' : pred}) submit.to_csv('result.csv', index=False) ans = pd.read_csv('result.csv') print(ans)
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
6번 질문입니다
'age' 컬럼의 이상치(소수점 나이와 음수나이, 0포함)를 제거하고제거 전 후의 views 컬럼 표준편차를 더하시오 (최종 결과 값은 소수 둘째자리까지 출력, 셋째자리에서 반올림)제가 생각한 이상치 제거는1. 사분위수를 이용해서 1차적으로 이상치를 제거하고1번을 통해 필터링 된 데이터에서 0, 음수, 소수 데이터를 제거라고 생각했는데 아닌가요?답은 우연인지 의도인지 둘다 8420.69 이 나오긴 했습니다import pandas as pddf = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p1/members.csv")bef = df['views'].std()#1#0, 음수 제거 -> 소수 제거# opt6_1 = df['age'] <= 0# df= df[~opt6_1]# opt6_2 = df['age'] % 1 == 0# df = df[opt6_2]# aft = df['views'].std()# print(round(bef+aft, 2))###### 8420.69 출력#2# 이상치 제거 -> 0,음수 제거 -> 소수제거Q1 = df['age'].quantile(0.25)Q3 = df['age'].quantile(0.75)IQR = Q3 - Q1cond1 = df['age'] > Q3 + (1.5 * IQR)df = df[~cond1]cond2 = df['age'] < Q1 - (1.5 * IQR)df = df[~cond2]cond3 = df['age'] <= 0df = df[~cond3]cond4 = df['age'] % 1 == 0df = df[cond4]aft = df['views'].std()print(round(aft + bef, 2))###### 8420.69 출력
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 50퍼센트 추출 코드에서
len함수로 세서 나누기 2를 하는 코드로 알려주셨는데len(df)*0.5)이렇게 작성해도 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
모의고사 시험환경으로 링크타고 들어가서 보이는 문제랑 다른데요
시험환경에서는 문제가 최소 최대 척도인데강의에서 보이는 문제랑 다른데요.. 제가 잘 못들어간 것일까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
views의 세번째로 큰 도시를 구할때?
풀이과정에서 iloc로 views가 세번째로 큰 도시를 출력해내는데실제 시험에서는 정답만 기입하면 되는데 혹시 iloc로 구하지않고 육안으로 답을 알아보면 굳이 저렇게 까지 진행하지 않아도 될까요?아니면 출력하는 마지막 코드까지 완성을 해둬야 하는걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
id컬럼 삭제
test_id=test['id']test = test.drop(['id'],axis=1)이렇게 해도 괜찮나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 질문드립니다.
결과가 이런식으로 나오면 성공한건가요?? 추가로 id컬럼 정렬이나 y_test 비교 roc 점수가 88%면 합격일지도 궁금합니다 ㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
코랩 자동글쓰기
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 선생님 연습을 하는데 코랩에서 코드가 자동으로 입력되서 연습하는데 방해가 되는거같아서요ㅜㅜ도구 -> 편집기 -> 컨텍스트 기반 코드 완성 표기 체크를 껐는데도 코드가 생길때는 어떻게 해야하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
라벨 인코딩에서 오류가 납니다..
마지막 강의 영상 <정리>부분에서 데이터 불러오기X_train = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p2/data_atype/X_train.csv")y_train = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p2/data_atype/y_train.csv")X_test = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p2/data_atype/X_test.csv")데이터 분리n_train = X_train.select_dtypes(exclude='object').copy()n_test = X_test.select_dtypes(exclude='object').copy()c_train = X_train.select_dtypes(include='object').copy()c_test = X_test.select_dtypes(include='object').copy()수치형 민맥스 스케일cols = ['age', 'fnlwgt', 'education.num', 'capital.gain', 'capital.loss', 'hours.per.week'] from sklearn.preprocessing import MinMaxScalerscaler = MinMaxScaler() n_train[cols] = scaler.fit_transform(n_train[cols]) n_test[cols] = scaler.transform(n_test[cols]) 라벨인코딩cols = ['workclass', 'education', 'marital.status', 'occupation', 'relationship', 'race', 'sex', 'native.country'] from sklearn.preprocessing import LabelEncoderle = LabelEncoder() for col in cols: le = LabelEncoder() c_train[col] = le.fit_transform(c_train[col]) c_test[col] = le.transform(c_test[col]) 이 부분에서 이러한 에러가 납니다.. --------------------------------------------------------------------------- TypeError Traceback (most recent call last) ~\anaconda3\lib\site-packages\sklearn\preprocessing\_label.py in _encode(values, uniques, encode, check_unknown) 112 try: --> 113 res = _encode_python(values, uniques, encode) 114 except TypeError: ~\anaconda3\lib\site-packages\sklearn\preprocessing\_label.py in _encode_python(values, uniques, encode) 60 if uniques is None: ---> 61 uniques = sorted(set(values)) 62 uniques = np.array(uniques, dtype=values.dtype) TypeError: '<' not supported between instances of 'str' and 'float' During handling of the above exception, another exception occurred: TypeError Traceback (most recent call last) <ipython-input-95-295cc9604042> in <module> 7 for col in cols: 8 le = LabelEncoder() ----> 9 c_train[col] = le.fit_transform(c_train[col]) 10 c_test[col] = le.transform(c_test[col]) ~\anaconda3\lib\site-packages\sklearn\preprocessing\_label.py in fit_transform(self, y) 254 """ 255 y = column_or_1d(y, warn=True) --> 256 self.classes_, y = _encode(y, encode=True) 257 return y 258 ~\anaconda3\lib\site-packages\sklearn\preprocessing\_label.py in _encode(values, uniques, encode, check_unknown) 115 types = sorted(t.__qualname__ 116 for t in set(type(v) for v in values)) --> 117 raise TypeError("Encoders require their input to be uniformly " 118 f"strings or numbers. Got {types}") 119 return res TypeError: Encoders require their input to be uniformly strings or numbers. Got ['float', 'str']
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의문제2
노트북 빈칸으로 먼저 문제를 풀이하는 중에결측값 처리를 행을 삭제하는 방식으로 처리하였습니다.맨 마지막 y_test와 r2계수를 구하는 과정에서 삭제된 행만큼의 데이터가 맞지 않아 오류가 났는데실제 실기 시험에서도 결측치가 있는 행을 삭제하면 안되는 것인가요?? 결측치는 반드시 다른 값으로 대체 해야 하는 것 인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2번 관련 질문드립니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지검색해보세요안녕하세요 작업형2번 문제를 풀때라벨인코딩하기 전이 정확도가 더 높으면 라벨인코딩이랑 one-hot 인코딩하기 전 baseline만 처리 한 후에 결과물을 제출하면되는걸까요? 실제 시험에서도 baseline만 처리하고 다른 라벨링을 안해도 되는지 문의드립니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
빅분기 실기 제3유형 점수배분
빅분기 실기 제3유형 점수배분 문의드립니다.제가 알기로는 제3유형이 30점인데1-1, 1-2, 1-3 이렇게 있으면각 1문제당 5점씩으로 반영되나요? 확인 해주시면 감사하겠습니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
print 에러 질문드립니다
강의와 동일한 코드에서 이렇게 에러가 발생하는데원인 알 수 있을까요? . 이 아니라 , 로 제대로 입력하고 아무리 해봐도 에러가 납니다.혹시나 해서 print(a)로 해봐도 동일합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
listbox 예제 관련
안녕하세요listbox 예제 관련해서마지막 앞 단어 할 때listbox[-2]만 해도 나오는데이렇게 해도 상관없을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회 작업형3 문제 1-3 질문
문제에는 gender가 1인 확률이라고 명시하지 않았는데 왜 model.predict(test)<0.5하면 왜 틀리나요?