묻고 답해요
158만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
코랩 자동글쓰기
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 선생님 연습을 하는데 코랩에서 코드가 자동으로 입력되서 연습하는데 방해가 되는거같아서요ㅜㅜ도구 -> 편집기 -> 컨텍스트 기반 코드 완성 표기 체크를 껐는데도 코드가 생길때는 어떻게 해야하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
라벨 인코딩에서 오류가 납니다..
마지막 강의 영상 <정리>부분에서 데이터 불러오기X_train = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p2/data_atype/X_train.csv")y_train = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p2/data_atype/y_train.csv")X_test = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p2/data_atype/X_test.csv")데이터 분리n_train = X_train.select_dtypes(exclude='object').copy()n_test = X_test.select_dtypes(exclude='object').copy()c_train = X_train.select_dtypes(include='object').copy()c_test = X_test.select_dtypes(include='object').copy()수치형 민맥스 스케일cols = ['age', 'fnlwgt', 'education.num', 'capital.gain', 'capital.loss', 'hours.per.week'] from sklearn.preprocessing import MinMaxScalerscaler = MinMaxScaler() n_train[cols] = scaler.fit_transform(n_train[cols]) n_test[cols] = scaler.transform(n_test[cols]) 라벨인코딩cols = ['workclass', 'education', 'marital.status', 'occupation', 'relationship', 'race', 'sex', 'native.country'] from sklearn.preprocessing import LabelEncoderle = LabelEncoder() for col in cols: le = LabelEncoder() c_train[col] = le.fit_transform(c_train[col]) c_test[col] = le.transform(c_test[col]) 이 부분에서 이러한 에러가 납니다.. --------------------------------------------------------------------------- TypeError Traceback (most recent call last) ~\anaconda3\lib\site-packages\sklearn\preprocessing\_label.py in _encode(values, uniques, encode, check_unknown) 112 try: --> 113 res = _encode_python(values, uniques, encode) 114 except TypeError: ~\anaconda3\lib\site-packages\sklearn\preprocessing\_label.py in _encode_python(values, uniques, encode) 60 if uniques is None: ---> 61 uniques = sorted(set(values)) 62 uniques = np.array(uniques, dtype=values.dtype) TypeError: '<' not supported between instances of 'str' and 'float' During handling of the above exception, another exception occurred: TypeError Traceback (most recent call last) <ipython-input-95-295cc9604042> in <module> 7 for col in cols: 8 le = LabelEncoder() ----> 9 c_train[col] = le.fit_transform(c_train[col]) 10 c_test[col] = le.transform(c_test[col]) ~\anaconda3\lib\site-packages\sklearn\preprocessing\_label.py in fit_transform(self, y) 254 """ 255 y = column_or_1d(y, warn=True) --> 256 self.classes_, y = _encode(y, encode=True) 257 return y 258 ~\anaconda3\lib\site-packages\sklearn\preprocessing\_label.py in _encode(values, uniques, encode, check_unknown) 115 types = sorted(t.__qualname__ 116 for t in set(type(v) for v in values)) --> 117 raise TypeError("Encoders require their input to be uniformly " 118 f"strings or numbers. Got {types}") 119 return res TypeError: Encoders require their input to be uniformly strings or numbers. Got ['float', 'str']
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의문제2
노트북 빈칸으로 먼저 문제를 풀이하는 중에결측값 처리를 행을 삭제하는 방식으로 처리하였습니다.맨 마지막 y_test와 r2계수를 구하는 과정에서 삭제된 행만큼의 데이터가 맞지 않아 오류가 났는데실제 실기 시험에서도 결측치가 있는 행을 삭제하면 안되는 것인가요?? 결측치는 반드시 다른 값으로 대체 해야 하는 것 인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2번 관련 질문드립니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지검색해보세요안녕하세요 작업형2번 문제를 풀때라벨인코딩하기 전이 정확도가 더 높으면 라벨인코딩이랑 one-hot 인코딩하기 전 baseline만 처리 한 후에 결과물을 제출하면되는걸까요? 실제 시험에서도 baseline만 처리하고 다른 라벨링을 안해도 되는지 문의드립니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
빅분기 실기 제3유형 점수배분
빅분기 실기 제3유형 점수배분 문의드립니다.제가 알기로는 제3유형이 30점인데1-1, 1-2, 1-3 이렇게 있으면각 1문제당 5점씩으로 반영되나요? 확인 해주시면 감사하겠습니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
print 에러 질문드립니다
강의와 동일한 코드에서 이렇게 에러가 발생하는데원인 알 수 있을까요? . 이 아니라 , 로 제대로 입력하고 아무리 해봐도 에러가 납니다.혹시나 해서 print(a)로 해봐도 동일합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
listbox 예제 관련
안녕하세요listbox 예제 관련해서마지막 앞 단어 할 때listbox[-2]만 해도 나오는데이렇게 해도 상관없을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회 작업형3 문제 1-3 질문
문제에는 gender가 1인 확률이라고 명시하지 않았는데 왜 model.predict(test)<0.5하면 왜 틀리나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
logit()안에 들어가는 독립변수 관련 질문
7회 작업형 3문제를 보면 glm('종소변수 ~ 독립변수1 + 독립변수2 + 독립변수3', data=df).fit() 이런식으로 작성하던데 분산분석에서는 ols('종속변수 ~ 독립변수1*독립변수2') 이렇게 하던데 어떨 때 독립변수를 +만 하는지, 어떨 때 독립변수를 *하는지 헷갈립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출6회 제2유형
아래 문제해설을 보니 pred = rf.predict(X_val) 로 반영 pred = rf.predict(test) 로 반영해도 문제없나요?# 랜덤포레스트 from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier(random_state=0) rf.fit(X_tr, y_tr) pred = rf.predict(X_val) f1_score(y_val, pred, average='macro')
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4회기출, 제2유형
안녕하세요. 마지막에 저희 행/열 확인하잖아요. 거기에서 2154 , 1이 나오는데답변 행 : 2154test 행 : 2154동일하다는 걸 검증하는거죠? <class 'pandas.core.frame.DataFrame'> RangeIndex: 2154 entries, 0 to 2153 Data columns (total 10 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 ID 2154 non-null int64 1 Gender 2154 non-null object 2 Ever_Married 2154 non-null object 3 Age 2154 non-null int64 4 Graduated 2154 non-null object 5 Profession 2154 non-null object 6 Work_Experience 2154 non-null float64 7 Spending_Score 2154 non-null object 8 Family_Size 2154 non-null float64 9 Var_1 2154 non-null object dtypes: float64(2), int64(2), object(6) memory usage: 168.4+ KB ID pred 0 458989 2 1 458994 3 2 459000 3 3 459003 3 4 459005 1 ... ... ... 2149 467950 4 2150 467954 4 2151 467958 2 2152 467961 2 2153 467968 4 [2154 rows x 2 columns]
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
제2회 기출, 제2유형
안녕하세요.제2회 기출, 제2유형 아래와같이 풀어봤는데 확인 부탁드립니다.랜포활용검증안함 검증은 어차피 시험에 반영안되고,랜포밖에 할 줄 몰라서 이것만 암기했어요. 도저히 다른거 풀 자신이 없어서 시험 제2유형의 모든문제는 아래 패턴으로 진행하려합니다. 혹시 이렇게 진행해도되는지 문의드립니다. # 데이터 불러오기 import pandas as pd test = pd.read_csv("X_test.csv") train = pd.read_csv("X_train.csv") y_train = pd.read_csv("y_train.csv") X_train.shape, y_train.shape, X_test.shape # train.info() # test.info() # y_train.info() target = y_train.pop('Reached.on.Time_Y.N') train = pd.get_dummies(train) test = pd.get_dummies(test) train, test = train.align(test, join='left', axis = 1) from sklearn.model_selection import train_test_split x_tr, x_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=0) from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier(random_state = 0) rf.fit(x_tr, y_tr) pred = rf.predict_proba(test) test_ID = test.pop('ID') submit = pd.DataFrame({'ID' : test_ID, 'Reached.on.Time_Y.N' : pred[:,1]}) submit.to_csv('result.csv', index=False)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2회기출, 제2유형
기출2회, 제2유형의 해설 관련저는 아래 랜포사용해서 진행했는데,아래와 같이 predic_proba 사용했으므로1차원 배열로 바꿔줘야하나요? DataFrame 'pred' : pred[:,1] 해줘야 1차원으로 변경되는지 문의드립니다. from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier(random_state = 0) rf.fit(x_tr, y_tr) pred = rf.predict_proba(test) test_ID = test.pop('ID') submit = pd.DataFrame({'ID' : test_ID, 'Reached.on.Time_Y.N' : pred[:,1]}) submit.to_csv('result.csv', index=False) # 랜덤포레스트 model = RandomForestClassifier(random_state=2022) model.fit(X_tr, y_tr) pred = model.predict_proba(X_val) print(roc_auc_score(y_val, pred[:,1]))
-
미해결스파크 머신러닝 완벽 가이드 - Part 1
클러스터 버전 설정
강의에서 새로운 클러스터 생성할 때 10.0 ML (includes Apache Spark 3.2.0, Scala 2.12) 로 설정하시잖아요..!아무래도 강의 생성 시기랑 연도 차이가 나다보니 지금은 해당 버전은 안 뜨는데 10.4 LTS ML로 해도 무방할까요?? 아래 스크린샷처럼 more 버튼도 없어서 구버전 생성에 어려움을 겪고 있습니다ㅜ (UI가 많이 다르지만, community.cloud.databricks.com 으로 접속한 페이지 맞습니다...!)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의문제 1
여기서 평가 지표가 정확도, 정밀도, f1score 등 많은데 왜 roc_auc_score인 proba로 예측하고 정리할 때 roc_auc_score로 확인하는지 궁금합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
print 사용
안녕하세요 강의 잘 듣고 있습니다 !영상에서 예를 들어 선생님께서는 이렇게 cols만 붙이시거나 train.head()이렇게만 하시는데 실제 시험에서는 모든 식 앞에 print()를 붙여야 하나요?또, print를 붙여야 되는 식은 어떻게 구분하는지 질문드립니다 !cols = train.select_dtypes(include="object").columns colscols = train.select_dtypes(include="object").columns print(cols)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
내장함수 관련 질문
안녕하세요, 강의 中 내장 함수 관련한 내용을 보고서 아래와 같이 실습해보니listbox = [2,4,6,8,10]을 기준으로 sum을 하면 정상적으로 30이 실행되지만,물리적으로 모든 원소를 더해준 값을 프린트 한 값과의 비교는 다르다 뜹니다.파이썬 비교 연산자(혹은 모든 연산자)들은 자료형을 기준으로 출력이 되나요? [실습]
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
형변환 관련 질문
안녕하세요, 강의 中 형변환 관련한 내용을 보고서 아래와 같이 실습해보니제가 만든 변수의 타입은 int가 아닌 str로 뜹니다.그 이유는 변수를 재정의 하지 않고서 형변환 후 계산만 이행해서 일까요? [강의] [실습]
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
섹션 5의 모델링 및 평가(분류) 에서 질문입니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요24: 40쯤 영상입니다 제가 넣은 코딩은 이거이고 그 전까지는 결과값이 쌤이랑 동일 했습니다. from xgboost import XGBClassifier xgb = XGBClassifier() xgb.fit(X_tr[cols], y_tr) pred = xgb.predict_proba(X_val[cols]) pred[:10]array([[9.6185881e-01, 3.8141213e-02], [9.9447620e-01, 5.5237846e-03], [5.2776355e-01, 4.7223645e-01], [9.1258293e-01, 8.7417044e-02], [7.4549425e-01, 2.5450572e-01], [9.8757923e-01, 1.2420748e-02], [9.9907589e-01, 9.2413591e-04], [8.6976409e-01, 1.3023594e-01], [1.8734336e-03, 9.9812657e-01], [9.2717761e-01, 7.2822370e-02]], dtype=float32)이거로 쌤이랑 다르게 나오는데 이유를 모르겠슴니다 ㅠ
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
교제와 인강
빅데이터분석기사 교제 158p~209p 까지의 내용은 무슨 강의를 들으면 되는건가요?