묻고 답해요
158만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
LightGBM 꼭 알아야하나요?
회귀던, 분류던 RandomForestRegressor나 Classifier로 하면 되는게 아닌지? 코드에 LightGBM이 들어가있길래 이것도 알아야하는건지 궁금합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫 인코딩은 카테고리 10개 미만인 경우 추천한다고 하셨는데
여기에서 카테고리의미는 혹시 컬럼갯수를 말씀하시는 걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
평가지표
평가 지표 작성할때 선생님 올려주신 파일에는 정확도(accuracy)이런식으로 철자도 주어지는데실제 시험환경에서도 주어지나요? 아니면 외워야하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
빅분기 실기 시험 범위 중 데이터수집
데이터자격검정에서 명시하는 빅분기 실기 시험 범위를 보면 '정형, 반정형, 비정형 등 다양한 형태의 데이터를 읽을 수 있다.' 라고 되어 있더라구요. 본 수업에서는 정형 데이터만 다루는 것으로 아는데, 반정형과 비정형 데이터를 수집하는 내용은 시험에서 출제되지 않는건가요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기초통계 확인에서 왜도 확인 의도가 궁금해요
안녕하세요!전처리 과정 중 describe()로 기초통계를 확인할 때 mean, median 값을 활용해 왜도를 확인하시더라구요. 데이터의 치우침 정도를 그냥 확인만 하는 건가요 아니면 그에 대한 다른 처리를 해야 하나요? 영상에서는 확인만 하셨던 것 같은데, 여러번 언급하시는 것을 보니 중요한 내용 같아서 여쭤봅니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫 인코딩 후 열 불일치 방지
아래처럼 원 핫 인코딩 한후 에 열 불일치 맞춤으로 아래와 같이 해도 되나요?train, test = train.align(test, axis=1, join='left', fill_value=0)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
파일 다운로드
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요수업노트에 파일이 있다고 하는데 어디에 있는지 못찾겠어요..ㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
python.ipynb 파일 어떻게 복사하나요..?
학습 하기 위한 노트북 복사하려고 하는데 어떻게 복사해오는지 모르겠어요..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
결측치 수 관련 질문있습니다!
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요len(df)자체가 결측치의 값의 수를 가르키나요?? len(df)는 결측치를 포함한 전체 값의 수 아닌가요....?????이전 코드에서 보면 df는 그냥 파일 경로 지정할때만 쓴 변수 아닌가요...??# your code import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p1/members.csv") print(df.isnull().sum()) print(len(df) * 0.3)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3회 기출유형 작업형 2 관련 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요import pandas as pd import numpy as np from sklearn.preprocessing import LabelEncoder from sklearn.preprocessing import MinMaxScaler from sklearn.model_selection import train_test_split from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import roc_auc_score, f1_score, accuracy_score import sklearn XY = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/3_2/train.csv") X_result = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/3_2/test.csv") #Employment Type, GraduateOrNot, FrequentFlyer,EverTravelledAbroad X = XY.drop(columns = ['TravelInsurance']) Y = XY['TravelInsurance'] total_X = pd.concat([X, X_result], axis = 0) total_X['Employment Type'] = LabelEncoder().fit_transform(total_X['Employment Type'].astype(str)) total_X['GraduateOrNot'] = LabelEncoder().fit_transform(total_X['GraduateOrNot'].astype(str)) total_X['FrequentFlyer'] = LabelEncoder().fit_transform(total_X['FrequentFlyer'].astype(str)) total_X['EverTravelledAbroad'] = LabelEncoder().fit_transform(total_X['EverTravelledAbroad'].astype(str)) X = total_X.iloc[:len(X),:] X_result = total_X.iloc[len(X):,:] x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size = 0.2, random_state = 111) model = RandomForestClassifier() model.fit(x_train, y_train) y_pred = model.predict(x_test) roc_auc = roc_auc_score(y_pred, y_test) f1 = f1_score(y_pred, y_test) acc = accuracy_score(y_pred, y_test) y_pred_result = model.predict(X_result) pd.DataFrame({'index':X_result.index,'y_pred':y_pred_result}).to_csv('0000.csv', index = False) print(pd.read_csv('0000.csv'))안녕하세요, 혹시 이것도 답안으로 제출이 가능할지 한번 봐주실수있나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[customerID] 와 'customerID' 차이
둘 다 csv 파일인데, 하나는 작은따옴표로 묶고 다른 하나는 대괄호로 묶는 이유가 궁금해요train = train.drop('customerID', axis = 1) test = test.drop([customerID], axis = 1)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
제2유형 질문
제2유형에서df.isnull().sum()으로 결측값나올까요? 기출문제 풀어보는데 한번도 결측값채우는건안나온거같은데 미리 준비하는건가요아님 기출에서 진짜 안나온게맞는건가요
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형3 질문
카이제곱이나 로지스틱회귀 같은건 어디서보나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업현 제2유형 한번에 풀기
선생님, 제가 아래와 같이 로직을 구현해서 저걸로 뺑뺑이 돌리면서 연습하고있는데요. 궁금한건 답이랑 차이가 조금 나는데범위안에 들어오면 문제없는건가요? 정답과 일부차이가 나는경우, 오답으로 인정하는 부분인지 아니면 부분점수로 정리되는건가요 예를들어, 40점 만점에서 범위가 초과하면 37 / 35점 이렇게 받는기준인가요? 일단 제2유형은 만점받고 가는 개념이라 우려스러워서 문의드립니다. import pandas as pd train = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/6_2/energy_train.csv") test = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/6_2/energy_test.csv") # train.info() # test.info() target = train.pop('Heat_Load') train = pd.get_dummies(train) test = pd.get_dummies(test) train, test = train.align(test, join='left', axis=1) from sklearn.model_selection import train_test_split x_tr, x_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=0) from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier(random_state=0) rf.fit(x_tr, y_tr) pred = rf.predict(test) submit = pd.DataFrame({'pred':pred}) submit.to_csv('result.csv', index=False) ans = pd.read_csv('result.csv') print(ans)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
실기 환경 단축키
안녕하세요 선생님 혹시 실기체험에서 해보니깐 단축키가 안먹히던데실기시험장에서는 단축키를 쓸 수 없나요?? (shift+enter, ctrl+/) 그리고 실기시험장에서는 캐글이나 코랩처럼실행셀 바로 밑에 예쁘게 표나 문구로 나오는게 아니고 맨밑에 실행결과에 안예쁘게 나오는거 맞죠..??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 T1-11
안녕하세요 선생님캐글 T1-11부터 갑자기 코드 실행이 안됩니다. t-10까지는 셀?도 나눠져 있고 실행이 잘되는데 t-11부터 갑자기 셀이 한개이면서 실행도 안됩니다.. 코드 추가 버튼도 없고..어떻게 해야 되나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 시계열데이터
안녕하세요 저는교재랑 같이구입해서 공부하는 중입니다.시계열데이터에 대해서 강의내용은 다 학습을 했는데 교재에는 시계열데이터 관련해서 더 많은내용이 있더라구요,,,근데 너무 어려워서 ..지금시험이 20일정도 남은 시점에서 이내용까지 공부해서 완벽하게 익혀야하는지 의문이 들어서요교재 섹션26부터는 대부분 조건문이 2개 이상 넣어서 풀어야하는 문제인데 저는 이번에 파이썬을 처음 접해서.. 응용이 힘드네요기출문제를 봤을때 아직 시계열은 많이 안나왔던데 그래서 고민이 좀 되구요..시계열데이터에서 어디까지 공부해야하는지 조언부탁드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 작업형2(신 버전)
예시문제 작업형2를 먼저 푼 뒤에 풀이 영상을 봤습니다.근데 제가 처음에 풀 때는 train, test 데이터의 주구매상품을 unique 찍어보니 다르게 나와서 pd.concat을 통해 데이터를 합친 뒤 라벨 인코딩을 하고 다시 나눠서 진행했습니다.근데 풀이영상에서는 안 합치고 라벨 인코딩을 진행하셨는데 train 테이블 가지고 학습하는데 예측할 테이블보다 유니크 수가 더 많으면 굳이 합칠 필요가 없는 건가요?그리고 합쳐서 진행해도 상관 없는 걸까요? roc_auc_score는 0.62점으로 풀이 영상보다 높게 나오긴 했습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
8회 기출유형 (작업형2)
8회 기출유형 (작업형2) 문제 관련해서 저장할때 오류가 떠서 문의드립니다. import pandas as pd train = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/8_2/churn_train.csv") test = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/8_2/churn_test.csv") train.shape, test.shape cols = train.select_dtypes(include='object').columns cols from sklearn.preprocessing import LabelEncoder for col in cols: le = LabelEncoder() train[col]=le.fit_transform(train[col]) test[col]=le.transform(test[col]) from sklearn.model_selection import train_test_split X_tr,X_val,y_tr,y_val = train_test_split (train,target,test_size=0.2,random_state=2022) X_tr.shape,X_val.shape,y_tr.shape,y_val.shape from sklearn.ensemble import RandomForestRegressor model = RandomForestRegressor(random_state=2022) model.fit(X_tr,y_tr) pred = model.predict(X_val) from sklearn.metrics import mean_absolute_error mae = mean_absolute_error(y_val,pred) print(mae) pred = model.predict(test) submit = pd.DataFrame({'pred':pred})제일 마지막 pred = model.predict(test) 과정에서ValueError Traceback (most recent call last) <ipython-input-82-67795a42191c> in <cell line: 0>() ----> 1 pred = model.predict(test) 2 submit = pd.DataFrame({'pred':pred}) 5 frames/usr/local/lib/python3.11/dist-packages/pandas/core/generic.py in __array__(self, dtype, copy) 2151 ) -> np.ndarray: 2152 values = self._values -> 2153 arr = np.asarray(values, dtype=dtype) 2154 if ( 2155 astype_is_view(values.dtype, arr.dtype) ValueError: could not convert string to float: 'CUST0769'이런 오류가 뜨길래 검색해보니 object 형태의 컬럼이 있다고 오류가 뜹니다ㅠ전처리 과정에서 Label인코딩을 하였고, 데이터 형태 int로 바뀐것까지 확인하였는데,확인 부탁드리겠습니다ㅠㅠ선생님 강의에서 customer_ID를 삭제(drop)하였는데, 그걸 저는 따로 진행을 안했는데, 혹시 그것 때문인지 문의드립니다!추가로 customer_ID를 삭제 안하고 진행해도 괜찮은지도 알려주시면 감사하겠습니다~!^^
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
문제 유형
문제에서 어떤방법으로 검정하라고 알려주나요? 예를 들면 '샤피로검정으로 분석하시오' 이런식으로 검정 방법을 명확히 알려주는지 어떠한 상황으로만 가정하는지 궁금합니다