묻고 답해요
158만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[:,1] 콤마가 이해가 안됩니다.
from sklearn.metrics import roc_auc_score roc_auc=roc_auc_score(y_val, pred[:,1]) #y_yal=검증데이터의 정답 print('roc_auc: ',roc_auc) 에서 >50K 값만 넣으라고 했으니 리스트로 치면 1번째에 있는건 알겠는데(['<=50K' '>50K'] 로 되기때문) pred[:,1]에서 콤마가 뭐 때문에 쓰이는지 이해가 되지 않습니다..!
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
강의연장 요청드립니다
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요작년에 빅데이터 시험 상반기는 접수해놓고 보러가지 못했고 하반기 시험은 떨어졌습니다ㅜ이번 실기는 꼭 붙고 싶습니다!강의가 이틀 뒤 만료인데 혹시 시험 전날인 20일까지 연장이 가능할지 여쭤봅니다..제 메일 주소는 blue6143@naver.com 입니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 필사 관련 질문
위의 화면은 정상적으로 작동이 되어 연습이 가능하지만 어떤 문제는 console창이 계속 떠 작동이 안 됩니다. 어떻게 하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 합쳐서 인코딩
안녕하세요인코딩할때 train과 test의 범주형데이터가 다를경우 합쳐서 인코딩하는걸로 알고있는데 데이터 갯수가 다르면 합쳐서 하는걸까요?아니면 set을이용해서 다 확인을 해봐야 하는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
에러4 너무 어려운데 ㅠ실제 시험에서 이상치가 나오면 저렇게 처리해야할거같은데
넘 어렵네요 , 실제시험에서 이상치가 나온적이 있나요? 있으면 데이터 크기 신경써서 처리해야할텐데 처음부터 강의들으면서 그런 내용은 수강한적이 없는데 걱정되네요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 2회 _ 작업형1 _ 3번문제
안녕하세요!기출 2회 작업형1 _ 3번 문제 궁금한점 생겨 문의드립니다!아래 코드와 해설 코드의 결과 값이 다른데, 왜 다른지 모르겠네요 ㅠㅠchat-gpt 한테 물어봤는데, 결과 값이 다를 이유가 없다고 하는데... 뭐가 잘못된걸까요?ㅠㅜcond1 = df['age'].mean() print(cond1) cond2 = df['age'].std() print(cond2) cond3 = cond2*1.5 print(cond3) # 이상치 영역 (r1, r2) r1 = (df['age'] < (cond1 - cond3)) | (df['age'] > (cond1 + cond3)) print(r1) df[r1]['age'].sum()
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
LightGBM 꼭 알아야하나요?
회귀던, 분류던 RandomForestRegressor나 Classifier로 하면 되는게 아닌지? 코드에 LightGBM이 들어가있길래 이것도 알아야하는건지 궁금합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫 인코딩은 카테고리 10개 미만인 경우 추천한다고 하셨는데
여기에서 카테고리의미는 혹시 컬럼갯수를 말씀하시는 걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
평가지표
평가 지표 작성할때 선생님 올려주신 파일에는 정확도(accuracy)이런식으로 철자도 주어지는데실제 시험환경에서도 주어지나요? 아니면 외워야하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
빅분기 실기 시험 범위 중 데이터수집
데이터자격검정에서 명시하는 빅분기 실기 시험 범위를 보면 '정형, 반정형, 비정형 등 다양한 형태의 데이터를 읽을 수 있다.' 라고 되어 있더라구요. 본 수업에서는 정형 데이터만 다루는 것으로 아는데, 반정형과 비정형 데이터를 수집하는 내용은 시험에서 출제되지 않는건가요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기초통계 확인에서 왜도 확인 의도가 궁금해요
안녕하세요!전처리 과정 중 describe()로 기초통계를 확인할 때 mean, median 값을 활용해 왜도를 확인하시더라구요. 데이터의 치우침 정도를 그냥 확인만 하는 건가요 아니면 그에 대한 다른 처리를 해야 하나요? 영상에서는 확인만 하셨던 것 같은데, 여러번 언급하시는 것을 보니 중요한 내용 같아서 여쭤봅니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫 인코딩 후 열 불일치 방지
아래처럼 원 핫 인코딩 한후 에 열 불일치 맞춤으로 아래와 같이 해도 되나요?train, test = train.align(test, axis=1, join='left', fill_value=0)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
파일 다운로드
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요수업노트에 파일이 있다고 하는데 어디에 있는지 못찾겠어요..ㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
python.ipynb 파일 어떻게 복사하나요..?
학습 하기 위한 노트북 복사하려고 하는데 어떻게 복사해오는지 모르겠어요..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
결측치 수 관련 질문있습니다!
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요len(df)자체가 결측치의 값의 수를 가르키나요?? len(df)는 결측치를 포함한 전체 값의 수 아닌가요....?????이전 코드에서 보면 df는 그냥 파일 경로 지정할때만 쓴 변수 아닌가요...??# your code import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p1/members.csv") print(df.isnull().sum()) print(len(df) * 0.3)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3회 기출유형 작업형 2 관련 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요import pandas as pd import numpy as np from sklearn.preprocessing import LabelEncoder from sklearn.preprocessing import MinMaxScaler from sklearn.model_selection import train_test_split from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import roc_auc_score, f1_score, accuracy_score import sklearn XY = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/3_2/train.csv") X_result = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/3_2/test.csv") #Employment Type, GraduateOrNot, FrequentFlyer,EverTravelledAbroad X = XY.drop(columns = ['TravelInsurance']) Y = XY['TravelInsurance'] total_X = pd.concat([X, X_result], axis = 0) total_X['Employment Type'] = LabelEncoder().fit_transform(total_X['Employment Type'].astype(str)) total_X['GraduateOrNot'] = LabelEncoder().fit_transform(total_X['GraduateOrNot'].astype(str)) total_X['FrequentFlyer'] = LabelEncoder().fit_transform(total_X['FrequentFlyer'].astype(str)) total_X['EverTravelledAbroad'] = LabelEncoder().fit_transform(total_X['EverTravelledAbroad'].astype(str)) X = total_X.iloc[:len(X),:] X_result = total_X.iloc[len(X):,:] x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size = 0.2, random_state = 111) model = RandomForestClassifier() model.fit(x_train, y_train) y_pred = model.predict(x_test) roc_auc = roc_auc_score(y_pred, y_test) f1 = f1_score(y_pred, y_test) acc = accuracy_score(y_pred, y_test) y_pred_result = model.predict(X_result) pd.DataFrame({'index':X_result.index,'y_pred':y_pred_result}).to_csv('0000.csv', index = False) print(pd.read_csv('0000.csv'))안녕하세요, 혹시 이것도 답안으로 제출이 가능할지 한번 봐주실수있나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[customerID] 와 'customerID' 차이
둘 다 csv 파일인데, 하나는 작은따옴표로 묶고 다른 하나는 대괄호로 묶는 이유가 궁금해요train = train.drop('customerID', axis = 1) test = test.drop([customerID], axis = 1)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
제2유형 질문
제2유형에서df.isnull().sum()으로 결측값나올까요? 기출문제 풀어보는데 한번도 결측값채우는건안나온거같은데 미리 준비하는건가요아님 기출에서 진짜 안나온게맞는건가요
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형3 질문
카이제곱이나 로지스틱회귀 같은건 어디서보나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업현 제2유형 한번에 풀기
선생님, 제가 아래와 같이 로직을 구현해서 저걸로 뺑뺑이 돌리면서 연습하고있는데요. 궁금한건 답이랑 차이가 조금 나는데범위안에 들어오면 문제없는건가요? 정답과 일부차이가 나는경우, 오답으로 인정하는 부분인지 아니면 부분점수로 정리되는건가요 예를들어, 40점 만점에서 범위가 초과하면 37 / 35점 이렇게 받는기준인가요? 일단 제2유형은 만점받고 가는 개념이라 우려스러워서 문의드립니다. import pandas as pd train = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/6_2/energy_train.csv") test = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/6_2/energy_test.csv") # train.info() # test.info() target = train.pop('Heat_Load') train = pd.get_dummies(train) test = pd.get_dummies(test) train, test = train.align(test, join='left', axis=1) from sklearn.model_selection import train_test_split x_tr, x_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=0) from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier(random_state=0) rf.fit(x_tr, y_tr) pred = rf.predict(test) submit = pd.DataFrame({'pred':pred}) submit.to_csv('result.csv', index=False) ans = pd.read_csv('result.csv') print(ans)