묻고 답해요
156만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
메모장 이용 불가로 변경되었습니다.
안녕하세요 강의 잘 듣고 있습니다.지난 시험부터 메모장 이용 불가로 변경되었는데 강의 내용에 업데이트 반영이 되어 있지 않아서 공유드립니다. o 시험 중 필기구, 전자·통신기기(계산기 등) 및 PC에 설치되어 있는 프로그램(윈도우 메모장, 윈도우 계산기, 엑셀 등) 사용 불가 https://www.dataq.or.kr/www/board/view.do?bbsKey=eyJiYnNhdHRyU2VxIjoxLCJiYnNTZXEiOjU1MzQ3NX0=&boardKind=notice 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이 문제에서 df=pd.concat 으로 X_train과 y_train의 타겟을 합치는 이유가 무엇인가요?
train이 두개로 나누어져서 제공되서x_train+y_train['타겟'] 을 합치는거까지는 이해했는데요이걸 df에 받아서 넣는데 그 다음 코드부터는 df를 사용하지를 않더라고요!그래서 모든 코드 다 작성 후에, df=concat 어쩌구 했던거를 주석처리해서 숨겨봤는데도 같은 결과가 나왔어요. 합쳐진 df를 어딘가에 사용한다면 이해가 되는데,df를 사용하지도 않는데 concat으로 합쳐놓는 이유가 무엇인가요? 참고 차 제가 작성했던 코드도 붙여넣어봅니다. import pandas as pdX_train = pd.read_csv("X_train.csv")X_test = pd.read_csv("X_test.csv")y_train = pd.read_csv("y_train.csv")# print(X_train.shape, X_test.shape, y_train.shape)df = pd.concat([X_train, y_train['Reached.on.Time_Y.N']], axis=1)df# 라벨인코딩from sklearn.preprocessing import LabelEncodercols = X_train.select_dtypes(include="object").columnsfor col in cols : le = LabelEncoder() X_train[col] = le.fit_transform(X_train[col]) X_test[col] = le.transform(X_test[col])# # 랜덤 포레스트 위해서 데이터 분리X_train = X_train.drop("ID", axis=1)X_test_id = X_test.pop("ID")# # 데이터 분리from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split( X_train, y_train['Reached.on.Time_Y.N'], test_size=0.2, random_state=2022)# 랜덤포레스트from sklearn.ensemble import RandomForestClassifierrf = RandomForestClassifier(random_state=2022, max_depth=3, n_estimators=200)rf.fit(X_tr, y_tr)pred = rf.predict_proba(X_val)from sklearn.metrics import roc_auc_scoreprint(roc_auc_score(y_val, pred[:,1]))pred = rf.predict_proba(X_test)submit = pd.DataFrame({ "ID" : X_test_id, "Reached.on.Time_Y.N" : pred[:,1]})submit.to_csv("submit.csv", index=False)pd.read_csv("submit.csv")
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2유형 모델 학습 관련
안녕하세요, 좋은 강의 감사드립니다!학습, 검증데이터를 분리하는 것은 평가를 통해 개선하기 위한 것으로 이해를 했습니다.그렇다면 개선을 한 뒤 학습, 검증데이터를 다시 학습데이터로 합친 후 예측을 진행하는 것이 점수에 더 도움이 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
윌콕슨 검정 반대로했을때 값이 달라지는현상
아무리봐도 둘이 값이 같게나와야할거같은데 p-value가 다르게나옵니다. 왜이런걸까요??비모수검정이라 정규분포가 아니라서 대칭성이 없어서 그런건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 T1-12에서 접종률 100% 이상 데이터 먼저 삭제하지 않는 이유
아래 문제에서 100% 넘는 접종률을 먼저 삭제하지 않고, 문제에서 언급한 순서대로 풀이해야 하나요??your code 부분에 적은대로 풀이를 하면 답이 다른데 이대로 풀면 안되는 이유가 궁금합니다! 문제 : 주어진 데이터에서 상위 10개 국가의 접종률 평균과 하위 10개 국가의 접종률 평균을 구하고, 그 차이를 구해보세요(단, 100%가 넘는 접종률 제거, 소수 첫째자리까지 출력)# your code # 100%가 넘는 접종률 제거 cond = df["ratio"] <= 100 # 상위 10개 국가의 접종률 평균과 하위 10개 국가의 접종률 평균을 구하고, df = df[cond] df = df.sort_values("ratio", ascending = False) top10 = df["ratio"].head(10).mean() bottom10 = df["ratio"].tail(10).mean() # 그 차이를 구해보세요(소수 첫째자리까지 출력) print(round(top10 - bottom10,1)) 풀이df2 = df.groupby('country').max() #시간에 따라 접종률이 점점 올라감 df2 = df2.sort_values(by='ratio', ascending = False) #100%가 넘는 접종률 제거 cond = df2['ratio'] <= 100 df2 = df2[cond] top = df2['ratio'].head(10).mean() bottom = df2['ratio'].tail(10).mean() print(round(top - bottom,1))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
카이제곱 통계량은 어떻게 구하면 되나요?
빅분기 실습환경이 오픈되어 제3유형 문제를 풀어보고 있는데요. 데이터는 타이타닉 침몰 생존여부 예측을 위한 자료입니다. Gender와 Survived 변수 간의 독립성 검증을 실시하였을 때, 카이제곱 통계량은? - 오브젝트 타입을 원핫인코딩으로 변환한 후 stats.chisquare(df[ 'Gender'], df['Survived'])를 수행해야 하나요? ols를 통해 summary() 까지는 알겠는데.....그 이후 어떻게 해야 할지 잘 모르겠네요..ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
randomforestclassifire()에서 random_state안 적어도 되나요?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 randomforestclassifire()에서 random_state안 적어도 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
cols로 안 묶고 하면 실행이 안되는 건가요?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요cols로 안 묶고, 배웠던 데로 데이터 분리에서 train.drop('성별, axis=1) 이렇게 했는데 오류가 뜹니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2에서 random_state=2022
5회 작업형2유형 기출 강의에서 수치형 활용 부분에서 random_state=2022 는 무슨 의미인가요?공부하면서 random_state=0 도 본것 같은데 두개 차이가 무엇인가요? 왜 하는건가요? 2022가 그냥 임의의 숫자인것 같은데 그냥 아무 숫자를 하는건가요? 안해주면 안되는거죠?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2번 모의고사2
1.선생님께서 test데이터의 행 부분은 절대 삭제하면안된다고 하셨는데수치형 데이터만 남기기위해 열 데이터(컬럼)는 삭제해도 상관없는건가요? 2.제출예시를 보니까 이렇게 나와있던데 마지막으로 만든 csv 에서 head(3)을 해야하는건가요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2회 작업형2 질문있습니다.
다른 교재 2회 복원에서는 SVM 모형을 이용하는 문제가 있는데 영상, 최근 올려주신 마인드맵, 질문게시판 svm, svc 검색해봐도 정보가 안보이네요. 2~3회에만 나오고 svm 관련은 출제 가능성이나 풀이할때 사용가능성이 떨어져서 그런건지요...
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
predict 와 predict_proba
예측 결과를 ROC_AUC 평가 지표를 사용하라고 해서, predict_proba를 사용하면, 결과값이 1인 경우의 확률값(소수점 값)으로 나오는데, 예시 화면에서는 0 또는 1의 값으로 나타내게 되어 있어서, 평가시 predict로 해야할지 predict_proba를 적용해야 할지 다소 혼란스러운 부분이 있는데 실전에서 어떻게 해야 할까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2유형 평가하기 관련 질문입니다.
작업형 2유형 평가하기 관련 질문입니다.작업형 2유형을 지속적으로 공부하고 있습니다. 헷갈리는 사항이 있는데요. 바로 평가하기 입니다.metrics 에서 해당 함수를 찾아서 응용하는것은 암기하여 가능하나 어떤문제에서는 train_test_split 에서 산출된 x_val 의 pred 값과 y_val 로 평가하기를 돌리는 경우가 있고, 또 어떠한 경우에는 주어진 test 엑셀파일과 y_test 엑섹파일 간에 평가하기를 돌려서 값을 산출하는 경우가 있는것 같습니다. 그래서 실제 기출문제를 풀 경우에 평가하기에서 어떤걸 평가하라고 주어지는 것인지, 아니면 평가하기는 test 파일로 진행해야하는지 헷갈려서 기준점이 있을까 하여 질문드려 봅니다. 결론 : 평가하기를 시행하라 하였을때 어떤값으로 평가하는게 정답일지 헷갈립니다.from sklearn.ensemble import RandomForestClassifier model = RandomForestClassifier(random_state=2022) model.fit(x_tr, y_tr) pred = model.predict(x_val) real_pred = model.predict(test) from sklearn.metrics import recall_score recall_score(y_val, pred) #0.8282442748091603 recall_score(y_test, real_pred) #0.8211143695014663 from sklearn.metrics import precision_score print(precision_score(y_val, pred)) #0.9353448275862069 print(precision_score(y_test, real_pred)) #0.9333333333333333
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
업로드한 파일 불러오는 방법을 모르겠습니다.
기출3회. 작업형 1유형. 1번문제자료를 어떻게 불러와야 하는지 모르겠습니다.
-
해결됨5분빨리 퇴근하자! 파이썬 데이터 분석, 시각화, 웹 대시보드 제작하기
학습 데이터 다운로드 경로 문의드립니다
안녕하세요수강 신청하여 수업 준비하고 있습니다 강의에서 보여주고 있는 데이터 셋은 어디에서 다운로드 받을 수 있는지 문의 드립니다 감사합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
modeling : RandomForestClassifier
RandomForestClassifier 모델링에서 max_depth와 n_estimators 를 설정해 주었는데,RandomForestRegressor 사용시에도 같은 옵션으로 tuning을 하는지요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
data['qsec']가 시리즈인지, 데이터프레임인지 어떻게 알 수 있나요??
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 data['qsec']가 시리즈인지, 데이터프레임인지 어떻게 알 수 있나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
질문있습니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요왜 처음에 pd.read_csv하고 df.head()를 했을 때, 데이터 프레임 형태로 안 나오는 건가요? 매번 load 함수로 넣어야 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
강의 연장 문의
안녕하세요. 강의 기간이 6월 12일까지인데 혹시 이번 실기시험까지 연장이 가능할까요?ㅜㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예측 모델 질문
LGBMclassifier, LGBMregressor, Randomforestregressor에 LabelEncoder를 사용해도 상관 없는건가여??