묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이번에는 스터디 안하는지 궁금합니다!!
이번에는 스터디 안하는지 궁금합니다!!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험환경에서 적용했을 때 결과가 잘려서 보입니다 ㅠㅠ
시험환경에서 적용했을 때 결과가 잘려서 보입니다 ㅠㅠ 아래와 같이 예측구간만 나오고 신뢰구간을 확인할 수 없을 때 모두 보고싶으면 어떻게 하나요 ???
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
수업노트, 링크첨부가 안보입니다
데이터 분석을 위한 파이썬 기초1에서 수업노트에 링크를 첨부해두었다고 하셨는데 수업노트는 어디에 있나요?수업노트,링크를 찾을 수 없습니다.F&Q에서는 화면 오른쪽 상단에 초록색으로 구름모양 아이콘이 있는데 이 강의에서는 찾을 수 없습니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 1 모의문제 1 - 문제 2 질문있습니다.
강사님.. ㅎㅎ 제가 또 작성했는데 결과값이 다르게 나와서요 ㅜㅜ 한번 검토 부탁드립니다!!제 결과값은 79가 나왔어요! 정답은 56이구요!!# your code import pandas as pd import numpy as np df=pd.read_csv('members.csv') # df.head() # 주어진 데이터에서 결측치가 30%이상 되는 컬럼을 찾고 해당 컬럼에 결측치가 있는 데이터(행)를 삭제 함. # print(len(df)) # 100 # 결측치가 30% 이상 = 30개 이상 # print(df.isnull().sum()) # f1 - 31개 , f3 -28개, views-4개 확인 # 따라서 f1은 결측치 있는 행 제거, f3은 최빈값으로 값 대체 df['f1'] = df['f1'].dropna() df['f3'] = df['f3'].fillna(df['f3'].mode()[0]) cond = (df['f3'] == 'gold') ans = len(df[cond]) print(ans)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 1 모의문제 1-문제 1 질문있습니다.
제가 코드를 이렇게 작성했는데 강사님의 답은 3261이고 제 답은 3661입니다.코드를 보면 강사님의 코드와 동일한 결과값이 나와야하지않나..하고 생각이 드는데 어디가 틀렸는지 한번 검토 부탁드립니다.!!# your code import pandas as pd import numpy as np data = pd.read_csv('members.csv') data.head() # f1 컬럼 결측치 중앙값으로 대체 f1_median = data['f1'].median() data['f1'] = data['f1'].fillna(f1_median) # 나머지 결측치 있는 데이터 모두 제거 data = data.dropna() # print(data.isnull().sum()) # 앞에서부터 70% 데이터 중 views 컬럼의 3사분위 수에서 1사분위 수를 뺀 값을 구하시오 (단, 데이터 70% 지점은 정수형(int) 변환) view70 = int(len(data)*0.7) # print(view70) data = data.loc[:view70] Q3 = data['views'].quantile(0.75) Q1 = data['views'].quantile(0.25) ans = Q3 - Q1 print(ans)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
전처리 질문입니다.
데이터 스케일링과 인코딩을 위해 make_column_transformer를 사용하고 샆은데,혹시 이것을 사용하면 문제가 될 것이 있을까요? 그리고, 통계쪽에서, stats_models까지 준비해야 할까요?.. 아직 공개된 패키지에는 없어 보이는데..시간은 없는데 할게 많다보니...ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
판다스 똑같이 코드를 넣었는데 이렇게 뜨면 뭐가 문제인가요?
(사진)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
피처 엔지니어링 관련 질문
안녕하세요 선생님!train, test 데이터를 합치고 인코딩 후 분리하는 과정에서line = int(X_train.shape[0])이라고 하셨는데 이 부분이 이해가 안갑니다! X_train.shape이 (29304, 15)일 때 int(X_train.shape[0])는 29304(데이터 수)를 말하는 것일까요?
-
미해결공공데이터로 파이썬 데이터 분석 시작하기
shift tab 으로 도움말이 안나타납니다 ㅜ
안녕하세요 shift tab 으로 도움말이 안나타납니다. 아래 답변주신 내용중에 ? 후 코드 실행후 다시 해보면 될거라는 답변을 해주셔서 그대로 해봤는데도 되지 않습니다. 혹시 다른 방법이 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
괄호들?... 그리고 따옴표들?...
어떤 건 '를 쓰고 어떤건 "를 쓰는데 상관 없다고 하셨었나요?그리고 df[DateTime인지, 'DateTime'인지 헷갈려요ㅠㅜ]따옴표는 언제 쓰는 건가요?... 그리고 함수 대소문자는 다 외워야하는 건가요?ㅠㅠ Timedelta고 TimeDelta 아니구요 그쵸?... 규칙이 있나요? 넘 헷갈려요 혹시 {}, [], ()의 차이도 알려주실 수 있으실까요? 언제 쓰는 건지 헷갈립니다. []는 번호나 어레이?를 쓸때이고 df.loc[7] 이렇게..요?{}는 어레이가 여러개 들어가는 데이터(?)를 쓸 때 묶음 표시이고()는 함수라는데 loc는 함수가 아닌건가요? ㅠ.ㅠ... 무작정 외우기에는 넘 헷갈려유 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
1-2 강의 슬라이싱 연습 질문 있습니다.
안녕하세요^^ 혹시 저 마지막 앞 단어 문제에서 마지막 앞이니까 뒤에서 2번째로 생각하고 혹시 listbox[-2]이렇게 제가 쓴 것처럼 해도 상관없을까요? ㅠㅠ 선생님이 [7:8], [7:-1], [-2:-1]로 답 풀이해주신건 다 이해가 가는데 그냥 -2로만 하면 안되나 궁금해서요!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3-4 강의 스케일링 로그 변환 예시에서 궁금사항 있어요
안녕하세요^^error 원인을 모르겠어서 print문이 왜 틀린지 궁금해서 올립니다. 바로 위와 아래 시각화는 다 잘 되는데 왜 중간에 로그변환 전후 확인에서 선생님과 다르게 에러가 뜨는지 모르겟어요.데이터합치기 #분리한데이터 다시 합침에서도 하는데 같은 에러가 뜨는데 왜series가 안불러와지는지 모르겠습니다 ㅠㅠ 맨 처음부터 다시 다 실행해봐도 다른건 다 잘되는데 같은 이유로 에러가 뜹니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제3 강의 수업자료
수업자료 data.csv가 어딨나요?위 강의들 자료를 봐도 X_train, X_test들만 불러오는데,,
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
베이스라인(baseline)의 정의가 궁금합니다.
강의를 듣다보면 baseline이라는 단어를 여러번 언급하시는데정확히 무슨 뜻인지 모르겠습니다 ㅠㅠ 강의를 꼼꼼히 듣는다고 들었는데 어디서 놓친지 모르겠네요 ㅠㅠ검색해도 안나오니 답답해서 여기 문의드립니다..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의문제 3
test와 train데이터가 아닌,X_test, X_train, y_test, y_train으로 할 때에 검증데이터와 훈련데이터를 어떻게 나누는지가 헷갈립니다ㅠㅠ훈련값에 id를 포함하지 않고, 타겟값에 y_train을 전체 넣는 건지, 혹은 타겟값에 y_train 중 'output'만 넣어야하는지 궁금합니다..!!!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
다중분류 데이터 확률값 질문있습니다!!
안녕하세요 선생님 평가지표 강의 다중 분류 확률값에 대해 질문 있습니다.'ovo' 방식 roc_score_ovo = roc_auc_score(y_true_onehot, y_pred_proba, multi_class='ovo') print("ROC AUC (OvO):", roc_score_ovo) # 'ovr' 방식 roc_score_ovr = roc_auc_score(y_true_onehot, y_pred_proba, multi_class='ovr') print("ROC AUC (OvR):", roc_score_ovr)확률값을 구할때는 pred_proba에서 어떤 확률값을 구하는지 pred.proba[:,1] 이렇게 지정해줬던거 같은데 다중확률에서는 이렇게 안하는건가요??# 다중분류 데이터(확률값) y_true_str = pd.DataFrame(['A', 'B', 'C', 'A', 'B']) # 실제값 y_pred_proba = pd.DataFrame([[0.2, 0.5, 0.3], [0.7, 0.2, 0.1], [0.4, 0.3, 0.3], [0.4, 0.1, 0.5], [0.1, 0.8, 0.1]], columns=['A', 'B', 'C']) # 예측값(각 클래스 확률) # 인코딩된 순서와 확률 컬럼 순서가 같인지 확인 print("y_true의 원-핫 인코딩된 컬럼 순서:", y_true_onehot.columns) print("y_pred_proba의 컬럼 순서:", y_pred_proba.columns)2 . 실제 문제를 풀 때는 pred_proba값이 배열 형태로 되어 있어 컬럼값이 지정이 안되어 있을텐데 이 때는 컬럼 순서가 같은지 어떻게 확인을 해야 하는 건가요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
선생님 csv 파일을 결론내고 다시 읽어보았더니 계속 price가 소수점으로 나오네요 ㅠ
import pandas as pdtrain = pd.read_csv("train.csv")test = pd.read_csv("test.csv")train.isnull().sum()train =train.drop(["name", "host_name", "last_review"], axis=1)train["reviews_per_month"] = train["reviews_per_month"].fillna(train["reviews_per_month"].mean())test =test.drop(["name", "host_name", "last_review"], axis=1)test["reviews_per_month"] = test["reviews_per_month"].fillna(test["reviews_per_month"].mean())cols = train.select_dtypes(include = "object").columnsfrom sklearn.preprocessing import LabelEncoderfor col in cols: le = LabelEncoder() train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col])from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split(train.drop("price", axis =1 ), train["price"], test_size=0.1, random_state=2022)from sklearn.ensemble import RandomForestRegressorrf = RandomForestRegressor()rf.fit(X_tr, y_tr)pred = rf.predict(X_val)pred = rf.predict(test)submit = pd.DataFrame({"id":test['id'], "price": pred})submit.to_csv("990906.csv", index=False) csv를 읽었더니 id price34323697 259.0129927138 115.78 이런식으로 price가 소수점으로 나오는데 어디 코드에서 틀린걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 시험자에서 제출할때
마지막 부분에서 저의 코드는 pred = rf.predict(test)submit = pd.DataFrame({ 'index': test.index, 'target': pred})submit.to_csv("수험번호.csv" , index = False)인데 여기서 submit.to_csv까지만 적고 제출해도 되나요?? 추가적으로 강의 코드를 보면.....rf.fit(X_tr, y_tr)pred =rf.predict(X_val) pred=rf.predcit(test)submit = .... 이런 코드에서 pred 가 2개 중복인데 어떻게 해석해야하나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
에러가 계속 뜨는데 뭘까요?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2유형 분류문제 관련 문의드립니다...!
작업형 2유형에서 베이스라인으로 데이터 삭제, 라벨 인코딩, 원핫 인코딩 3가지를 시행 후 정확도가 높은 것을 선택하여 최종 제출했는데요! 반드시 이 3가지를 모두 시행해야만 하는건지 궁금합니다..!! 예를 들어 1가지를 시행했을때 정확도가 몇% 이상 나왔을때 그냥 그대로 제출해도 되는건지 이런 기준이 있는건지 궁금합니다 ㅠㅠ