묻고 답해요
167만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4회 기출 유형(작업형2)
4회 기출 유형(작업형2)까지 수강하였을 때, 제가 이해한 내용은 다음과 같습니다. <모델의 성능을 평가하는 방법>데이터 분리 (X_tr, X_val, y_tr, y_val) → 모델 학습 & 하이퍼 파라미터 튜닝 → 평가 (f1 score, roc_auc_score 등) 하이퍼 파라미터 튜닝의 값을 조절해가며 평가 점수 확인데이터 분리 없이, 모델 학습 & 하이퍼 파라미터 튜닝 → 교차검증 (cross_val_score) 이때 질문드립니다.제가 이해한 대로, 모델의 성능을 평가하는 방법이 위의 2가지가 있는게 맞을까요?강사님이 영상에서 교차검증을 사용한 이유는 문제에서 평가 방식을 '평가: Macro f1-score'라고 제시해주었기 때문인가요?혹시 실제 시험 상황에서 평가 방식을 제시해주지 않는다면, 위의 2가지 방법 중 어떤 것을 사용해도 상관이 없는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
섹션3-2 문제 6번에서
섹션3-2 문제 6번에서 아래와 같이 풀면 왜 정답이 달라지는지 알 수 있을까요??? 어느 부분을 수정하면 될까요?? import pandas as pd df = pd.read_csv("members.csv") # 제거 전 views 표준편차 std_before = df["views"].std() df["age"] = df["age"] == round(df["age"], 0) df["age"] = df["age"] > 0 # 제거 후 views 표준편차 std_after = df["views"].std() round(std_before + std_after, 2)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
Wilcoxon 검정 관련 질문
안녕하세요, 강의 복습 중 Wilcoxon 검정 관련질의사항이 있어 질문 남깁니다. 단일표본 검정에서 wilcoxon 검정 시stats.wilcoxon(df['무게'] - 120, alternative='less')-120을 사용해서 진행이 되었는데요. 대응표본에서는 - 부호가 아닌df['before'], df['after'] 나열식 혹은df['before'] - df['after'] 둘다 동일한 결과값을얻는 것 같아 단일표본도 동일하게 df['무게'], 120 으로 입력 하였더니 오류가 발생하더라고요.통계 개념이 약해서인지 단일표본은 안되고 대응표본은되는게 이해가 안되서 질의드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4-2 작업형 1 모의문제2 문제4
4-2 작업형 1 모의문제2 에서 문제 4 에서 df = df.select_dtypes(exclude="O").columns 말고 df = df.select_dtypes(exclude="O") 로 해서 풀어도 맞게 푸는거죠? object 타입 칼럼을 제외시키는 것 = 거기에 딸린 데이터들도 같이 제거하는 것 이라고 생각해서 df = df.select_dtypes(exclude="O")로만 해서 풀고 결과는 같게 나왔거든요.이게 문제가 없다면 간략한 방식으로 접근하고 싶은데, 확인차 문의글 남깁니다. 확인 부탁드립니다. 감사합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 3회 작업형2 예측부분 오류
몇 번을 봐도 선생님과 동일하게 코드를 작성했는데 이부분에서 ValueError가 나네요 ㅠㅠ혹시 어디부분 코드 수정 필요한지 알려주시면 감사하겠습니다!!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 결측치 채울 때 기준데이터
피처 엔지니어링 강의 시작부분 데이터 전처리 로직 관련 질문입니다.데이터전처리 X_test 결측치를 채울 때 클래스, 국가의 경우 X_test의 최빈값을 사용하고, 나이나 주당 근무시간은 X_train 평균을 사용하는데 어떤건 X_train을 사용하고, 어떤건 X_test를 사용하는 이유가 있는걸까요???
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제2 5번 질문
안녕하세요 선생님!작업형1 모의문제 2번의 문제5를 풀고 있는데,다른 인강에서 알려준 syntax로 코딩하는데 이렇게 하니 outlier 검출이 안되더라구요.문법적으로는 오류가 없어 보이는데 혹시 이 syntax는 틀린 걸까요?? q1 = np.quantile(df['views'], 0.25) q3 = np.quantile(df['views'], 0.75) iqr = q3-q1 print(iqr) lower = q1 - iqr*1.5 upper = q3 + iqr*1.5 outliers = (df['views'] < lower) | (df['views'] > upper) sum_out = sum(outliers) print(sum_out)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출4회 작업형 2 오류(샘플수)
# 라이브러리 불러오기import pandas as pd # 데이터 불러오기train = pd.read_csv("train.csv")test = pd.read_csv("test.csv") # EDAtrain.shape, test.shapetrain.head()test.head()train.info()train.isnull().sum()train['Segmentation'].value_counts() # 변수값 처리target = train.pop('Segmentation')train = train.drop('ID', axis=1)test_id = test.pop('ID') # 피처엔지니어링train = pd.get_dummies(train)test = pd.get_dummies(test) # 데이터분리from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_tr = train_test_split(train, target, test_size=0.2, random_state=2024)X_tr.shape, X_val.shape, y_tr.shape, y_tr.shape>> ((5332, 28), (1333, 28), (1333,), (1333,)) # 모델구축 및 평가from sklearn.ensemble import RandomForestClassifierfrom xgboost import XGBClassifierfrom sklearn.metrics import f1_score [에러부분] 샘플갯수가 안맞다고 하는거 같은데 해결방법을 모르겠어요.rf = RandomForestClassifier(random_state=2024) rf.fit(X_tr, y_tr) pred = rf.fit(X_val) print(f1_score(y_val, pred))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
.str이 생각이 안날때 찾는 방법 있나요?
string 값을 슬라이스 하는게 .str인데..이게 생각이 안날때 help같은 걸 사용해서 찾는 방법이 있을가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의고사 풀어보기 (columns명 추출)
작업형1-2s1, s2, s3, s4, s5, s6, 컬럼의 행(row)별 합을 구하고 그 합이 0.1보다 큰 값의 수를 구하시오풀이를 보면 문제에서 요구하는 컬럼명을 아래와 같이 수기로 입력하여 cols에 대입하였는데요.cols = ['s1', 's2', 's3', 's4', 's5', 's6']수기로 입력하지 않고 컬럼명을 추출하는 방법이 있는지 궁금합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3회 기출유형(작업형2)
RandomForestClassifier 에서pred=r.predict_proba(X_val)[:,1] 로 적혀있는데이전 회차까지는 (X_val)까지로만 공부했는데이번 문제에서는 [:,1]이 추가된 이유가 뭔지 궁금해요!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
predict, predict_proba 차이
3-5 classification 강의 학습중인데,predict, predict_proba 차이가 잘 이해가 되지 않습니다.어떤 경우에 따라서 두 함수를 나누어쓰는걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫인코딩에서 X_train을 쓰는이유?
제가 이해한게 맞다면 원핫인코딩은 범주형 데이터에 쓰는 것이기 때문에기존에 n_train, c_train으로 각각 나누고라벨인코딩은 c_train으로 le.fit_transform을 하였습니다.그런데 왜 원핫인코딩은 갑자기 X_train으로 하는것인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제2 6번
소수점 제거를 위해서 round( , 0) 사용하는 풀이 알려주셨는데요 % 연산자로 나머지가 0이 아닌 조건 걸어서 풀어도 상관 없을까요?# your code import pandas as pd df = pd.read_csv('members.csv') print(df.shape) cond1 = df['age'] <=0 df = df[~cond1] print(df.shape) cond2 = df['age'] %1 !=0 df = df[~cond2] print(df.shape)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
5회 기출 작업형 2 질문입니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 이 부분에서 왜 갑자기 y_true 가 쓰이는지 이해가 잘 가지 않습니다 ! rmse 에 대한 설명도 부탁드립니다. from sklearn.metrics import mean_squared_error def rmse(y_true, y_pred): return mean_squared_error(y_true, y_pred)**0.5
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
오징어게임 접속 불가
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요분명히 가입하여 접속했었는데요오늘 들어가니 아이디 비번이 모두 틀리다고 나옵니다.접속이 안되고 있습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이 강의가 비전공 초짜 대상 맞나요?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요빅분기 실기 준비중입니다. 결제전에 초심자용이라고 해서 들어왔습니다.그런데 처음 변수부터 변수 설명을 안 해주시네요.개념을 좀 설명 하고 나서 들어가야 비전공 초짜 대상 강의 아닌가요?각각의 변수를 왜 사용하는지 개념부터 알고 들어가야 하는데바로 진행하시니 이걸 왜 하는지 이해 못하면서 따라가다 멈추고 유튜브 영상에서 도움받아가면서 보고 있습니다. 이 강의가 비전공자 초짜 대상 맞나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2회 기출유형(작업형1), 문제2
len(df) * 0.8 df = df.iloc[:80] df.isnull().sum() std1 = df['f1'].std() print(std1) #std1 = 20.574853076621935 m = df['f1'].median() # 중앙값은 68 df['f1'] = df['f1'].fillna(m) df.isnull().sum() #결측치채워진것 확인 std2 = df['f1'].std() print(std2) print(abs(std1-std2)) 2회기출유형(작업형1) 문제2를 따라하다가, 질문드립니다. 위와 같이 해서 17.010788646613268 17.010788646613268 0.0이렇게 std1 과 std2 값이 같게 나왔는데..제가 주석처리한것보면 처음에는 제대로 나왔었거든요.처음에 80%데이터 iloc에 80을 그냥 숫자로 적은것과 관련이있는가싶은데, 설명부탁드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
공식예시문제 작업형2 에러코드
공식예시문제 작업형2 에러코드 문의 드립니다. [파일첨부]import pandas as pdtrain = pd.read_csv("data/customer_train.csv")test = pd.read_csv("data/customer_test.csv") train['환불금액'] = train['환불금액'].fillna(0)test['환불금액'] = test['환불금액'].fillna(0)# print(train.isnull().sum()) # 수치형 데이터 전처리cols = ['총구매액', '최대구매액', '환불금액', '방문일수', '방문당구매건수', '주말방문비율', '구매주기']from sklearn.preprocessing import MinMaxScalerscaler = MinMaxScaler()train[cols] = scaler.fit_transform(train[cols])test[cols] = scaler.fit(test[cols])# print(train.head()) # 오브젝트형 데이터 전처리cols = train.select_dtypes(include='O').columnstrain = pd.get_dummies(train, columns=cols)test = pd.get_dummies(test, columns=cols)print(train.head()) # 데이터 분리 from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split(train.drop('성별', axis=1), train['성별'], test_size=0.2, random_state=2024) # 모델&평가from sklearn.ensemble import RandomForestClassifierfrom sklearn.metrics import roc_auc_scorerf = RandomForestClassifier(random_state=2024, max_depth=7, n_estimators=200)rf.fit(X_tr, y_tr)pred = rf.predict_proba(X_val)[:, 1]print(roc_auc_score(y_val, pred))# 0.6882619421394 여기까지는 에러없이 평가까지 잘되는데...#제출pred = rf.predict_proba(test)이걸 넣으면 아래처럼 에러가 떠요. 뭐가 문제일까요...ㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
에어비엔비 가격 문제 중 오브젝트 컬럼 삭제 관련 문의입니다.
오브젝트 컬럼을 인코딩 하지 않고 삭제해도 성능에는 지장이 없나요?추가로 test에는 id를 쓸거라 pop으로 빼논 이유는저장해야되는 값에 id를 요구해서 그런건가요?test에 id값이 있으면 안되는 이유나 오류가 나는 이유가 train값이랑 컬럼이 동일해야 해서인가요?