묻고 답해요
156만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3유형 체험 소문제 3번 질문입니다.
'문제에서 2번에서 구한 합동 분산 추정량을 이용하여'라고 되어 있는데, 정확하게 무슨 내용인지 이해가 안 됩니다.풀이하신 내용을 보면 독립표본검정 시 1번 그룹의 Resistin과 2번 그룹의 Resistin으로 검정을 수행하시던데.. 합동분산추정량이라면 말씀하신 공식대로 자유도와 분산을 통해 계산을 해야하는데, 1번 그룹의 Resistin과 2번 그룹의 Resistin은 자유도 반영이 안 된 것 아닌가요 ? 문제가 너무 헷갈리네요 ㅜㅜ어떻게 이해하는게 좋을까요 ?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출6회 작업형1
3번 문제를 아래와같이 풀었더니 답이 다릅니다어디가 틀린걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
판다스와 파이썬에서 슬라이싱 차이
파이썬에서는 a:b로 슬라이싱하면, 인덱스가 a인 데이터부터 b-1인 데이터까지 출력판다스의 .loc[a:b]에서는 a부터 b까지 출력이렇게 차이가 있는 것 맞나요...??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
loc로 astype값 입력?
df.loc[:, '칼로리'] = df.loc[:, '칼로리'].astype('int') 이 코드로는 astype한 값이 입력이 안 되고, df['칼로리']로 했을 때만 입력되는 이유가 있을까요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
xgb 관련 에러
안녕하세요체험 환경에서 xgb 모델 사용 시, 다음과 같은 에러가 발생하는데 괜찮을까요?테스트 케이스 추가해서 돌려봤을 땐 에러가 안 뜨긴 해요..! /usr/local/lib/python3.12/site-packages/xgboost/core.py:265: FutureWarning: Your system has an old version of glibc (< 2.28). We will stop supporting Linux distros with glibc older than 2.28 after May 31, 2025. Please upgrade to a recent Linux distro (with glibc 2.28+) to use future versions of XGBoost.Note: You have installed the 'manylinux2014' variant of XGBoost. Certain features such as GPU algorithms or federated learning are not available. To use these features, please upgrade to a recent Linux distro with glibc 2.28+, and install the 'manylinux_2_28' variant. warnings.warn(
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2회 기출유형 작업형1 -2 번 질문
선생님 1-2의 데이터는 행이 100개라서 #앞에서부터 순서대로 80% 데이터만 활용 df = df.iloc[:80] before = df['f1'].std() #f1컬럼의 결측치를 채우기 전의 표준편차 #f1중앙값 df['f1'] = df['f1'].fillna(df['f1'].median()) after = df['f1'].std() print(abs(after - before))이런식으로 코드를 작성했는데왜 답이 0으로 나올까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
결측치 처리
안녕하세요데이터 전처리 과정에서 궁금한 사항이 있어서 질문 드립니다.결측치 처리할 때 결측치가 있는 컬럼들을 그냥 다 삭제를 해도 되는건가요?결측치를 다른값으로 채우는 방법도 있는데 어떤 컬럼은 삭제하고 어떤 컬럼은 다른 값으로 채우는지 기준을 잘 모르겠습니다.(그래서 결측치가 있다면 그냥 다 삭제하는 방법으로 진행해도 되는지 궁금합니다.)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
로지스틱회귀분석이 강의가 줄어든것 같아요~
로지스틱 회귀분석 강의가 줄어든것 같은데 어디서 더 확인할 수 있을까요?작업형3 요약해 주신것에는 오류율, AIC, BIC, 잔차, 로그우도, 잔차이탈도 등이 있는데강의가 없어서 문의 드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
과적합질문
import pandas as pd train = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p2/heart/2files/train.csv") test = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p2/heart/2files/test.csv") # train = pd.read_csv("train.csv") # test = pd.read_csv("test.csv") train.info() train.describe() test.info() train.isnull().sum() y_train = train.pop('output') #원-핫 인코딩 train_oh = pd.get_dummies(train) test_oh = pd.get_dummies(test) data = pd.concat([train,test],axis=0) data_oh = pd.get_dummies(data) train_oh=data_oh.iloc[:len(train)] test_oh=data_oh.iloc[len(train):] #데이터 분리 from sklearn.model_selection import train_test_split X_tr,X_val,y_tr,y_val=train_test_split(train_oh,y_train,test_size=0.15,random_state=0) print(X_tr.shape,X_val.shape,y_tr.shape,y_val.shape) from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import roc_auc_score, f1_score, accuracy_score rf = RandomForestClassifier(random_state=2022, max_depth=5, n_estimators=400) rf.fit(X_tr, y_tr) pred = rf.predict(X_val) pred_proba = rf.predict_proba(X_val) print(roc_auc_score(y_val, pred_proba[:,1])) print(f1_score(y_val, pred)) print(accuracy_score(y_val, pred))이 코드를 여기까지 실행했을때 위의 사진처럼 과적합이 발생한거 같은데 무엇을 조정하면 좋을지잘 모르겠습니다. 그리고 id컬럼은 삭제를 안하고 진행을 해왔는데요! 이 영향때문에 과적합이 나오는 것인지 궁금합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
ID컬럼 삭제
ID컬럼 삭제는 생략해도 가능한가요?!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시나공 작업형3연습문제 section9 로지스틱회귀
안녕하세요 퇴근후딴짓님시나공과같이 공부중인데 위 부분 교재 p. 4192번문제 p_value가 유의한 변수만 사용하여 라고 되어있는데 --> 풀이에는 유의하지 않은 service(0.567)까지 잘못 들어간 거 맞나요..??
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
코랩 연습장 사용중에
코랩 연습장으로 코드 작성중에 무슨 버튼을 잘못 눌렀는데 그 이후로 회식 기울어진 글씨로 거진 답에 가까운 코드가 뜹니다실수로 누른거라 뭘 눌렀는지 모르는데 어떻게 원상태로 돌릴 수 있을까요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
문제3 셀 실행시 문구
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 문제3번에 셀 실행하면 답도 나오고, 다른것도 나오는데, 무슨뜻이야? 133 <ipython-input-41-735169098>:16: FutureWarning: Downcasting behavior in `replace` is deprecated and will be removed in a future version. To retain the old behavior, explicitly call `result.infer_objects(copy=False)`. To opt-in to the future behavior, set `pd.set_option('future.no_silent_downcasting', True)` df['f3'] = df['f3'].replace('vip',3)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
dropna 문의
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요df= df.dropna 말고 df['f3'] = df['f3'].dropna() 로 하면안되나요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2유형 결과 질문
이렇게 결과가 나와야 하는데 이렇게 price가 소숫점으로 나옵니다 상관 없는 건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
인코딩
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 원핫 인코딩이나 레이블 인코딩 할 때, 강의를 보면 object인 컬럼에서 카테고리(or nunique)가 같은지 비교하고 그에 따라 다르게 작업을 하는데요.그냥 비교할 필요없이 항상 concat을 한 후에 원핫인코딩이든 레이블인코딩을 진행하면 불리한 점이 있을까요? 떄에 따라 다르게 대응하는 것보다는 기본적으로 concat을 하고 인코딩을 하는게 가장 안 헷갈리고 편한 방법 같아서 문의드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출문제 7회 문제 1-2
문제1-2. gender를 종속변수로 하고 나머지 변수들(age, length, diameter, height, weight)을 독립변수로 사용하는 로지스틱 회귀 모델을 적합시킨 후, 잔차 이탈도(Residual Deviance)를 계산하시오. (반올림하여 소수 둘째자리까지 계산) 인강에서는 glm으로 풀고 문제집에서는 logit으로 푸는데 그냥 glm 말고 logit으로 풀면 안되나요?그리고 import statsmodels.api as sm을 꼭 넣어야 하나요? 넣지 않아도 답이 나오더라구요.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이상치 처리 안해도 되는건가요
강사님 안녕하세요 데이터셋을 다루는 중에 이상치가 보여서 train 데이터는 전처리했는데,혹시 test 데이터도 이상치가 있더라도 따로 처리하지 않고 그대로 두는 게 더 나은 걸까요?그리고 현재 데이터셋으로 모델 평가했을 때 RMSE가 778 정도 나오는데, 이 정도면 성능이 괜찮은 걸까요?train.loc[1659,'총구매액'] = 0train.loc[3174,'총구매액'] = 0train.loc[3488,'총구매액']= 0train.loc[1659,'최대구매액'] = 0# print(train[(train['총구매액']<0) | (train['최대구매액']<0)])print(test[test['최대구매액']<0]) #2test.loc[579,'최대구매액'] = 0test.loc[1177,'최대구매액'] = 0print(test[test['최대구매액']<0]) 감사합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
인코딩 관련
여태까지 인코딩 할 때 train에만 있는 컬럼, test에만 있는 컬럼 고려하지 않고 사진처럼 바로 라벨인코딩을 했습니다. 최근에 업데이트된 영상을 보니 카테고리가 다를 때 혹은 포함할 때 등 이런 경우를 고려해서 적용하던데 원래 제 방식대로 해도 문제 없나요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
질문있습니다!
# 출력을 원하실 경우 print() 함수 활용# 예시) print(df.head())# getcwd(), chdir() 등 작업 폴더 설정 불필요# 파일 경로 상 내부 드라이브 경로(C: 등) 접근 불가import pandas as pdtrain = pd.read_csv("data/customer_train.csv")test = pd.read_csv("data/customer_test.csv")#총 구매금액 , rmse target = train.pop("총구매액")#수치형 변수 스케일링cols = train.select_dtypes(exclude = 'object').columnsfrom sklearn.preprocessing import MinMaxScalermx = MinMaxScaler()train[cols] = mx.fit_transform(train[cols])test[cols] = mx.transform(test[cols])ob = train.select_dtypes(include = 'object').columnsfrom sklearn.preprocessing import LabelEncoderfor col in ob: le = LabelEncoder() train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col])#데이터 나누기from sklearn.model_selection import train_test_splitx_tr , x_val , y_tr, y_val = train_test_split(train, target, test_size = 0.2, random_state = 0)import lightgbm as lgmodel = lg.LGBMRegressor(random_state = 0)model.fit(x_tr,y_tr)pred = model.predict(x_val)from sklearn.metrics import root_mean_squared_errorr = root_mean_squared_error(y_val,pred)pred = model.predict(test)s = pd.DataFrame({"pred" : pred})s.to_csv("result.csv", index= False)df = pd.read_csv("result.csv")#758.1836860967057800정도가 나온다고 하던데 758이 나온거면 모델 성능이 더 좋다고 하는건데 이게 이상일수도 있을까요? 750점 대가 나오니까 불안하네요 ,, 추가로 이렇게 pd.read_csv로 확인했을때 제대로 나오면 그냥 제출하면 되는거죠??