묻고 답해요
158만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
8회기출문제 작업형 3번 문제 1-1번 문제 질문
주어진 데이터에서 로지스틱 회귀 분석을 수행해 유의확률(p-value)이 0.05 이상인 유의하지 않은 독립변수의 개수를 구하시오. (종속변수: Churn) 이 문제에 대한 답이 sum(model.pvalues[1:] > 0.05)이렇게 돼있는데 >이 아니라 이상이니까>=가 맞는거 아닌가용?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
질문있어요!
안녕하세요 선생님, 강의로 어느정도 개념정리는 됐는데 많은 문제를 풀기에는 어려울 것 같아서,시나공 빅분기 실기책만 빠르게 회독하면서 여러번 반복해서 풀어볼 예정인데괜찮은 전략이겠죠..?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
문제9 정답: np.int32(11)
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요문제9 답이그냥 11이 아니고 np.int32(11)로 나오는데, 왜 그런건가요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
8:00 영상타임에 df.groupby할때 df에 저장안하는 이유 알수있나요?
안녕하세요.df = df. groupby로 하니까 결과값이 이렇게 나와서요. 기존 해설에 되어있는대로 하면 잘 나오는 데 왜 그런건지 궁금합니다!그리고 sum에 numeric_only=True를 넣으니까 되는데 그냥 오류인가요? # your code import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p1/members.csv") df = df.fillna(method = 'bfill') #앞의 값은 ffill #df.isnull().sum() df = df.groupby(['city','f2']).sum(numeric_only=True) #groupby한 뒤에는 df안넣기? df.head()
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
빅데이터분석기사 2유형 인코딩 방식 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요.2유형에서 원핫인코딩, 레이블인코딩이 있는데 보통 레이블 인코딩이 점수가 더 좋게 나오나요? 아니면 그때그때 평가지표로 확인을 해봐야 하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
마지막에 평가지표로 평가점수 확인하는것
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요마지막에 metrics로 평가지표 만들어서 점수확인해보는 행위 안하고 그냥 제출해도되나요? 방법이 너무많아서 이젠 좀 헷갈리네요 ,, 만약 그렇게하려면 코드는 rf = RandomForestRegressor(random_state=0)rf.fit(train, target)# 예측 후 제출파일 생성pred = rf.predict(test)submit = pd.DataFrame({'pred': pred})submit.to_csv('result_7.csv', index=False) 이렇게 짜도 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
6회 3유형 2-2문제
데이터에서 'solar'와 'o3' 값을 고정한 상태에서, 'wind'의 세기가 증가함에 따라 'temperature'가 감소하는지를 검증하기 위해 다중 선형 회귀 분석을 수행하라고 해서 저는 ols('temperature~wind',data=df).fit()했는데 왜 이렇게 하면 안 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
pop 질문
기출7(회귀)에서 아래와 같이 풀이되어있는데# 4. 데이터 전처리 # 원핫인코딩 train = pd.get_dummies(train) test = pd.get_dummies(test) # 5. 검증 데이터 분할 from sklearn.model_selection import train_test_split target = train.pop('total') X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=0)# 4. 데이터 전처리 # 원핫인코딩 target = train.pop('total') train = pd.get_dummies(train) test = pd.get_dummies(test) # 5. 검증 데이터 분할 from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=0)이 방식이 더 추천되는 방식이라 이해하면 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3유형 체험 소문제 3번 질문입니다.
'문제에서 2번에서 구한 합동 분산 추정량을 이용하여'라고 되어 있는데, 정확하게 무슨 내용인지 이해가 안 됩니다.풀이하신 내용을 보면 독립표본검정 시 1번 그룹의 Resistin과 2번 그룹의 Resistin으로 검정을 수행하시던데.. 합동분산추정량이라면 말씀하신 공식대로 자유도와 분산을 통해 계산을 해야하는데, 1번 그룹의 Resistin과 2번 그룹의 Resistin은 자유도 반영이 안 된 것 아닌가요 ? 문제가 너무 헷갈리네요 ㅜㅜ어떻게 이해하는게 좋을까요 ?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출6회 작업형1
3번 문제를 아래와같이 풀었더니 답이 다릅니다어디가 틀린걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
판다스와 파이썬에서 슬라이싱 차이
파이썬에서는 a:b로 슬라이싱하면, 인덱스가 a인 데이터부터 b-1인 데이터까지 출력판다스의 .loc[a:b]에서는 a부터 b까지 출력이렇게 차이가 있는 것 맞나요...??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
loc로 astype값 입력?
df.loc[:, '칼로리'] = df.loc[:, '칼로리'].astype('int') 이 코드로는 astype한 값이 입력이 안 되고, df['칼로리']로 했을 때만 입력되는 이유가 있을까요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
xgb 관련 에러
안녕하세요체험 환경에서 xgb 모델 사용 시, 다음과 같은 에러가 발생하는데 괜찮을까요?테스트 케이스 추가해서 돌려봤을 땐 에러가 안 뜨긴 해요..! /usr/local/lib/python3.12/site-packages/xgboost/core.py:265: FutureWarning: Your system has an old version of glibc (< 2.28). We will stop supporting Linux distros with glibc older than 2.28 after May 31, 2025. Please upgrade to a recent Linux distro (with glibc 2.28+) to use future versions of XGBoost.Note: You have installed the 'manylinux2014' variant of XGBoost. Certain features such as GPU algorithms or federated learning are not available. To use these features, please upgrade to a recent Linux distro with glibc 2.28+, and install the 'manylinux_2_28' variant. warnings.warn(
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2회 기출유형 작업형1 -2 번 질문
선생님 1-2의 데이터는 행이 100개라서 #앞에서부터 순서대로 80% 데이터만 활용 df = df.iloc[:80] before = df['f1'].std() #f1컬럼의 결측치를 채우기 전의 표준편차 #f1중앙값 df['f1'] = df['f1'].fillna(df['f1'].median()) after = df['f1'].std() print(abs(after - before))이런식으로 코드를 작성했는데왜 답이 0으로 나올까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
결측치 처리
안녕하세요데이터 전처리 과정에서 궁금한 사항이 있어서 질문 드립니다.결측치 처리할 때 결측치가 있는 컬럼들을 그냥 다 삭제를 해도 되는건가요?결측치를 다른값으로 채우는 방법도 있는데 어떤 컬럼은 삭제하고 어떤 컬럼은 다른 값으로 채우는지 기준을 잘 모르겠습니다.(그래서 결측치가 있다면 그냥 다 삭제하는 방법으로 진행해도 되는지 궁금합니다.)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
로지스틱회귀분석이 강의가 줄어든것 같아요~
로지스틱 회귀분석 강의가 줄어든것 같은데 어디서 더 확인할 수 있을까요?작업형3 요약해 주신것에는 오류율, AIC, BIC, 잔차, 로그우도, 잔차이탈도 등이 있는데강의가 없어서 문의 드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
과적합질문
import pandas as pd train = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p2/heart/2files/train.csv") test = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p2/heart/2files/test.csv") # train = pd.read_csv("train.csv") # test = pd.read_csv("test.csv") train.info() train.describe() test.info() train.isnull().sum() y_train = train.pop('output') #원-핫 인코딩 train_oh = pd.get_dummies(train) test_oh = pd.get_dummies(test) data = pd.concat([train,test],axis=0) data_oh = pd.get_dummies(data) train_oh=data_oh.iloc[:len(train)] test_oh=data_oh.iloc[len(train):] #데이터 분리 from sklearn.model_selection import train_test_split X_tr,X_val,y_tr,y_val=train_test_split(train_oh,y_train,test_size=0.15,random_state=0) print(X_tr.shape,X_val.shape,y_tr.shape,y_val.shape) from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import roc_auc_score, f1_score, accuracy_score rf = RandomForestClassifier(random_state=2022, max_depth=5, n_estimators=400) rf.fit(X_tr, y_tr) pred = rf.predict(X_val) pred_proba = rf.predict_proba(X_val) print(roc_auc_score(y_val, pred_proba[:,1])) print(f1_score(y_val, pred)) print(accuracy_score(y_val, pred))이 코드를 여기까지 실행했을때 위의 사진처럼 과적합이 발생한거 같은데 무엇을 조정하면 좋을지잘 모르겠습니다. 그리고 id컬럼은 삭제를 안하고 진행을 해왔는데요! 이 영향때문에 과적합이 나오는 것인지 궁금합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
ID컬럼 삭제
ID컬럼 삭제는 생략해도 가능한가요?!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시나공 작업형3연습문제 section9 로지스틱회귀
안녕하세요 퇴근후딴짓님시나공과같이 공부중인데 위 부분 교재 p. 4192번문제 p_value가 유의한 변수만 사용하여 라고 되어있는데 --> 풀이에는 유의하지 않은 service(0.567)까지 잘못 들어간 거 맞나요..??
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
코랩 연습장 사용중에
코랩 연습장으로 코드 작성중에 무슨 버튼을 잘못 눌렀는데 그 이후로 회식 기울어진 글씨로 거진 답에 가까운 코드가 뜹니다실수로 누른거라 뭘 눌렀는지 모르는데 어떻게 원상태로 돌릴 수 있을까요?