묻고 답해요
158만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의고사
원핫인코딩할 때 train = pd.get_dummies(train, columns=cols)가 아닌 train = pd.get_dummies(train)으로만 진행하면 안되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
오즈비 구하기
로지스틱회귀에서 오즈비를 구하는 것은 이해했습니다.궁금한 점은 오즈비를 선형회귀에서도 오즈비를 구할 수 있나요?구한다면 방법은 모델에서 logit대신 ols를 이용하여 모델을 만들고 회귀계수를 np.exp()에 넣어 구하면 되는 건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 합쳐서 인코딩하는 방법과 관련하여 문의사항
안녕하세요,수업 잘 듣고 있습니다.데이터 합쳐서 인코딩하는 방법과 관련하여 문의사항이 있습니다. data=pd.concat([train,test],axis=0)data=pd.get_dummies(data)train=data.iloc[:len(train).copy()test=data.iloc[letn(train):].copy()합친 후 원핫인코딩 후 분할하는 방법이 위와 같은걸로 책에 기재가 되어있는데요! 만약 아래와 같이 합친후 레이블인코딩 후 분할해도 괜찮은지 문의드립니다.data=pd.concat([train,test],axis=0)from sklearn.preprocessing import LabelEncoderle=LabelEncoder()for col in cols:data[col]=le.fit_transform(data[col])train=data.iloc[:len(train).copy()test=data.iloc[letn(train):].copy()
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
roc_auc
roc_auc 평가 코드를 작성하는데 다음과 같은 에러메세지가 떴습니다. 왜일까요?ㅜㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
구름 예시문제 작업형 2
선생님 안녕하세요~이번에 작업형 2 예시문제가 변형되었는데카테고리 부분이 하나가 다르더라고요.원핫인코딩을 합쳐서 진행하셨는데만약 결측치를 그냥 fillna(0) or fillna(평균값) 으로 채우고train = pd.get_dummies(train)test = pd.get_dummies(test)이렇게 원핫인코딩을 하게되면 에러가 발생할까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 8회 2유형에서 평가지표 사용
평가지표를 사용할때mse는 924.75가 나왔는데 r2를 찍어보니까 0.27이 나왔습니다.이 경우에 문제에서 mse를 이용해서 평가한다고 했는데 그대로 내도 문제가 없을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
round, int
작업형 1-1 문제 마지막 부분을 아래와 같이 풀면 1116이 나오고 print(round(df['proline'].mean(),0)) print(int(df['proline'].mean())) 위와 같이 풀면 1115가 나옵니다.왜일까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
pred = (pred>0.5).astype(int)
수정된 모델로 b 데이터를 사용해 예측한 후 ,b데이터의 target과 비교해 정확도를 계산하시오. 정확도는 0과 1사이의 값이다.라고 했을 때 정확도가 0과 1사이의 값이라서 pred = (pred>0.5).astype(int) 이 코드를 쓰는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
import statsmodels.api as sm
import statsmodels.api as sm혹시 이건 왜 작성하는건가요?작성 안해도 코드가 제대로 실행 되던데요
-
미해결[2025년 최신 기출 반영] 빅데이터 분석 기사 실기 시험 100% 합격 ! 기출 문제의 패턴이 보인다 !
Label Encoding 관련 질문
범주형 데이터를 수치형 데이터로 변환하는 과정에서 범주형 컬럼과 범주값이 너무 많은 문제에서 get_dummies를 사용 하는 것보다Label Encoder를 사용 하는게 나을까요?Label Encoder는 사용시 개별 데이터를 하나하나 다 작업해 줘야하나요?조금더 적절한 방법이 있다면 조언 부탁드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2유형 문의
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요train,test데이터 범주형 수가 다르면 concat 후 레이블인코딩 또는 원핫인코딩 후 다시 train,test로 나뉘는데 이중 레이블인코딩은 train데이터엔 있고 test데이터에는 없을때에만 가능한게 맞을까요?10회 2유형 범주형 갯수를 보면 train에는 42 범주형에는 41이어도 동일한 주구매상품이라 가능한거죠?얼핏 다른곳에 train없고 test에만 있을경우 사용하면 안된다는 글을 보았거든요.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 (target이 문자형태일때)
이진 분류에서 target값이 문자형태일 때 acuuracy는 target 값이 숫자형태일 때 처럼 수행하고f1은 pos_label을 통해 양성값을 지정해주면 되는데roc_auc와 recall, precision 평가지표들은 어떻게 수행해야하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
제출 시 index 관련 질문
import lightgbm as lgb rk = lgb.LGBMRegressor(random_state=628, verbose=-1) rk.fit(X_tr,y_tr) pred = rk.predict(X_val) from sklearn.metrics import root_mean_squared_error ruf = root_mean_squared_error(y_val,pred) ruf pred = rk.predict(test) submit = pd.DataFrame({'pred':pred}) submit.to_csv("result.csv", index = False) print(pd.read_csv("result.csv").head()) 여기까지 작성하고 실행을 했는데 pred 0 15343.154157 1 15824.571222 2 14148.946309 3 17381.447059 4 6259.560969 이렇게 나오는 이유가 뭘까요.. 처음에 까먹어서 다시 했는데 계속 저렇게 나와요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
컬럼 개수
저 같은 경우에는 컬럼 개수가 안뜨는데 이유가 뭔가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫인코딩 pd.concat하는 경우
train object 컬럼과 test object 컬럼의 기초 통계 확인후 unique 개수가 다른 경우에는 pd.concat을 통해 train+test를 합친 후 pd.get_dummies(원핫-인코딩 진행 후) 길이만큼 나누는 부분이 진행하는 게 맞을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
테스트 사이즈
테스트 사이즈를 나누는 기준이 있나요??작으면 0.15, 좀 크면 0.2이런식으로요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
F 검정 및 로그, 합동 분산 추정량 공식 출현에 걱정됩니다...
선생님, 안녕하세요. 다름이 아니라, 제3유형의 출제범위가 생각보다 넓은 듯 하여 걱정입니다...F 값, 합동 분산 추정량, 로그 씌우는 함수 등... 배우지 못했거나 알지 못하는 개념 및 함수가 갑작스레 등장하게 될까 걱정이네요...어느정도까지 숙지해야하는지도 감이 안서 난감합니다...ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 3번 예시문제 관련 문의
import pandas as pd train = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p2/heart/2files/train.csv") test = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p2/heart/2files/test.csv") # train = pd.read_csv("train.csv") # test = pd.read_csv("test.csv") print(train.shape, test.shape) target = train.pop('output') from sklearn.model_selection import train_test_split X_tr,X_val,y_tr,y_val = train_test_split(train,target,test_size=0.5,random_state=2022) print(X_tr.shape,X_val.shape,y_tr.shape,y_val.shape) from sklearn.ensemble import RandomForestClassifier model = RandomForestClassifier(random_state=2022,max_depth=5, n_estimators=400) model.fit(X_tr,y_tr) pred = model.predict_proba(X_val) from sklearn.metrics import roc_auc_score roc_auc = roc_auc_score(y_val,pred[:,1]) print(roc_auc)작업형2 3번 예시 문제에서 강의 스크립트와 동일하게 작성했는데 roc_auc 평가 결과가 1.0으로 나오게 됩니다.1로 나오는 결과는 모델이 검증 데이터를 완벽하게 예측하는 경우라고 하는데, 해당 스크립트 맞는지한번 봐주시면 감사하겠습니다!^^
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 8회 작업형 2
문제를 라벨인코딩이 아닌 원핫인코딩으로 풀고 싶은데, 챗 gpt 에 물어봤더니, # 열 정렬/맞춤 필수 (시험 감점 포인트!)train, test = train.align(test, join='left', axis=1, fill_value=0)이 코드가 필수라고 해서요! 원핫인코딩을 할 떄는 항상 안전하게 이 코드를 작성해주면 좋을까요?아니면 이 문제의 경우 특히 그런걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
탐색적 데이터 분석
저는 1.데이터 크기 확인print(train.shape,test.shape)2.결측치 수 print(train.isnull().sum())print(test.isnull().sum()) 3.#target unique 수print(train['Heat_Load'].value_counts())4.데이터 정보(자료형)print(train.info())정도만 확인 하는데 value_counts()로 확인하는 이유와 object의 unique개수를 확인 하는 이유가 뭔가요?