묻고 답해요
158만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
문제 3번 map을 이용한 풀이에서도 import numpy 필요하지 않나요??
문제 3번 map을 이용한 풀이에서도 import numpy 필요하지 않나요?? 검색해보세요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
train_test_split random_state 질문입니다.
데이터 분리에서 random_state 2025와 random_state 0를 사용할 때 각각 학습 검증값이 다른데 이것도 모델처럼 하이퍼파라미터(max_depth, n_estimators)를 수정해가며 검증값을 측정하는게 맞나요 ?체험형 문제에서 X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size = 0.2, random_state = 2025)로 작성하니 rmse 값이 923이 나왔고, random_state를 0으로 바꾸니 800대가 나오네요.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4회기출 작업형2 이렇게 푸는게 맞나요..?
# 라이브러리 불러오기 import pandas as pd # 데이터 불러오기 train = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/4_2/train.csv") test = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/4_2/test.csv") #preprocessing print('변경전:',train.shape, test.shape) train = train.drop('ID', axis =1 ) target = train.pop("Segmentation") test_id = test.pop('ID') print('변경후:',train.shape, test.shape) data = pd.concat([train, test], axis = 0) cols = data.select_dtypes(include = "object").columns #encoding from sklearn.preprocessing import LabelEncoder for col in cols: la = LabelEncoder() data[col] = la.fit_transform(data[col]) train = data[:len(train)].copy() test = data[len(train):].copy() print(train.shape, test.shape) print(train.head(3)) #분할 from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size = 0.2, random_state = 0) print(X_tr.shape, X_val.shape, y_tr.shape, y_val.shape) #랜포 from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier(random_state = 1006 , max_depth=7, n_estimators = 1000) rf.fit(X_tr, y_tr) pred = rf.predict(X_val) len(pred) from sklearn.metrics import accuracy_score, f1_score #점수측정 f1 = f1_score(y_val, pred, average='macro') acccuracy = accuracy_score(y_val, pred) print('f1:',f1) print('acccuracy:', acccuracy) #rf 기본 0.4946975843769027 # rf : max_depth=7, n_estimators = 1000 # f1: 0.5406747794301512 # acccuracy: 0.5566391597899475 # lgb # f1: 0.5227625161214081 # acccuracy: 0.536384096024006 pred = rf.predict(test)#실제예측 pd.DataFrame({'ID':test_id,'Segmentation':pred}).to_csv("00000.csv", index = False) pd.read_csv("00000.csv")하이퍼파라미터 여러가지 넣으면서 f1스코어 테스트하면서 해봤는데 적절히 풀었는지 궁금합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 train, test의 범주가 다를때
안녕하세요.시나공 빅분기 p.338 노트북 가격 예측에 대한 문제를 풀다가 궁금한 점이 있어서 질문드립니다.train, test의 범주가 다를때 concat으로 데이터를 합쳐서 get_dummies를 적용하여 원핫 인코딩을 하게 되는데,혹시 concat으로 데이터를 합쳐서 LabelEncoder를 적용한 후 동일하게 나누면 안 되나요?합친 데이터에 fit()을 적용시키고 결과를 도출했을 시 값이 더 좋게 나오는 것처럼 보여지는데 책에 기술되어있지 않은 이유는 문제가 있기 때문인건가요? 사용한 코드cols = train.select_dtypes(include='O').columns total = pd.concat([train,test]) from sklearn.preprocessing import LabelEncoder le = LabelEncoder() for col in cols: total[col] = le.fit_transform(total[col]) train = total[:train_n] test = total[train_n:]
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 3 잔차이탈도 계산
#잔차이탈도 계산 print(-2 * model.llf) print(-2 * -143.47) #286.94 print(round(286.93267518507366,2)) #286.93작업형 3에 이렇게 소수점 문제에서 llf나 params 이런함수들을 몰라서 이문제 같은경우 summary 표에서 log-likelihood값인 -143.47을 임의로 곱했을때 값이 286.94이고 선생님이 하신거는 286.93인데 이러면 틀린건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 test 예측 오류
X_val로 예측 후 roc-auc 결과로 LGBM 모델을 선택했습니다.그리고 test를 넣어 최종 예측을 했는데 pred 값이 이렇게 나오네요,,,어떤게 문제일까요 ㅠㅠ 참고로 test 데이터셋은 이렇게 되어있습니다...
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
함수를 변수명으로 덮어씌운다면?
안녕하세요. 연습을 하던 중 오타나 실수로 인해 함수를 변수명으로 사용하거나 = 이 들어가서 덮어씌워지는 경우가 있었습니다.계속 실수를 발견하지 못하다가 오류가 나는 상황에서 이것이 원인인걸 뒤늦게 알게 되는 경우가 많았습니다.colab에서는 초기화를 시켜서 함수를 되돌리고는 했는데, 시험 환경에서 해당 실수가 일어났을 경우 되돌리는 방법이 있는지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의문제
저는 위에서 target = train.pop('Attrition_Flag')를 원핫인코딩 하기 전에 했는데, 검증 데이터 분리작업 시 선생님이 작성하신 코드를 그대로 작성해야하는지 궁금합니다!별개의 문제일까요~?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의고사
원핫인코딩할 때 train = pd.get_dummies(train, columns=cols)가 아닌 train = pd.get_dummies(train)으로만 진행하면 안되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
오즈비 구하기
로지스틱회귀에서 오즈비를 구하는 것은 이해했습니다.궁금한 점은 오즈비를 선형회귀에서도 오즈비를 구할 수 있나요?구한다면 방법은 모델에서 logit대신 ols를 이용하여 모델을 만들고 회귀계수를 np.exp()에 넣어 구하면 되는 건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 합쳐서 인코딩하는 방법과 관련하여 문의사항
안녕하세요,수업 잘 듣고 있습니다.데이터 합쳐서 인코딩하는 방법과 관련하여 문의사항이 있습니다. data=pd.concat([train,test],axis=0)data=pd.get_dummies(data)train=data.iloc[:len(train).copy()test=data.iloc[letn(train):].copy()합친 후 원핫인코딩 후 분할하는 방법이 위와 같은걸로 책에 기재가 되어있는데요! 만약 아래와 같이 합친후 레이블인코딩 후 분할해도 괜찮은지 문의드립니다.data=pd.concat([train,test],axis=0)from sklearn.preprocessing import LabelEncoderle=LabelEncoder()for col in cols:data[col]=le.fit_transform(data[col])train=data.iloc[:len(train).copy()test=data.iloc[letn(train):].copy()
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
roc_auc
roc_auc 평가 코드를 작성하는데 다음과 같은 에러메세지가 떴습니다. 왜일까요?ㅜㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
구름 예시문제 작업형 2
선생님 안녕하세요~이번에 작업형 2 예시문제가 변형되었는데카테고리 부분이 하나가 다르더라고요.원핫인코딩을 합쳐서 진행하셨는데만약 결측치를 그냥 fillna(0) or fillna(평균값) 으로 채우고train = pd.get_dummies(train)test = pd.get_dummies(test)이렇게 원핫인코딩을 하게되면 에러가 발생할까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 8회 2유형에서 평가지표 사용
평가지표를 사용할때mse는 924.75가 나왔는데 r2를 찍어보니까 0.27이 나왔습니다.이 경우에 문제에서 mse를 이용해서 평가한다고 했는데 그대로 내도 문제가 없을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
round, int
작업형 1-1 문제 마지막 부분을 아래와 같이 풀면 1116이 나오고 print(round(df['proline'].mean(),0)) print(int(df['proline'].mean())) 위와 같이 풀면 1115가 나옵니다.왜일까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
pred = (pred>0.5).astype(int)
수정된 모델로 b 데이터를 사용해 예측한 후 ,b데이터의 target과 비교해 정확도를 계산하시오. 정확도는 0과 1사이의 값이다.라고 했을 때 정확도가 0과 1사이의 값이라서 pred = (pred>0.5).astype(int) 이 코드를 쓰는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
import statsmodels.api as sm
import statsmodels.api as sm혹시 이건 왜 작성하는건가요?작성 안해도 코드가 제대로 실행 되던데요
-
미해결[2025년 최신 기출 반영] 빅데이터 분석 기사 실기 시험 100% 합격 ! 기출 문제의 패턴이 보인다 !
Label Encoding 관련 질문
범주형 데이터를 수치형 데이터로 변환하는 과정에서 범주형 컬럼과 범주값이 너무 많은 문제에서 get_dummies를 사용 하는 것보다Label Encoder를 사용 하는게 나을까요?Label Encoder는 사용시 개별 데이터를 하나하나 다 작업해 줘야하나요?조금더 적절한 방법이 있다면 조언 부탁드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2유형 문의
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요train,test데이터 범주형 수가 다르면 concat 후 레이블인코딩 또는 원핫인코딩 후 다시 train,test로 나뉘는데 이중 레이블인코딩은 train데이터엔 있고 test데이터에는 없을때에만 가능한게 맞을까요?10회 2유형 범주형 갯수를 보면 train에는 42 범주형에는 41이어도 동일한 주구매상품이라 가능한거죠?얼핏 다른곳에 train없고 test에만 있을경우 사용하면 안된다는 글을 보았거든요.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 (target이 문자형태일때)
이진 분류에서 target값이 문자형태일 때 acuuracy는 target 값이 숫자형태일 때 처럼 수행하고f1은 pos_label을 통해 양성값을 지정해주면 되는데roc_auc와 recall, precision 평가지표들은 어떻게 수행해야하나요?