묻고 답해요
160만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
- 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)작업형2 수치형데이터 정규화 질문안녕하세요~ 기출문제 강의 영상을 보면 작업형 2에서 범주형 데이터는 인코딩을 하고, 수치형 데이터는 따로 정규화 작업을 수행하지 않는 경우가 있습니다. 수치형 데이터의 경우 정규화를 안해도 결과값에 큰 영향을 주지는 않나요?수치형데이터를 정규화 하는 경우 아래의 방법이 맞는지도 질문드립니다. 감사합니다.#수치형, 범주형 구분 n_train = train.select_dtypes(exclude='object') n_test = test.select_dtypes(exclude='object') c_train = train.select_dtypes(include='object')c_test = test.select_dtypes(include='object') # 수치형데이터 정규화 from sklearn.preprocessing import StandardScaler scaler = StandardScaler() cols = train.select_dtypes(exclude='object').columnsn_train[cols] = scaler.fit_transform(n_train[cols]) n_test[cols] = scaler.transform(n_test[cols]) # 합치기 train = pd.concat([n_train, c_train], axis=1) test = pd.concat([n_test, c_test], axis=1) 
- 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)범주형 변수의 범주가 다를 경우train과 test의 범주형 변수 중에서 동일한 변수이지만 범주의 수가 다를 경우, 어떻게 해결해야하나요? 
- 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)작업형3 formula로지스틱회귀문제를 구할때는 formula = "Churn ~ DataUsage + DayMins"위와 같이 formula를 따로 적어줬는데 다중선형회귀분석에서는 formula를 따로 위에 적지 않고model = ols('PIQ ~ Brain + Height + Weight', data=df).fit() 이렇게 풀이가 된 이유가 뭘까용?? 
- 
      
        
    미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)Encoder 관련 문의기출에서 쓰신 Encoder가 RobustEncoder, 원핫인코더, LabelEncoder가 있는데 분류, 회귀 문제 구분없이 아무것이나 쓰면 되는 것인가요? 3 인코더를 구분해서 써야하는 특징이 있나요? 시험환경 테스트에서 단축키(실행) Alt+Enter가 되지 않는데 실제로도 그런 것인가요? 시험장 환경에서 실행버튼 클릭 외 단축키가 있는 지 궁금합니다.감사합니다. 
- 
      
        
    미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)잔차이탈도잔차이탈도 구할때 glm을 사용하는데요 이항분포일 경우는 설명이 되어 있어서 family를 어떻게 쓰는지 알수 있는데 혹시 포아송분포일 경우는 family를 어떻게 쓰나요? 
- 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)시험장 답 제출 관련문의안녕하세요,질문이있습니다.예를들어 유형1 같은경우어떤 값이 무엇이냐? 소수점 3자리까지 구하라 이렇게 제시가되는데요 이과정에서 저의 코드는 어떤 코드로 진행하는것이 아닌제가 그냥 df.head()를 통해 보고그값을 눈으로 찾아 그걸 이용해도 상관없는지,또 답을 제출할때도 표를 보고나서그냥 제 눈으로 찾아서 혹은 제스스로 반올림을 직접해서답을 제출해도 되는지 궁금합니다. 
- 
      
        
    미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)작업형2 모의문제2 결과 질문입니다. (에어비앤비)데이터 전처리에서 test_id의 데이터가 9779개이고,검증 데이터 분리에서 X_val의 데이터가 5868개입니다. 행의 개수가 맞지 않아서 오류가 발생하는데, 어떻게 해결해야 할까요? 'id' 컬럼을 pop 하고, 검증 데이터를 분리하면 아래와 같이 행 수가 줄어듭니다. 그리고 랜덤 포레스트로 pred를 예측하는데요. X_val 값이 들어가는 게 아닌가요? 
- 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)object 컬럼명 선택3-6 에서 object 컬럼명을 선택할 때 이렇게 하셨는데,cols = train.select_dtypes(include="object").columns 3-4에서 보여주신 이 식도 같이 쓸 수 있는 건가요?cols = list(X_train.columns[X_train.dtypes == object]) 
- 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)5회 기출 작업형1 2번문제학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요5회 기출 작업형1 2번문제에 제곱하는 경우 두번 나눈값과 **2한 값이 결과에 영향을 미치는데 점수에 영향이 있을까요?(df['Height']/100)**2 
- 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)작업형 2번 문제 질문안녕하세요현재 인강 다 듣고 기출문제 풀면서 작업형2를 공부중인데요.랜덤포레스트 결과가 안나오고 자꾸 아래 체크박스가 자꾸 뜹니다.혹시 해당 코드를 없애는 해결방법이 따로 있을 지 여쭤봅니다. 
- 
      
        
    미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)답안 제출할 때 질문입니다.X_tr, X_val, y_tr, y_val 로 나누고,model.fit(X_tr,y_tr) 로 학습을 시키고,model.predict(X_val) 로 검증을 하는데요.. 최종 제출할 때에model.fit(train, target) 로 학습을 시키고,model.predict(test) 로 제출을 하는게 나을까요?아니면model.fit(X_tr,y_tr) 로 학습을 시키고,model.predict(test) 로 제출을 하는게 더 나을까요? 
- 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)섹션5 - 모델링 및 평가(회귀) 강의에서 평가 시 pred 변환강의 마지막 성능을 평가하는 과정에서 y_test['charges']와 pred의 rmse를 비교하는 것이 아닌 y_test['charges']과 np.exp(pred)의 성능을 비교해야 맞는 것 아닌가요?log변환 후 학습을 진행했기에 계속 변환값을 예측값으로 말씀하시다가 마지막에는 변환 없이 평가하길래 질문 남깁니다. 
- 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)pred와 predict_proba분류는 predict와 predict_proba 둘 중 하나 선택회귀는 predict위와 같은 것으로 알고 있습니다predict_proba는 roc_auc를 물을 때 사용한다.결과값이 확률일때 사용한다두 가지 설명을 들엇던것 같은데roc_auc를 물을때는 그럼 결과값이 무조건 확률인건가요 ??f1_score나 정확도를 묻는 결과값이 확률값으로 안나오는건가요? 
- 
      
        
    미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)시험을 앞두고 2유형 답안 최종 제출 코드 질문!2유형 답안 최종 제출할 때, 이렇게 4줄로 끝내려고 합니다이렇게 4줄만 쓰면 답안제출+답안확인 끝나는거 맞겠죠?2유형에서 감점될까봐 너무 걱정되네요(문제는 올려주신 케글 문제 중 하나입니다) pred = rf.predict(test)result = pd.DataFrame({'SalePrice' : pred})result.to_csv('result.csv' , index=False)pd.read_csv('result.csv') 
- 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)3-5 Classification의 간단한 결측치 처리 관련유사 질문 있었는데 답변 확인해도 잘 모르겠어서 다시 질문 드립니다.# 간단한 결측치 처리 X_train = X_train.fillna(0) X_test = X_test.fillna(0)이 부분에서 수치형 외에 범주형에도 0으로 대입되는게 맞나요?아니면 이렇게 해도 문자가 아니기 때문에 범주형에는 대입이 안 되는 건가요?만약 범주형에만 결측치를 처리한다면 다음과 같이 할 수 있나요?X_train = X_train.fillna('X')X_test = X_test.fillna('X') 
- 
      
        
    미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)len or sum이상치 수를 찾으시오, 데이터 수를 구하시오 len과 sum이 헷갈립니다 
- 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)3회 기출유형(작업형1)강의에서는 df = df.iloc[:int(len(df)*0.7)] 을 하셨는데 저는 import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p1/members.csv") # print(df.head(10)) df = df.dropna() # print(df.head(10)) df = df[:int(len(df) * 0.7)] print(df['f1'].quantile(.25))57이렇게 해도 결과값이 맞는데 따로df = df.iloc[:int(len(df)*0.7)] 이걸 꼭 작성해야 하나요? 궁금합니다! 
- 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)alternative대응표본 t 검정에서 어느것이 먼저나와야 되나요?대응 표본 t 검정을 통해 B공장 제품들의 rpm이 A 공장 제품의 rpm보다 크다고 말할 수 있는지 검정하라. stats.ttest_rel(A, B, alternative ='less') stats.ttest_rel(B, A, alternative ='greater')기준을 잡을수 있는것이 있을까요? 뒤에 alternative 기입때문에요 앞에거 기준이라고 하시긴 했는데요 앞에를 A로 쓰나, B로 쓰나에 따라 기준이 바뀌면 답도 같을줄 알았는데 틀리더라구요 
- 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)작업형 3유형 학습 범위 문의케글에 있는 작업형 3유형 문제 중 지지도, 신뢰도, 향상도를 구하는 문제가 있는데요. 본 강의에서는 이 부분은 다루지 않았는데 혹시 알아둬야 할까요? 
- 
      
        
    미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)작업형2 모의문제2 랜덤포레스트 적용랜덤포레스트 모델 적용 코드에 대해 의문이 생겨 질문 드립니다.from sklearn.ensemble import RandomForestRegressor regressor = RandomForestRegressor() model.fit(X_tr, y_tr) pred = model.predict(X_val) print(r2_score(y_val, pred)) print("r2: ",r2_score(y_val, pred)) print("mae: ", mean_absolute_error(y_val, pred)) print("mse: ", mean_squared_error(y_val, pred)) print("rmse: ", rmse(y_val, pred)) print("rmsle: ", rmsle(y_val, pred)) print("mape: ", mape(y_val, pred))regressor 변수에 RandomForestRegressor()를 대입했는데 그 뒤로는 model 변수만을 가지고 적용시키는 것 같아 이 방법이 맞는 것인지 궁금합니다. 이렇게 model에 적용하면 앞서했던 Lasso 모델과 같은 결과가 나오게 돼서 이상하다고 생각했습니다. 
