게시글
질문&답변
사후검정 질문드립니다.
시험 문제에서 사후검정을 투키로 검정하라고 할 수도 있고,본페로니로 검정하라고 할수있으니 강의해주신거 아닐까 싶은데.. 강의 사후검정 종류가 많다고 하셨긴 했는데, 가장 많이 사용하는 사후검정 방식이 2개라곤 하셨습니다.사실 저도 궁금하긴 하네요.
- 0
- 2
- 290
질문&답변
윌콕슨 부호순위 검정 질문입니다
강의 외 커뮤니티 글도 보면서 공부/정리하고 있는 수강생입니다.작성자분께서 말씀하신 개념이 맞습니다. 제가 알고 있는 개념을 말씀드리면양측 검정의 경우 '~이다/~아니다' 라고 귀무/대립가설이 설정되었을 때 진행하는데검정시 기본값이 alternative='two-sided' 이기 때문에 alternative 파라미터를 별도 주지 않아도 됩니다. 단측 검정의 경우에는 '~이다/~작다' or '~이다/~'크다' 라는 개념이 들어가서대립가설이 채택될 조건이 성립되게 alternative 파라미터를 설정해줘야 합니다. 위 예시 대립가설은 '평균무게가 120g 보다 작다' 이기 때문에 df['무게']-120이 음수값이 나와야 대립가설이 채택되는 상황이고 음수값이 나오기 위해서는 ' df['무게'] 작아야 함 →alternative를 less 설정 '의 흐름으로 문제 풀고 있습니다 ^^
- 0
- 2
- 414
질문&답변
예시문제 작업형2(구 버전)
pd.DataFrame 만드실 때,test_id를 y_train에 있는 cust_id 값으로 만드신 거 같은데요y_train shape이 아마 3500 이었을거 같고, 결과값으로 저장하시려는 gender의 예측값은 2482개라서 에러발생한거 같습니다. 분리과정에서 y_train['gender']에 대한 시리즈 값을 명시하셨으니,drop 과정에서 y_train은 column drop이라던지 pop 없이test_id = X_test.pop('cust_id')로 pop 하시면 될거같습니다.
- 0
- 2
- 475
질문&답변
3유형 적합도검정 문의
안녕하세요,얼핏봐서는 기대치에 확률값 * 전체학생수으로 되어있지 않은 거 같은데요%니깐 0.2 * 200, 0.3 * 200.. 이렇게 해야되지 않을까싶네요저도 궁금하네요 왜 오류나는지
- 0
- 2
- 263
질문&답변
작업형 2유형 label encoding
개인적인 공부 차원에서 커뮤니티 글 보면서 학습 중인 수강생입니다. train과 test 모두 fitting 시키는 건 잘 모르겠는데fit_transform과 transform 과정에 대해 선생님이 알려주신 내역을 전달 드리면 Train 데이터에는 fit_transform 함수(fit와 transform을 2개 합쳐 놓음)Test 데이터에는 transform 함수를 사용하는데, fit는 Train 데이터에 있는 숫자가 아닌 범주형 변수(ex. 자동차, 기차 등)를 학습하고자동차는 0, 기차는 1이라는 라벨을 만드는 과정이고, transform은 '자동차' 라는 문자를 숫자 '0'에 적용하는 단계라고 보시면 될 거 같습니다. train 데이터에서는 범주형 변수에 대한 라벨(자동차: 0 , 기차: 1)을 이미 만들었으니 (fit 과정),test 데이터에서는 train에서 만든 라벨을 숫자로 변환하는 과정만 필요하므로, transform만 적용한다고 보시면 됩니다.
- 0
- 2
- 456
질문&답변
결측치가 있는 행을 제거할 때
1번은 데이터프레임 중 '판매수' 컬럼(df['판매수'], Series)에 대해서만 결측치 처리 (결측치를 포함하고 있으면 행 삭제) 후 시리즈 형태로 출력되도록 하는 코드인거 같고,결과값이 판매수 컬럼만 보임 2번은 전체 데이터프레임(df, DataFrame)에 대해서 '판매수' 컬럼에 결측치가 있는 행은 삭제 처리(subset = '판매수') 후 데이터프레임 형태로 출력되도록 하는 코드인거 같습니다. 결과값이 전체 데이터프레임으로 보임
- 0
- 2
- 237
질문&답변
4회 기출유형 마지막 문제
답이 11개인지는 잘 모르겠으나,str 접근자를 사용해서 contain 함수 활용하면 될 거 같습니다. (단 Kingdom 이라는 문자열이 영국을 식별할 수 있는 값이라고 생각했습니다. kingdom(소문자), UK(약어) 등은 고려안함) cond1 = df['date_added'].dt.year == 2018cond2 = df['date_added'].dt.month == 1 cond3 = df['country'].str.contains('Kingdom') df = df[cond1 & cond2 & cond3] print(len(df))
- 0
- 2
- 262
질문&답변
5회 작2
지나가다가 도움이 될지 몰라서 답변 드립니다. 코드에서 rmse의 값은 mse 값에 루트 처리하도록 정의되어 있기 때문에rmse만 입력해야지 정상출력될거같습니다. rmse(y_val, pred)로 입력시 정상 출력되려면 사전에 함수 형태로 정의가 필요할 거 같은데요 from sklearn.metrics import mean_squared_errordef rmse(x, y): return mean_squared_error(x, y) ** 0.5rmse(y_val, pred) 로 함수 정의후 rmse(y_val, pred) 입력하시면 정상 출력될 거 같습니다.
- 0
- 2
- 194
질문&답변
작업형 2 체험 환경에서 왜 계속 아래와 같은.. 오류가 뜰까요 ?
안녕하세요, 저도 동일에러 발생해서 해결한터라 부족하지만 답변드리겠습니다. 아마도 랜덤포레스트 model.fit 함수 동작시 y_train 설정 데이터를 train['성별']로 해서 발생한 에러로 보입니다. train['성별']이 아닌 작성자께서 pop으로 저장하신 target 변수로 입력할 경우 정상 동작할것으로 보입니다.아래 참고차 코드 올려 드립니다.===============target = train.pop('성별')cols = train.select_dtypes(exclude='O').columns.to_list()from sklearn.ensemble import RandomForestClassifiermodel = RandomForestClassifier()model.fit(train[cols], target)model.predict_proba(test[cols])
- 0
- 3
- 321
질문&답변
2회 기출유형(작업형2)
경고의 경우y_train = y_train.drop(columns = ['ID']) 가 아닌y_train = y_train['타겟컬럼']으로 하면 없어지고, 오류의 경우처음 X_test 전처리하실 때 pop 함수를 통해 다른변수가 아닌 X_test로 저장해버려서X_test 데이터는 ID값만 남는 형태로 보입니다. (후에 columns를 drop 시킨것은 이미 X_test에는 데이터가 없기때문에 의미 없음) 따라서 X_test_id = X_test.pop('ID')로 하시거나X_test.pop('ID')를 X_test.drop 다하고 밑에 하니깐 X_test.shape이 X_train.shape과 동일한 컬럼 수를 같게 되고 모델 학습이 되네요
- 0
- 2
- 194