강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

dotted님의 프로필 이미지
dotted

작성한 질문수

빅데이터분석기사 실기대비 (R 활용)

강의자료 코드 중 caret::confusionMatrix 부분 질문입니다

작성

·

269

0

1.

 

강의자료 코드에

 

caret::confusionMatrix(test$y, p4)

 

로 코딩하셨는데

 

caret::confusionMatrix  도움말 설명보면 data, reference 순으로 입력하라고 합니다.

 

강의 설명대로 test$y, p4 만들어서 오분류표 생성했는데..

p4 중 1로 예측한 개수가 24개로 나오는데 이 개수를 바르게 예측한 입력순서는 confusionMatrix(p4, test$y)인 것 같습니다.

 

순서는 상관없는 것인지 알려주세요

 

 

 

2. ModelMetrics의 confusionMatrix와 caret의 confusionMatrix의 결과가 다르게 나오는데 무슨 차이입니까?

 

3. p3 <- (P1 +p2)/2  코드는 앙상블이 맞나요?

답변 1

0

companionclub님의 프로필 이미지
companionclub
지식공유자

안녕하세요. 답변드립니다.

 

1. 말씀하신대로 예측값을 먼저 적습니다. 제가 잘못 입력한것이 맞습니다.

레퍼런스를 실제값을 보기 때문에 predict(예측값, 실제값=레퍼런스)로 두시는게 맞습니다.

지적해주셔서 감사합니다.

 

2. ModelMetrics의 confutionmatrix는 cutoff를 조절해가면서 결과를 확인할 수 있습니다.

Caret의 confusionmatrix는 라벨값을 입력하기 위해서 cutoff를 미리 조절하거나

기본으로 되어 있는 0.5를 이용해서 predict함수로 라벨값을 출력하는 반면에

ModelMetrics는 cutoff도 조절이 가능합니다. 예측값에 라벨을 넣지말고 확률값을 넣으면

결과를 확인하실수 있습니다. 그러한 이유로 기본적으로 confusionMatrix를 Caret을 이용하시면 

될것 같습니다.

 

3. 흔히 배깅과 부스팅기법을 합쳐서 앙상블이라고 부르는데 해당하는 방법은 그런방법은 아니고

단순히 결과값을 산술평균하는 방법입니다. 넓은 의미에서 모델의 결과를 결합하는 관점에서

앙상블로 볼 수 있습니다.  베이스라인 모델들의 일반화성능을 확보하기 위한 방법으로

각각의 베이스라인 모델에서 예측한 확률값들을 산술평균한다고 이해하시면 될 것 같습니다.

 

좋은 질문과 지적 감사드립니다.

dotted님의 프로필 이미지
dotted

작성한 질문수

질문하기