강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

spf38님의 프로필 이미지
spf38

작성한 질문수

빅데이터분석기사 실기대비 (R 활용)

실기4 유형2 질문

작성

·

196

0

- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!
- 먼저 유사한 질문이 있었는지 검색해보세요.
- 서로 예의를 지키며 존중하는 문화를 만들어가요.
- 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요.

질문1

model1 <- train(Segmentation~. , data = train, method = 'rpart')

model2 <- train(Segmentation~. , data = train, method = 'lda')

1-1 model2에서 glm 대신에 lda를 사용하는 이유가 4개로 분류하기 때문에 lda를 사용한다 하셨는데

그럼 앞으로 glm 대시 lda를 외워서 사용해도 되는지 궁금합니다.

1-2 glm보다 lda가 활용폭이 넓기 때문에 lda를 사용하는걸로 이해 했는데 만약 lda대신에 glm만 사용해야 되는 경우가 있나요?

1-3 랜덤 포레스트는 14분이 걸린다고 했는데 실기4회 유형2번 문제에서 14분이 걸린다는 얘긴가요??

랜덤 포레스트가 빅분기 실기에서 시간때문에 적합하지 않는 경우가 많은건가요?

 

질문2

실기3회 스크립트 일부분

model1 <- train(TravelInsurance~. , data = df, method = 'glm')

model2 <- train(TravelInsurance~. , data = df, method = 'rpart')

p1 <- predict(model1, tst, type = 'prob')

p2 <- predict(model2, tst, type = 'prob')

p3 <- (p1 + p2)/2

실기4회 스크립트

p1 <- predict(model1, test)

p2 <- predict(model2, test)

2-1 p3를 안 만든 이유가 있을까요? p3를 만들때 와 안만들때 케이스가 궁금합니다.

 

질문3

cm1 <- confusionMatrix(p1,test$Segmentation)

mean(cm1$byClass[,7], na.rm = T)

cm2 <- confusionMatrix(p2,test$Segmentation)

mean(cm2$byClass[,7], na.rm = T)

 3-1 위스크립트는 외우라는 틀에 없는 내용인데 만약 시험장에서 위 스크립트가 생각이 안날 경우 생략하고 제출하면 문제가 생기는 부분이 무엇인지 궁금합니다.

답변 1

0

companionclub님의 프로필 이미지
companionclub
지식공유자

 

안녕하세요! 답변드립니다.

 

질문1

1-1 model2에서 glm 대신에 lda를 사용하는 이유가 4개로 분류하기 때문에 lda를 사용한다 하셨는데

그럼 앞으로 glm 대시 lda를 외워서 사용해도 되는지 궁금합니다.

→ 네. lda만 외우셔도 무방합니다.

1-2 glm보다 lda가 활용폭이 넓기 때문에 lda를 사용하는걸로 이해 했는데 만약 lda대신에 glm만 사용해야 되는 경우가 있나요?

→ 이해하신 부분이 맞습니다. 이진분류의 경우는 glm도 여전히 유효하긴 합니다.

1-3 랜덤 포레스트는 14분이 걸린다고 했는데 실기4회 유형2번 문제에서 14분이 걸린다는 얘긴가요??

랜덤 포레스트가 빅분기 실기에서 시간때문에 적합하지 않는 경우가 많은건가요?

→ 만약에 caret 패키지의 랜덤포레스트를 사용한다면 적합하지 않습니다.

그러나 randomforest 패키지의 랜덤포레스트를 사용한다면 적합하다고 생각합니다.

이유는 강의에서 말씀드린바와 같이 caret은 자동 resampling이 되어서 시간이 굉장히 많이 소요됩니다.

게다가 R은 Python대비 랜덤포레스트 모델 구축시 소요되는 시간이 상대적으로 깁니다.

질문2

2-1 p3를 안 만든 이유가 있을까요? p3를 만들때 와 안만들때 케이스가 궁금합니다.

→ 만들지 않은 이유는 따로 없습니다. 놓친부분인 것 같은데요.

기본적으로 두 개이상의 모델의 결과(확률)을 합칠때는 무조건 사용합니다.

질문3

3-1 위스크립트는 외우라는 틀에 없는 내용인데 만약 시험장에서 위 스크립트가 생각이 안날 경우 생략하고 제출하면 문제가 생기는 부분이 무엇인지 궁금합니다.

→ 모델을 평가하는 과정이기 때문에 평가를 안하고 단순히 예측값을 제출하는 관점에서는 필요가 없습니다.

생략하고 제출해도 문제는 없습니다. 다만, 내가 만든 모델의 평가점수가 얼마나 될지를 확인하고 싶기 때문에 사용하게 됩니다.

아마 멀티클래스 예측문제가 또 나오지는 않을 것 같은데, 이지분류 및 회귀가 나온다고하면 불필요한 스크립트 입니다.

spf38님의 프로필 이미지
spf38

작성한 질문수

질문하기