60,500원
다른 수강생들이 자주 물어보는 질문이 궁금하신가요?
- 미해결빅데이터분석기사 실기대비 (R 활용)
섹션 4 작업형 2유형 (16:29) 결과 추가 문의
안녕하세요 선생님, 상세한 강의 잘 듣고 있습니다. 감사합니다. 수강 중, 위의 [섹션4. 2유형] 강의 내용 중 문의사항이 있어 질문을 남깁니다.[동일 내용 문의 링크]맨 마지막 p3에서 2,482명이 나와야 되는거 아닌가요??? - 인프런 | 질문 & 답변 (inflearn.com)문의 커뮤니티 내 동일한 질문이 있어 일부 연장선 문의를 드립니다. (체험) 제2유형 - 체험하기 (goorm.io) - 해당문제model1, model2 을 평균을 내서 최종 모델 p3을 만들고 이를 적용했을 때최근 답변 기준으로 2482개에서 1611개를 제외한 871개의 행이 출력되는 부분은 이해하였습니다.연습 중 제출 형식을 보니, 규정에는 총 2482개의 온전한 데이터 예측 결과를 제출해야 한다고 명시되어 있고이를 강의 상의 871개짜리 데이터로 최종 제출해도 채점 기준에 부합하는지 궁금합니다.저는 TEST 파일은 열 생략이나 결측지 보정 들의 수정이 가해지면 안되는 원본 데이터의 상태로예측 모델을 적용하는 것으로 인지하고 있는데, 해당 부분에 대한 보충 회신을 주시면 감사드리겠습니다. (채점을 위한 기관측의 추가 별도 데이터를 대입하여 예측결과가 실제로 산출되는지 확인하는 부분이 있다하여, 모든 독립변수 행에 대해서도 대응할 수 있는 모델에 대해서 추가 설명이 있으면 도움이 될 것 같습니다.) 제가 강의 내용 중 못 따라간 부분이 있을 수도 있어, 코드 작성 내 놓친 부분이 있는지 계속 수강내용과 확인해 보겠습니다.감사합니다.
- 미해결빅데이터분석기사 실기대비 (R 활용)
predict.randomForest
제5회 작업형 2유형 가지고 풀어봤습니다. 선생님 덕분에 깔끔하게 쓸 수 있게 됐네요. 작년에는 개념을 아예 모르고 냅다 암기만 해서 얼마나 당황했는지..;;str(df)df$model <- as.factor(df$model)df$year <- as.factor(df$year)df$transmission <- as.factor(df$transmission)df$fuelType <- as.factor(df$fuelType)str(df)inx <- createDataPartition(df$price, p = 0.7, list = F)train <- df[inx,]test <- df[-inx,]model1 <- randomForest(price~.,data=train)p1 <- predict(model1, test)rmse(p1, test$price)tst$model <- as.factor(tst$model)tst$transmission <- as.factor(tst$transmission)tst$fuelType <- as.factor(tst$fuelType)tst$year <- as.factor(tst$year)df <- df[,-2]tst <- tst[,-2]model2 <- randomForest(price~.,data=df)p2 <- predict(model2, tst)result <- data.frame(pred = p2)write.csv(result, 'C://r/result.csv', row.names=FALSE)result_check <- read.csv('result.csv')result_check이런 식으로 선생님께서 알려주신 방법대로 했었는데, randomForest 모델 만들고 tst 데이터에다가 predict 적용할 때 에러가 났었습니다.Type of predictors in new data do not match that of the training data.?predict, ?predict.randomForest 둘 다 해봐도 도통 원인을 모르겠어서 결국 인터넷 검색을 해봤더니 factor가 너무 종류가 많아서 일어나는 문제라고 하더군요;;그래서 앞으로 돌아와서df <- df[,-2]tst <- tst[,-2]두 행 추가해서 20개의 factor를 가진 year 칼럼을 삭제하고 다시 돌렸더니 그땐 됐습니다. train, test가지고 나눠서 해봤을 때 rmse가 1521이라고 나왔습니다만 회귀 문제라 좋은 건지 어떤지 모르겠더라구요. rpart보다 randomForest에서 rmse가 더 낮았으니까 성능이 더 좋다 이런 상대적인 판단만 가능했습니다.비슷하게 19개의 factor를 가진 model 칼럼을 날려버릴지 year 칼럼을 날려버릴지 고민됐는데 어느 쪽이 더 성능이 좋을지는 시험에 나온 데이터셋 가지고 해봐야겠네요. 범주형 데이터 다 넣어보고 빼보고 rmse 해서 비교해보겠습니다.결론은.. 회귀 문제가 나왔고 randomForest 모델 썼는데 predict에서 Type of predictors in new data do not match that of the training data.이런 에러가 나오면 factor가 너무 많은 칼럼을 과감하게 날려버리자! 였습니다. 제대로 판단한 건지 모르겠습니다만 혹시 벼락치기로 기출 풀어보시는 분들 있다면 공유차 글 작성합니다.
- 해결됨빅데이터분석기사 실기대비 (R 활용)
비지도학습
안녕하세요, 혹시 2유형에서 비지도학습(군집분석 등)이 나올 가능성이 있을까요?
- 미해결빅데이터분석기사 실기대비 (R 활용)
predict함수 type 질문
작업형 2유형 질문드립니다.predict 함수 사용 시에 type별로 어떤 상황에 어떤걸 써야하는지 궁금해서 질문 올립니다.감사합니다.
- 미해결빅데이터분석기사 실기대비 (R 활용)
이상치 처리시
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요. 이상치 처리시 ifelse()를 사용하셨는대df$Ozone[df$Ozone > upp] <- mean(df$Ozone, na.rm = T)이렇게 사용해도 될까요?알려주신 방법과의 차이점은 무었이고 혹시 변경할 코드로 작성시에 실수할수 있는 경우의 수가 있을까요?
- 미해결빅데이터분석기사 실기대비 (R 활용)
작업2유형 - 4회 기출 질문 드립니다
안녕하세요, 4회 기출 주신 자료를 따라서 코딩 하고 있는데 confusionMatrix 결과값이 다르게 강의 파일과 다르게 나옵니다.'cm1$byClass'를 넣어도 에러 메세지가 나오고요.확인 부탁 드립니다. 감사합니다 [confusionMatrix 시행 결과 화면]
- 미해결빅데이터분석기사 실기대비 (R 활용)
dplyr 라이브러리의 select 함수를 궂이 써야하는 이유가 있을까요?
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요. 기본적으로 [ , ] 사용한 인덱싱과셀렉트 함수를 사용하여 인덱싱 하는것의 차이점이과 사용시 더 유용한 경우가 있을까요?혹시 가독성이 더 좋아서일까요?
- 미해결빅데이터분석기사 실기대비 (R 활용)
맨 마지막 p3에서 2,482명이 나와야 되는거 아닌가요???
맨 마지막 p3 <- (p1+p2) / 2 에서 str(p3)해보면 2,482행이 나와야 하는거아닌가요?871 obs of 2 variables라고 나와서요...
- 해결됨빅데이터분석기사 실기대비 (R 활용)
가설검정결과 채택의 의미에 대해 의문사항이 있습니다!
강의 감사합니다!귀무가설이 평균차이가 0보다 크다(치료후 혈압 - 치료전 혈압이 0보다 크다->치료후 혈압이 크다)인데p-value가 0.99니까 귀무가설을 기각할 수 없다그러면 귀무가설인 치료후 혈압-치료전혈압이 0보다 크다는 말이 맞으니까치료후 혈압 > 치료전 혈압이고 그러면 이 약의 효과가 없는게 아닌지 궁금합니다!(이 약은 고혈압 치료제)
- 미해결빅데이터분석기사 실기대비 (R 활용)
예시문제 작업형2번
안녕하세요전처리를 할 때 bagImpute 로 결측치 처리를 전체 했더니, auc >1 로 나오는데이 경우에는 하신 대로 mean 평균으로 대체하는게 맞을까요? scale(데이터, center=TRUE, scale=TRUE) 대신에 preProcess (caret 패키지) 를 추천해주신 이유가 있으실까요?
- 미해결빅데이터분석기사 실기대비 (R 활용)
6회 시험 실기유형 변경
선생님 안녕하세요, 주최기관 공지를 보니 빅데이터분석기사 실기 이번부터 단답형이 사라지고, 실습형 문항이 하나 추가된다고 하네요. 얼마전에야 공개하다니 ㅠ.ㅠ 혹시 강의과정에 이부분도 추가 가능하실지 여쭤봅니다.
- 미해결빅데이터분석기사 실기대비 (R 활용)
마지막 질문이될것같습니다 선생님!!
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요먼저 선생님덕에 시험 잘 마치고나왔습니다 감사합니다. 유형별 질문 총 3가지있습니다 단답형. 가채점 해보니 4개 (1개불확실) 정도 맞았습니다Q. 불확실한 1개의 질문인데요 f1 스코어 문제로 정답은 0.25 로 추정됩니다. 전 1/4로 적었구요. 이건 같은 답으로 처리가 될지 궁금합니다.(시험에서 어떤 형태로 입력하라는 내용X) 유형1. 정수 출력이 전제조건인 문제들입니다(우선 3문제 다 맞춘것같습니다)1번의 답은 122로 소수점이나왔으나 round(변수, 0) 하여 소수점안나오고 딱 정수가 나왔습니다. 2,3번문제는 정수가 나와 그대로 제출했구요. 커뮤니티에서 조금 논란이되는게 정수형(int) 출력여부입니다.Q. 공지사항에서 시험 가이드라인.pdf에는 정수로 출력으로만 나와있는데, int로 바꿨어야만 할까요? 답은 맞지만 변수가 num형식일 경우에 감점을 시키면 논란이 되지않을까요? 유형2. 데이터가 너무 깔끔했습니다. 여기서 배운대로 간단하게만 처리했으며 스케일이나 별도 데이터를 삭제하거나 하지는 않았습니다.회귀 문제였기에 팩터형을 지우고 수치만 가지고 모델 만드신 분들이 계시다는데, 데이터가 많지도 않았고 자동차 회사를 다니는 저에게 자동차모델명과 같은 팩터는 조금 중요한 요인처럼 느껴져, 예측 y값은 그대로 두고, 팩터형 변환이 필요한 부분만 팩터화, 전체 데이터를 넣고 랜포를 돌렸습니다. (별도 설정없이 ntree만 100설정). 정상적으로 잘 돌아갔고 rmse 1250 정도에 r2 0.92정도, 과적합인가 의심은 했습니다만 그냥 그대로 제출했습니다Q. 여기서 궁금한게 회귀형일때에는 팩터형을 다 제거하고 모델을 만드는게 맞는건가요? 선생님의 강의덕에 아무탈 없이 잘 제출했습니다 마지막이 될 수 있는 질문입니다 선생님 그동안 감사했습니다!
- 미해결빅데이터분석기사 실기대비 (R 활용)
5회 2유형
작업형 1유형은 이 강의 토대로 술술 풀었습니다(3번에서 전체전입전출학생수 칼럼 있는 줄도 모르고 1~6학년 더하고 빼고 그랬네요)2유형에서 요 강의 토대로 풀려고 하는데결측치도 없고 이상치도 없는 것 같고.. 느낌이 쎄한게train에 어떤 method를 써도 안되는 겁니다.. rpart glm lm lda randomForest까지..rpart는 너무 오래 걸리고glm이었나 lda는Accuracy Kappa에 NA값이 있다며(?) 오류가 떴습니다음.. 강의에서 배운 건 다 써봤는데 역시 기본 이해가 없어서인지 다른 해결방법이 떠오르지 않더군요..풀이 강의 부탁드리겠습니다
- 미해결빅데이터분석기사 실기대비 (R 활용)
작업형제2유형 질문입니다.
1.평가지표에서 auc를 이용하는 경우는predict에서 type='prob'를 써야 하구요제출파일은 p3[,2]이런 형태여야 하구요2. 평가지표에서 confusionMatrix와 rmse를 이용하는 경우는 predict에서 type='prob'를 쓰지 않구요confusionMatrix는 p1과 p2를 더한 p3는 에러가 나서 p1과p2중에 성능이 더 좋은 걸 골라서 제출하면 되는거죠?confusionMatrix와 rmse의 제출파일형태는 p1 이런 모양이어야 하구요.제가 정리한게 맞을까요...?
- 미해결빅데이터분석기사 실기대비 (R 활용)
rmse질문입니다.
rmse를 구하는 문제에서는 예측값을 팩터형으로 변환하지 않는다는 것은 아는데요. 그 외의 원래 데이터에서 주어진 chr형식을 factor형으로 변환하는 건가요.. 하지 않아도 되는 건가요..보통 분류문제이서는 chr을 전부 팩터형으로 변환시키는데.. rmse,mae,mape 이런 회귀문제에서도 이렇게 변환시켜야 하는지 궁금합니다.
- 미해결빅데이터분석기사 실기대비 (R 활용)
제5회 빅데이터분석기사 실기 응시 가이드 질문입니다.
여기에서 자동생성 되는 index 컬럼 제거라는 뜻은 맨 왼쪽에 있는 123456을 말하는 건가요?ID밑의 값을 말하는 건가요?ID는 일부러 만들어준거라 아닌 거 같은데...어떤 부분을 말하는지 정확히 모르겠어서요.
- 미해결빅데이터분석기사 실기대비 (R 활용)
제4회 실기시험 리뷰 작업형2문제
이 문제에서는 다지분류이기 때문에macro F1-Score로 평가지표로 처리할 수 밖에 없던 거여서mean(cm1$byClass[,7],na.rm=T) 이렇게 mean이라는 함수를 쓴 건가요?만약 2개를 분류하는 문제인데 F1-Score로 평가지표를 한다면cm1$byClass[7]의cm2$byClass[7]의 값을 비교해서 더 높은 F1-Score의 모델에 해당하는 p값을 제출하면 되는 거죠? -------------------------------------------------------그리고 예를 들어 시험에서 macro F1-Score로 평가지표를 이용하라고 했는데... macro F1-Score는 모른다고 했을때.... 일단 알고 있는 다른 평가지표(auc같은거)를 이용하여 예측한 다음에 해당 예측값을 파일로 제출하면 틀렸다고 하나요?코드에 macro F1-Score로 평가지표를 구한 부분이 보이지 않는다면 혹시 제출 파일이 진흥원이 제시하는 정답에 문제가 없이 잘 실행이 되어도 0점 처리되나요??
- 미해결빅데이터분석기사 실기대비 (R 활용)
출제예상문제풀이 1번 문제 질문입니다
df1 %>% filter(age >= 80) %>% select(crim) %>% summarize(avg=mean(crim))select(., crim)에서 다음과 같은 에러가 발생했습니다:사용되지 않습니다:사용되지 않은 인자 (crim)select부분에서 자꾸 오류가 나는 거 같은데 왜 그러는 걸까요?
- 미해결빅데이터분석기사 실기대비 (R 활용)
제4회 실기시험 리뷰 작업형1에서 3번문제 질문입니다.
ds=read.csv('netflix_titles.csv',encoding = 'UTF-8')하면 결과가 6으로 나오는데요..ds=read.csv('netflix_titles.csv')이렇게 하면 결과가 3으로 나와요....encoding = 'UTF-8' 이거를 시험볼때도 해줘야 하는 건가요?제가 알고 있는 fileEncoding='UTF-8-BOM'으로 하면 결과는 0으로 나오구요...
- 미해결빅데이터분석기사 실기대비 (R 활용)
제4회 실기시험 리뷰 작업형1질문 1번문제
1.절대값을 구하라고 하였으므로 abs함수를 써야 하는 거 아닌가요?값을 내림할때 as.integer을 써도 되고 floor를 이용해도 되는거죠? 그리고 반올림할때 round함수 쓰셨는데 정수니까 round함수의 두번째 자리는 1이 아니라 0이어야 하는 거 아닐까요?그런데 1이나 0을 자릿수로 써봤는데... 답이 동일하게 나오던데.. 왜 그러는 걸까요...?quantile이냐 fivenum이냐 이건 데이터의 길이가 짝이냐 홀이냐의 문제라고 하셨는데요... 앞으로 시험에서 이렇게 사분위수가 나오면 이것저것 시도해보고 비교해 볼 거 없이 quantile함수를 이용하여 구하면 될까요...?