60,500원
다른 수강생들이 자주 물어보는 질문이 궁금하신가요?
- 미해결빅데이터분석기사 실기대비 (R 활용)
회귀모델구축 질문입니다.
mae나 rmse mape는 제출하는 마지막에서는 평가파일에 예측값이 없으니까 구할 수 없는 거죠?그래서 p3만 write해서 내면 되는 거죠?분류모델구축할때도 평가파일에 예측값이 없으니까 auc 못 구하고 p3[,2]이렇게 write 해서 제출하는것처럼이요~ 그런데 제출하는 게 아니라 그냥 rmse로 평가결과를 구하시오. 그러면 테스트 데이터로 rmse 결과 값을 구하면 되는 거죠?
- 미해결빅데이터분석기사 실기대비 (R 활용)
작업형 2유형 질문
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요. 안녕하세요 선생님의 강의로 준비를 열심히하고있는 학생입니다나름 이제 방법을 터득해 1유형은 걍 데이터마님 캐글 등의 사이트 문제 반복 풀이, 2유형은 선생님의 말씀대로Str, summary 를 통한 데이터 확인 후 결측치 있을시 삭제 혹은 평균화, 팩터형으로 바꾸기도하고, level 이 너오무 많을시 팩터형 삭제 등 까지만 하고 바로 datapartion에 들어갑니다그런데 다른분들을 보니 위의 과정을 거친 후 scale도 하시고 주성분 분석 등 다양한 방법 후 데이터를 학습시키는거같은데..여기서 질문입니다. 선생님 말씀대로 위의 과정을 간단히 (왜냐하면 변수에 대해 사전지식이 없기때문) 전처리하고 데이터를 학습시키기만 하더라도 완전 고득점까진아니더라도 반타작이상은 하지않을까 싶어서요… 선생님 고견은 어떠신지 여쭙니다
- 미해결빅데이터분석기사 실기대비 (R 활용)
작업형 제2유형 질문입니다.
질문1. 4개의 분류문제에서는 predict값을 바로 write.csv 하셨습니다.그럼 2개의 분류문제가 주어지고 f1스코어로 평가한다고 하면 predict값을 ifelse를 활용해 1,0으로 나누고 as.factor형으로 바꾼 뒤 write.csv를 해야하나요??아니면 predict한 p3[ , 2]을 그대로 write.csv 해야하나요 질문2. 제4회차 2유형 문제를 작성한 코드입니다. library(caret)library(ModelMetrics)df <- read.csv('C:/Users/USER/Desktop/강의자료/train.csv')tst <- read.csv('C:/Users/USER/Desktop/강의자료/test.csv')str(df)summary(df)df <- df[,-1]df$Gender <- as.factor(df$Gender)df$Ever_Married <- as.factor(df$Ever_Married)df$Graduated <- as.factor(df$Graduated)df$Profession <- as.factor(df$Profession)df$Spending_Score <- as.factor(df$Spending_Score)df$Var_1 <- as.factor(df$Var_1)df$Segmentation <- as.factor(df$Segmentation)df$Work_Experience<- ifelse(is.na(df$Work_Experience), mean(df$Work_Experience, na.rm=T), df$Work_Experience)df$Family_Size <- ifelse(is.na(df$Family_Size), mean(df$Family_Size, na.rm=T), df$Family_Size)inx <- createDataPartition(df$Segmentation, p=0.7, list=F)train <- df[inx,]test <- df[-inx,]model1 <- train(Segmentation~., data=train, method='rpart')model2 <- train(Segmentation~., data=train, method='lda')p1 <- predict(model1, test)p2 <- predict(model2, test)library(caret)cm1 <- confusionMatrix(test$Segmentation,p2)이렇게 작성을 했는데 cm1의 값이 아래와 같이 뜹니다. 혹시 어떤 문제가 있을까요? [,1] [,2][1,] 0 0[2,] 0 779
- 미해결빅데이터분석기사 실기대비 (R 활용)
작업형제2유형 질문입니다.
auc값을 이용하여 모델을 제출할때 예를 들어1번=>glm으로 나온 값 : 0.52번=>rpart로 나온 값 : 0.6 3번=>위의 2개를 더해 2로 나눈 값 : 0.55라고 가정했을 때 auc값은 1에 가까울수록 좋은 모형으로 평가하기 때문에 rpart모델을 선택해서 최종 모델로 만든다음 제출해야 하는 거 아닌가요...?수업내용들을 보면 3번을 제출하더라구요...정확하게 이해가 안 갑니다.ㅠㅠ
- 미해결빅데이터분석기사 실기대비 (R 활용)
제4회 작업형2 실기 질문입니다.
모델을 만들고 예측해서 rpart모델을 최종 파이널로 만들때 model_f <- train(Segmentation~. , data = df, method = 'rpart')p_f <- predict(model_f, tst) 게 하고 cm_f<- confusionMatrix(p_f,tst$Segmentation)mean(cm_f$byClass[,7], na.rm = T)를 안 하는 이유는 tst파일에 Segmentation변수가 없기 때문인가요?(해보면 에러가 뜨긴 하는데...)결국 위에서 모델을 만들고 예측을 한 다음 최종적으로 제출파는 파일에는 예측변수가 없기 때문에 p_f만 제출하면 되는 거죠?
- 미해결빅데이터분석기사 실기대비 (R 활용)
제4회 작업형2 실기시험 질문입니다.
앞선 강의를 보면 p1하고 p2를 더하고 그것을 2로 나눈 값을 제출했는데.. 여기서는 이 작업을 하지 않은 이유가 레벨이 4개여서 확률로 결과가 나오는 게 아니기도 하고 평가지표를 macro F1-score로 처리해야 하서 그러는 건가요?
- 미해결빅데이터분석기사 실기대비 (R 활용)
3회 작업형 1유형 전처리 문제
안녕하세요! 실기 기출 3회 작업형 1유형 1번에서, 상위 70%를 뽑을 때 round 함수를 사용하는 이유가 궁금합니다!! val <- round(nrow(df_na)*0.7) 이부분이요! 감사합니다!
- 미해결빅데이터분석기사 실기대비 (R 활용)
예상문제 작업2유형 샘플파일이 읽혀지지 않는 문제
예상문제 유형 2의 샘플 Data가 R4.2.1에서 읽혀지지 않는데 자주하는 질문보니까 교수님이 이 문제의 답변으로 R3.6.1에서 read.csv로 읽어올수 있다는 답변을 보고 그대로 했는데 R3.6.3에서 파일을 읽어오는 문제는 해결이 됐는데 다른 문제가 발생했습니다. 즉 library(dplyr)을 했을때 팩키지가 다 불려와 지지 않는 에러가 발생합니다. 그래서 파이프연산자(%>%)가 인식이 안되는 문제가 발생합니다. 결론적으로 샘플로 올리신 파일을 R4.2.1에서도 읽어올 수 있도록 해주시면 안될까요. 그러면 대단히 감사하겠습니다. R3.6.1의 환경에서 연습하는 것도 좋지만 그 버젼에서 여러 문제가 발생하니 여러일로 바쁘시겠지만 최신버젼인 R4.2.1에서 파일을 읽어올 수 있도록 해주시면 시험 연습하는데 많은 도움이 될 것으로 사료됩니다. 부탁드립니다.
- 미해결빅데이터분석기사 실기대비 (R 활용)
실기4 유형2 질문
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요.질문1model1 <- train(Segmentation~. , data = train, method = 'rpart')model2 <- train(Segmentation~. , data = train, method = 'lda')1-1 model2에서 glm 대신에 lda를 사용하는 이유가 4개로 분류하기 때문에 lda를 사용한다 하셨는데 그럼 앞으로 glm 대시 lda를 외워서 사용해도 되는지 궁금합니다.1-2 glm보다 lda가 활용폭이 넓기 때문에 lda를 사용하는걸로 이해 했는데 만약 lda대신에 glm만 사용해야 되는 경우가 있나요?1-3 랜덤 포레스트는 14분이 걸린다고 했는데 실기4회 유형2번 문제에서 14분이 걸린다는 얘긴가요??랜덤 포레스트가 빅분기 실기에서 시간때문에 적합하지 않는 경우가 많은건가요? 질문2실기3회 스크립트 일부분model1 <- train(TravelInsurance~. , data = df, method = 'glm')model2 <- train(TravelInsurance~. , data = df, method = 'rpart')p1 <- predict(model1, tst, type = 'prob')p2 <- predict(model2, tst, type = 'prob')p3 <- (p1 + p2)/2실기4회 스크립트 p1 <- predict(model1, test)p2 <- predict(model2, test)2-1 p3를 안 만든 이유가 있을까요? p3를 만들때 와 안만들때 케이스가 궁금합니다. 질문3cm1 <- confusionMatrix(p1,test$Segmentation)mean(cm1$byClass[,7], na.rm = T)cm2 <- confusionMatrix(p2,test$Segmentation)mean(cm2$byClass[,7], na.rm = T) 3-1 위스크립트는 외우라는 틀에 없는 내용인데 만약 시험장에서 위 스크립트가 생각이 안날 경우 생략하고 제출하면 문제가 생기는 부분이 무엇인지 궁금합니다.
- 미해결빅데이터분석기사 실기대비 (R 활용)
실기 3회 유형2 세부사항 문의
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요.유형2 스크립트 관련하여 세부 내용설명이 필요해서 질문드립니다.질문1>df<-read.csv("C:/Users/datauser/Desktop/제3회 실기시험/TravelInsurancePrediction_train.csv")tst<-read.csv("C:/Users/datauser/Desktop/제3회실기시험/TravelInsurancePrediction_test.csv") 질문 1-1위 스크립트는 데이터 불러오기인가요?1-2 x_train, x_test , y_train 3개를 불러오는거와 달리 왜 이 부분을 명칭을 df와 tst로 했는지 어떤 문제 부분일 때 x_train, x_test , y_train 을 지정 하는지 궁금합니다.질문2str(df)summary(df)df$Employment.Type <- as.factor(df$Employment.Type)df$GraduateOrNot <- as.factor(df$GraduateOrNot)df$FrequentFlyer <- as.factor(df$FrequentFlyer)df$EverTravelledAbroad <- as.factor(df$EverTravelledAbroad)df$TravelInsurance <- as.factor(df$TravelInsurance)2-1 문자형 data는 factor로 무조건 보통 바꾸나요?2-2보통 자료의 마지막 컬럼을(3회에서는 TravelInsurance)을 factor 바꾸는거 같던데 맞나요?아니면 어떤 자료의 num을 factor로 바꾸는지 기준이 궁금합니다. 질문33-1분류모델 구축 강의에서는 merge함수를 사용하여 df=merge(x_train,y_train, by='cust-id') 하던데 이문제에서는자료를 합치지 않은 이유가 궁금합니다.3-2만약 합치지 않은이유가 회귀모델이라서 그렇다면 문제에 어떤부분을 보고 분류모델인지 회귀모델인지 구분하는법이 궁금합니다. 질문4library(ModelMetrics)auc(test$TravelInsurance, p3[,2])4-1 auc하는 부분은 모델의 성능을 평가하기 위해서 사용한건가요? 질문5 df 자료 변환 vs tst자료 변환df$Employment.Type <- as.factor(df$Employment.Type)df$GraduateOrNot <- as.factor(df$GraduateOrNot)df$FrequentFlyer <- as.factor(df$FrequentFlyer)df$EverTravelledAbroad <- as.factor(df$EverTravelledAbroad)df$TravelInsurance <- as.factor(df$TravelInsurance)tst변환tst$Employment.Type <- as.factor(tst$Employment.Type)tst$GraduateOrNot <- as.factor(tst$GraduateOrNot)tst$FrequentFlyer <- as.factor(tst$FrequentFlyer)tst$EverTravelledAbroad <- as.factor(tst$EverTravelledAbroad)5-1 df와 동일하게 tst를 자료 변환하는건 맞는지 그런데 TravelInsurance 에 대해서는 왜 factor로 변환하지 않았는지 궁금합니다. 질문6스크립트를 외워서 시험을 칠려고 하는데 세부사항 이해가 안되니 적용이 안되네요강의를 여러번 들어도 잘 모르겠습니다. 어떻게 공부를 더 해야 될지 조언도 부탁드립니다.
- 미해결빅데이터분석기사 실기대비 (R 활용)
섹션 4 예상문제
작업형 1, 2 유형 문제는 어디서 볼수 있나요?
- 미해결빅데이터분석기사 실기대비 (R 활용)
열공중입니다 도와주세요 감사합니다!!
죄송합니다 하나만 더 여쭤볼게여!! result <- 무슨 값이렇게해서[1] 3 Levels : 1 2 3 4 5 6이렇게 나오더라구요, 정답은 3인데, 혹시 저 인덱스 [1] and Levels -- 을 없앨수 있는방법이있을까요?그리고 summary 후에 나오는 변수들 중 예를 들어서머리 후 type 1, type 2 ab ad ac au이렇게 나올때 ab만 출력하게 할 수 있을까요? 두서없는 질문에 답변 감사합니다!
- 미해결빅데이터분석기사 실기대비 (R 활용)
학습 질문있습니다!
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요. 안녕하세요 선생님 덕에 빡시게 공부하고있슴다 궁금한게있는데, glm 이나 rpart에서는 r2를 확인하는 방법이없나요? 강의자료가 아닌 다른 데이터긴하지만, Glm과 rpart를 rsq함수로 확인하려했으나 unsupported object라고 나와서요!
- 미해결빅데이터분석기사 실기대비 (R 활용)
덕분에 합격했습니다만..
작업형 2번에서 다중분류가 나와 당황했지만 랜덤포레스트를 활용해서 40점 만점으로 작업형 1번 점수와 무관하게 합격했습니다. 다만 작업형 1-1번에서 q3에서 q1을 빼라는 문제가 있었는데, fivenum 함수를 사용해서 풀었더니 정답 인정이 되지 않았습니다.. summary 같은 함수에서 나오는 사분위수와 구하는 방식이 약간 달라서 그렇다고 하는데, fivenum 함수를 사용하지 말라고 명시도 되어있지 않았는데 아예 0점을 주니 앞으로 사분위수 관련은 fivenum으로는 가르치시지 않는 편이 좋을 것 같습니다..!
- 미해결빅데이터분석기사 실기대비 (R 활용)
덕분에 합격했습니다.
이번 4회 실기시험에서 덕분에 합격했습니다. 기존 시험과 문제유형은 많이 바뀌었지만 처음에 어떻게 공부할지 감 조차 잡지못할 때 이 강의가 초행길을 잘 인도해주었습니다. 작업형 1 날짜 선별 문제와 작업형 2 다지분류 문제는 추가적인 공부가 있어야 풀 수 있었지만 저는 이 강의를 통해 기초를 쌓았고 이 강의가 없었으면 추가적인 공부를 엄두도 못냈을 것 같습니다 덕분에 합격했습니다. 다시 한 번 감사드립니다.
- 미해결빅데이터분석기사 실기대비 (R 활용)
작업2유형 분류문제
안녕하세요, 이번 빅분기 4회 시험 응시한 수강생입니다. 본 강의 덕분에 기초를 잘 다지고 시험에 응시할 수 있었습니다. 감사합니다. 다만 매 시험마다 문제가 계속 업그레이드 되고 있는 것 같습니다. 이전 2~3회 기출문제 공부만으로는 비전공자들은 합격하지 못할 것 같습니다.. 저 역시 작업2유형에서 4가지로 분류하는 문제를 보고 많이 당황하여 시험 시간에 많이 헤맸네요ㅠㅠ 어찌저찌 rpart만으로 결과를 산출해서 제출했는데, 1 / 2 / 3 / 4 class중에서 2 class로는 분류되는 케이스가 하나도 없더라고요. 변수 몇 가지를 수작업으로 뺐다 더했다 해봤으나 안 되더라고요.. 작업2유형에서 전처리를 뭘 안 한건지. 혹시 표준화/정규화 같은 걸 하지 않아서 그런건지 모르겠네요. (분명 주어진 train 데이터에는 4개 class 모두에 케이스가 분포되어 있음) 무튼 다음 시험을 준비하기 위해서 이번 실기 4회 기출문제 풀이강의도 추가해주시면 좋겠습니다. 가능하시다면 출제 예상되는 범위를 좀더 넓힌 강의도 추가해주시면 계속 공부하는데 큰 도움이 될 것 같습니다(4개 class 분류, 날짜 데이터 처리 등). 감사합니다!
- 미해결빅데이터분석기사 실기대비 (R 활용)
실기 4회 전처리문제 질문
이번에 넷플릭스 관련 날짜를 걸러내는 문제가 나왔습니다. 넷플릭스 등록된 컨텐츠 중 영국이 독자 제작하고 2018년 1월에 등록된 컨텐츠를 고르는 문제였는데 답을 필터로 풀고 눈으로 검토하는데 갯수가 다르더라고요. 그래서 멘붕와서 결국 답 제출을 library(dplyr) 불러오고 United Kingdom 필터작업하고 result <- 6 print(result) 이런식으로 했습니다. 답은 맞을거 같은데 점수를 받을 수 있을까요? 아 그리고 4회 기출해설은 언제쯤 올려주실지 궁금합니다
- 미해결빅데이터분석기사 실기대비 (R 활용)
실기 4회 전처리문제
이번 작업형 1 유형에서 날짜를 걸러내는 문제가 나왔어요 넷플릭스 등록된 컨텐츠 중 영국이 독자 제작하고 2018년 1월에 등록된 컨텐츠를 고르는 문제였습니다. dplyr 로 filter 걸어서 January 1, 2018부터 January 31, 2018까지 코드 31줄 써서 정답이 4개가 나왔는데 January 앞에 공백이 있는 다른 2개 데이터가 있어 날짜변환함수를 쓰면 해당데이터를 포함시켜 6개가 나온다고 합니다. 이 경우 복수정답의 가능성이 있을까요...? 해당 문제에 대해선 여러 카페에서도 의견이 분분하네요 lubridate를 알고있었지만 원초적으로 dplyr - filter거는게 낫다고 생각했었는데ㅠㅠ 틀리면 엄청 아쉬울거같네요
- 미해결빅데이터분석기사 실기대비 (R 활용)
작업2유형 4개분류문제
의사결정트리 rpart 모델로만 제출하였습니다. 당연히 준비하지못해서 자체 평가는 하지못했고요. 제출형식은 제시해준대로 제출했는데요. 1. 파일형식에 인덱스 번호가 붙어있는데 상관없을까요? 2. 제출형식만 맞으면 20점 이상은 나올까요?
- 미해결빅데이터분석기사 실기대비 (R 활용)
마지막에 custid 어떻게 추가하나요
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요. x_test <-x_test[c(-1,-5,-6)] 코드 전에 x_test_id <- x_test[,1] 로 아이디를 따로 추출했고 result <-data.frame(x_test_id, p3[,2]) 로 저장하려는데 자꾸 오류가 떠요 확인 부탁드립니다