-
카테고리
-
세부 분야
데이터 분석
-
해결 여부
미해결
실기 3회 유형2 세부사항 문의
22.10.30 15:29 작성 조회수 138
0
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!
- 먼저 유사한 질문이 있었는지 검색해보세요.
- 서로 예의를 지키며 존중하는 문화를 만들어가요.
- 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요.
유형2 스크립트 관련하여 세부 내용설명이 필요해서 질문드립니다.
질문1>
df<-read.csv("C:/Users/datauser/Desktop/제3회 실기시험/TravelInsurancePrediction_train.csv")
tst<-read.csv("C:/Users/datauser/Desktop/제3회실기시험/TravelInsurancePrediction_test.csv")
질문
1-1위 스크립트는 데이터 불러오기인가요?
1-2 x_train, x_test , y_train 3개를 불러오는거와 달리 왜 이 부분을 명칭을 df와 tst로 했는지 어떤 문제 부분일 때 x_train, x_test , y_train 을 지정 하는지 궁금합니다.
질문2
str(df)
summary(df)
df$Employment.Type <- as.factor(df$Employment.Type)
df$GraduateOrNot <- as.factor(df$GraduateOrNot)
df$FrequentFlyer <- as.factor(df$FrequentFlyer)
df$EverTravelledAbroad <- as.factor(df$EverTravelledAbroad)
df$TravelInsurance <- as.factor(df$TravelInsurance)
2-1 문자형 data는 factor로 무조건 보통 바꾸나요?
2-2보통 자료의 마지막 컬럼을(3회에서는 TravelInsurance)을 factor 바꾸는거 같던데 맞나요?
아니면 어떤 자료의 num을 factor로 바꾸는지 기준이 궁금합니다.
질문3
3-1분류모델 구축 강의에서는
merge함수를 사용하여 df=merge(x_train,y_train, by='cust-id') 하던데 이문제에서는
자료를 합치지 않은 이유가 궁금합니다.
3-2만약 합치지 않은이유가 회귀모델이라서 그렇다면 문제에 어떤부분을 보고 분류모델인지 회귀모델인지 구분하는법이 궁금합니다.
질문4
library(ModelMetrics)
auc(test$TravelInsurance, p3[,2])
4-1 auc하는 부분은 모델의 성능을 평가하기 위해서 사용한건가요?
질문5 df 자료 변환 vs tst자료 변환
df$Employment.Type <- as.factor(df$Employment.Type)
df$GraduateOrNot <- as.factor(df$GraduateOrNot)
df$FrequentFlyer <- as.factor(df$FrequentFlyer)
df$EverTravelledAbroad <- as.factor(df$EverTravelledAbroad)
df$TravelInsurance <- as.factor(df$TravelInsurance)
tst변환
tst$Employment.Type <- as.factor(tst$Employment.Type)
tst$GraduateOrNot <- as.factor(tst$GraduateOrNot)
tst$FrequentFlyer <- as.factor(tst$FrequentFlyer)
tst$EverTravelledAbroad <- as.factor(tst$EverTravelledAbroad)
5-1 df와 동일하게 tst를 자료 변환하는건 맞는지 그런데 TravelInsurance 에 대해서는 왜 factor로 변환하지 않았는지 궁금합니다.
질문6
스크립트를 외워서 시험을 칠려고 하는데 세부사항 이해가 안되니 적용이 안되네요
강의를 여러번 들어도 잘 모르겠습니다. 어떻게 공부를 더 해야 될지 조언도 부탁드립니다.
답변을 작성해보세요.
0
0
companionclub
지식공유자2022.11.02
안녕하세요!
질문이 많아서 질문부분만 발췌해서 답을 드립니다. 감사합니다.
질문1
1-1위 스크립트는 데이터 불러오기인가요?
→ 데이터 불러오기 맞습니다.
1-2 x_train, x_test , y_train 3개를 불러오는거와 달리 왜 이 부분을 명칭을 df와 tst로 했는지 어떤 문제 부분일 때 x_train, x_test , y_train 을 지정 하는지 궁금합니다.
→ 다양한 환경에 대응하기 위해서 입니다. 문제에서 3개로 주는 경우에 대한 스크립트도 있지만
그렇지 않을 경우를 대비해서 위의 스크립트도 말씀드렸습니다.
질문2
2-1 문자형 data는 factor로 무조건 보통 바꾸나요?
→ 네. Factor로 무조건 바꾸시는게 맞습니다. 다만 강의 내용처럼
Factor의 level이 너무 많다면 (10개이상?) 그 칼럼은 없앱니다.
2-2보통 자료의 마지막 컬럼을(3회에서는 TravelInsurance)을 factor 바꾸는거 같던데 맞나요?
아니면 어떤 자료의 num을 factor로 바꾸는지 기준이 궁금합니다.
→ 네. 예측하고자하는 칼럼이 문자의 의미를 갖는다면 숫자형 변수도 Factor로 바꿉니다.
질문3
3-1분류모델 구축 강의에서는
merge함수를 사용하여 df=merge(x_train,y_train, by='cust-id') 하던데 이문제에서는
자료를 합치지 않은 이유가 궁금합니다.
3-2만약 합치지 않은이유가 회귀모델이라서 그렇다면 문제에 어떤부분을 보고 분류모델인지 회귀모델인지 구분하는법이 궁금합니다.
→ 회귀모델이기 때문에 합친 것은 아닙니다. Train과 Test가 따로 주어진 경우에
모델에 학습데이터를 넣어줘야되서 짝을 맞추어서 (엑셀의 vlookup느낌)으로 합칩니다.
만약 이미 짝이 지어진경우는 merge할 필요가 없습니다.
질문4
4-1 auc하는 부분은 모델의 성능을 평가하기 위해서 사용한건가요?
→ 네. 모델의 성능을 평가하기 위함입니다. 반드시 해야하는 필수사항은 아닙니다.
질문5 df 자료 변환 vs tst자료 변환
5-1 df와 동일하게 tst를 자료 변환하는건 맞는지 그런데 TravelInsurance 에 대해서는 왜 factor로 변환하지 않았는지 궁금합니다.
→ tst에는 정답지($TravelInsurance) 칼럼이 없기 때문에 변환할 수가 없습니다.
질문6
스크립트를 외워서 시험을 칠려고 하는데 세부사항 이해가 안되니 적용이 안되네요
강의를 여러번 들어도 잘 모르겠습니다. 어떻게 공부를 더 해야 될지 조언도 부탁드립니다.
→ 신청해주신 멘토링으로 갈음하겠습니다.
답변 2