• 카테고리

    질문 & 답변
  • 세부 분야

    데이터 분석

  • 해결 여부

    미해결

실기 3회 유형2 세부사항 문의

22.10.30 15:29 작성 조회수 138

0

- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!
- 먼저 유사한 질문이 있었는지 검색해보세요.
- 서로 예의를 지키며 존중하는 문화를 만들어가요.
- 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요.

유형2 스크립트 관련하여 세부 내용설명이 필요해서 질문드립니다.

질문1>

df<-read.csv("C:/Users/datauser/Desktop/제3회 실기시험/TravelInsurancePrediction_train.csv")

tst<-read.csv("C:/Users/datauser/Desktop/제3회실기시험/TravelInsurancePrediction_test.csv")

 질문

1-1위 스크립트는 데이터 불러오기인가요?

1-2 x_train, x_test , y_train 3개를 불러오는거와 달리 왜 이 부분을 명칭을 df와 tst로 했는지 어떤 문제 부분일 때 x_train, x_test , y_train 을 지정 하는지 궁금합니다.

질문2

str(df)

summary(df)

df$Employment.Type <- as.factor(df$Employment.Type)

df$GraduateOrNot <- as.factor(df$GraduateOrNot)

df$FrequentFlyer <- as.factor(df$FrequentFlyer)

df$EverTravelledAbroad <- as.factor(df$EverTravelledAbroad)

df$TravelInsurance <- as.factor(df$TravelInsurance)

2-1 문자형 data는 factor로 무조건 보통 바꾸나요?

2-2보통 자료의 마지막 컬럼을(3회에서는 TravelInsurance)을 factor 바꾸는거 같던데 맞나요?

아니면 어떤 자료의 num을 factor로 바꾸는지 기준이 궁금합니다.

 

질문3

3-1분류모델 구축 강의에서는

merge함수를 사용하여 df=merge(x_train,y_train, by='cust-id') 하던데 이문제에서는

자료를 합치지 않은 이유가 궁금합니다.

3-2만약 합치지 않은이유가 회귀모델이라서 그렇다면 문제에 어떤부분을 보고 분류모델인지 회귀모델인지 구분하는법이 궁금합니다.

 

질문4

library(ModelMetrics)

auc(test$TravelInsurance, p3[,2])

4-1 auc하는 부분은 모델의 성능을 평가하기 위해서 사용한건가요?

 

질문5 df 자료 변환 vs tst자료 변환

df$Employment.Type <- as.factor(df$Employment.Type)

df$GraduateOrNot <- as.factor(df$GraduateOrNot)

df$FrequentFlyer <- as.factor(df$FrequentFlyer)

df$EverTravelledAbroad <- as.factor(df$EverTravelledAbroad)

df$TravelInsurance <- as.factor(df$TravelInsurance)

tst변환

tst$Employment.Type <- as.factor(tst$Employment.Type)

tst$GraduateOrNot <- as.factor(tst$GraduateOrNot)

tst$FrequentFlyer <- as.factor(tst$FrequentFlyer)

tst$EverTravelledAbroad <- as.factor(tst$EverTravelledAbroad)

5-1 df와 동일하게 tst를 자료 변환하는건 맞는지 그런데 TravelInsurance 에 대해서는 왜 factor로 변환하지 않았는지 궁금합니다.

 

질문6

스크립트를 외워서 시험을 칠려고 하는데 세부사항 이해가 안되니 적용이 안되네요

강의를 여러번 들어도 잘 모르겠습니다. 어떻게 공부를 더 해야 될지 조언도 부탁드립니다.

답변 2

·

답변을 작성해보세요.

0

 

메일확인부탁드립니다.

0

 

안녕하세요!

질문이 많아서 질문부분만 발췌해서 답을 드립니다. 감사합니다.

 

질문1

1-1위 스크립트는 데이터 불러오기인가요?

→ 데이터 불러오기 맞습니다.

1-2 x_train, x_test , y_train 3개를 불러오는거와 달리 왜 이 부분을 명칭을 df와 tst로 했는지 어떤 문제 부분일 때 x_train, x_test , y_train 을 지정 하는지 궁금합니다.

→ 다양한 환경에 대응하기 위해서 입니다. 문제에서 3개로 주는 경우에 대한 스크립트도 있지만

그렇지 않을 경우를 대비해서 위의 스크립트도 말씀드렸습니다.

질문2

2-1 문자형 data는 factor로 무조건 보통 바꾸나요?

→ 네. Factor로 무조건 바꾸시는게 맞습니다. 다만 강의 내용처럼

Factor의 level이 너무 많다면 (10개이상?) 그 칼럼은 없앱니다.

2-2보통 자료의 마지막 컬럼을(3회에서는 TravelInsurance)을 factor 바꾸는거 같던데 맞나요?

아니면 어떤 자료의 num을 factor로 바꾸는지 기준이 궁금합니다.

→ 네. 예측하고자하는 칼럼이 문자의 의미를 갖는다면 숫자형 변수도 Factor로 바꿉니다.

질문3

3-1분류모델 구축 강의에서는

merge함수를 사용하여 df=merge(x_train,y_train, by='cust-id') 하던데 이문제에서는

자료를 합치지 않은 이유가 궁금합니다.

3-2만약 합치지 않은이유가 회귀모델이라서 그렇다면 문제에 어떤부분을 보고 분류모델인지 회귀모델인지 구분하는법이 궁금합니다.

→ 회귀모델이기 때문에 합친 것은 아닙니다. Train과 Test가 따로 주어진 경우에

모델에 학습데이터를 넣어줘야되서 짝을 맞추어서 (엑셀의 vlookup느낌)으로 합칩니다.

만약 이미 짝이 지어진경우는 merge할 필요가 없습니다.

질문4

4-1 auc하는 부분은 모델의 성능을 평가하기 위해서 사용한건가요?

→ 네. 모델의 성능을 평가하기 위함입니다. 반드시 해야하는 필수사항은 아닙니다.

질문5 df 자료 변환 vs tst자료 변환

5-1 df와 동일하게 tst를 자료 변환하는건 맞는지 그런데 TravelInsurance 에 대해서는 왜 factor로 변환하지 않았는지 궁금합니다.

→ tst에는 정답지($TravelInsurance) 칼럼이 없기 때문에 변환할 수가 없습니다.

질문6

스크립트를 외워서 시험을 칠려고 하는데 세부사항 이해가 안되니 적용이 안되네요

강의를 여러번 들어도 잘 모르겠습니다. 어떻게 공부를 더 해야 될지 조언도 부탁드립니다.

→ 신청해주신 멘토링으로 갈음하겠습니다.