inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

15일간의 빅데이터 파일럿 프로젝트

2.R을 이용한 회귀분석 - 운전자 연소득 예측 3

회귀분석 관련 질문 드립니다.

175

dominicus

작성한 질문수 2

0

R을 이용한 회귀분석 강의에서 smartcarMaster2Income에 있는 capacity를 feature로 income이라는 lable을 예측하는 것으로 이해했는데 분석에 사용된 데이터를 통해 얻은 모델을 검증하는 과정에서 Test파일을 가지고 predict를 하고나서 동일한 파일과 비교를 하는게 잘 이해가 되지 않아서 질문 드립니다.

모델을 검증?추론?할때는 lable값이 없는 데이터를 넣고 그 결과가 실제데이터(test파일)과 얼마나 가까운지를 확인하는 것이 아닌가요?

빅데이터 hadoop kafka zookeeper redis flume impala 데이터-엔지니어링

답변 1

0

Big.D

안녕하세요! "dominicus"님!

본인의 설명이 다소 부족한 부분이었는데...좋은 질문 감사합니다~

 

말씀하신데로 test_data 셋을 아래처럼 독립변수 데이터셋과 타겟변수(label) 데이터셋으로 분리해 놓고

Predict을 해야 하는데요...제가 많이 귀찮았나 봅니다. ^^;;

test_data_x -> 독립변수

test_data_y -> 타겟변수

 

부연 설명을 좀더 드리자면...

해당 R코드에선 이미 학습된 회귀 모델을 이용한 predict에 타겟변수가 포함된 데이터프레임을 이용해도,

모델은 test_data의 독립변수만 참조해 predict을 하게 되므로 결국 아래 두코드의 결과는 과정에 차이가 있을뿐 같습니다. (단, test 데이터프레임의 변수명과 train 데이터프레임의 변수명이 같은 경우만 가능 합니다.)

 

<방법1> #기존방식

predict_y <- predict(model, test_data, interval = "prediction")

RMSE(predict_y, test_data$smartcar_master2income.income)

 

<방법2>

test_data_x # 독립변수

test_data_y # 타겟변수

predict_y <- predict(model, test_data_x, interval = "prediction")

RMSE(predict_y , test_data_y)

 

파일럿 프로젝트 거의 마지막 단계까지 오셨네요!!!

끝까지 화이팅 입니다. -빅디 드림

주제영역3 데이타 조회 문의

0

30

2

환경 세팅 후 클라우데라매니저 삭제시

0

60

2

수강 기간 연장 부탁드립니다ㅠ

0

56

2

클라우데라 매니저 접속 불가 및 로그인 정보 문의

0

81

2

gcc 설치 에러

0

112

3

클러스터 설정 오류

0

83

2

클라우데라 클러스터 설치로 안넘어가짐

0

115

2

버추어박스 5.0 설치

0

136

2

워크플로우 예약 실행시 테이블은 생성되는데 데이터가 들어가지지 않습니다.

0

75

2

Hue 500 Error 어떻게 해결할 수 있나요?

0

145

3

환경세팅 질문있습니다.

0

102

2

버쥬얼박스

0

71

2

psycopg2==2.6.2. 에러

0

137

2

호스트 불량 문제에 관하여

0

104

2

하이브쿼리에서 에러가 나요...

0

163

3

하이브쿼리에서 에러

0

114

1

Hbase에 적재된 데이터 확인시 에러

0

145

2

파이썬 설치 시 에러

0

155

2

redis-cli 데이터 적재 확인

0

137

2

카프카 토픽 생성에서 에러

0

135

2

HDFS 명령어를 치는데 오류가 납니다

0

127

2

가상환경 내보내기

0

103

1

SpoolDIR 폴더로 옮기

0

96

2

cpu usage 에러

0

109

2