inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[개정판] 파이썬 머신러닝 완벽 가이드

사용자 패턴을 학습해서 목적지 예측을 하고 싶은데 데이터 전처리를 어떻게 하는것이 맞을까요?

해결된 질문

416

눈물이많아요

작성한 질문수 7

0

선생님, 사용자 패턴을 학습해서 목적지 예측을 하는 모델을 구현하고 싶습니다.

현재 아래와 같은 Sample Dataset을 만들었는데요 :)

데이터 전처리를 어떻게 해야할지 잘 모르겠습니다. 일단 day_of_week 피처는 원핫 인코딩으로 처리하려고 하고

출발 시간 피처(hour,min)은 log 값으로 scaling 하려고 합니다.

여기까지는 올바른 방향이 맞을까요?

 

또 시작 좌표(start_lat, start_lon)와 목적지 좌표(end_lat, end_lon) 를 어떻게 처리해야할까요?

일단 제가 생각한 것은 각각 좌표 지점을 군집화하여 원핫 인코딩으로 바꾸는 것을 생각했습니다.

아직 군집화 수업을 듣기 전이라 이것도 맞는 방향인지 모르겠습니다.

선생님께서 생각하는 방향과 제가 생각한 방향이 일치할지 모르겠습니다.

또 제가 잘못 생각하고 있는 부분이 있으면 말씀부탁드려요 :)

데이터전처리 원핫인코딩 통계 머신러닝 배워볼래요? 군집화 python

답변 1

1

권 철민

안녕하십니까, 

피처 엔지니어링은 정해진 답이 없습니다.  모델을 돌려 보고 성능을 파악하면서 적용해나가는 것입니다. 

먼저 선형 회귀를 적용하시겠다면, 피처들을 스케일링 적용하는 것이 좋습니다. 

출발 시간 피처의 로그 변환이 옳은지 그렇지 않은지는 알 수 없습니다. 모델에 적용해 봐야 됩니다. 

먼저 스케일링 먼저 변환해 보시고 아래와 같은 사항을 적용해 보시지요. 

시간/분 은 시간대(오전 출근 시간, 점심시간, 오후시간, 퇴근 시간, 야간, 심야등)

요일은 주간, 휴일 구분

좌표의 경우 좌표 이동(end - start), 전체 출발 평균 좌표 - 출발좌표, 전체 종료 평균 좌표 - 종료 좌표, 최대 이동 좌표 대비 이동좌표등의 속성

주말 시간대 평균 이동 좌표 거리, 주중 시간대 평균 이동 좌표 거리, 오전 출근시간대 평균 이동 좌표 거리등과 현재 이동 거리의 비율

 

 

모델 서빙과 관련된 강좌가 출시되는지 질문드립니다.

0

28

2

안녕하세요 열심히 수강중인 학생입니다

0

70

2

정수 인덱싱

0

72

2

넘파이 오류

0

89

2

11강 numpy의 axis 축 질문 드립니다.

0

89

2

Kaggle 에서 Santander customer satisfaction data 를 다운로드 되지가 않습니다.

0

81

2

Feature importances 를 보여주는 barplot 이 그래프로 안보여져요.

0

71

2

타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.

0

77

2

타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.

0

65

2

5강 강의 오류가 있어요.

0

86

1

실무에서 LTV 관련 모델 선택 질문입니다!

0

74

2

14강 강의 듣는중에 궁금한게 있어서 질문합니다~

0

70

3

파이썬 다운그레이 후 사이킷런 재설치

0

122

2

좋은 강의 감사합니다.

0

75

2

scoring 함수 음수값

0

68

2

6번 강의에 사이킷런, 파이썬, 아나콘다 각각 버전 일치 안 시키고 진행해도 강의 따라가 지나요?

0

104

2

분류 평가 정확도 예측

0

81

2

안녕하세요. 강의 들으면서 업무에 적용하고 싶은 수강생입니다.

0

100

1

카카오톡 채널 있나요

0

111

1

혹시 강의에서 사용하시는 ppt 받을 수 있는건가요

0

191

2

pca 스케일링 관련하여 질문드립니다.

0

102

2

주피터 대신 구글 코랩

0

175

2

강의에서 사용하는 pdf or ppt자료는 따로 없는 건가요?

0

149

2

실루엣 스코어..

0

87

2