• 카테고리

    질문 & 답변
  • 세부 분야

    딥러닝 · 머신러닝

  • 해결 여부

    해결됨

사용자 패턴을 학습해서 목적지 예측을 하고 싶은데 데이터 전처리를 어떻게 하는것이 맞을까요?

22.03.15 10:11 작성 조회수 227

0

선생님, 사용자 패턴을 학습해서 목적지 예측을 하는 모델을 구현하고 싶습니다.

현재 아래와 같은 Sample Dataset을 만들었는데요 :)

데이터 전처리를 어떻게 해야할지 잘 모르겠습니다. 일단 day_of_week 피처는 원핫 인코딩으로 처리하려고 하고

출발 시간 피처(hour,min)은 log 값으로 scaling 하려고 합니다.

여기까지는 올바른 방향이 맞을까요?

 

또 시작 좌표(start_lat, start_lon)와 목적지 좌표(end_lat, end_lon) 를 어떻게 처리해야할까요?

일단 제가 생각한 것은 각각 좌표 지점을 군집화하여 원핫 인코딩으로 바꾸는 것을 생각했습니다.

아직 군집화 수업을 듣기 전이라 이것도 맞는 방향인지 모르겠습니다.

선생님께서 생각하는 방향과 제가 생각한 방향이 일치할지 모르겠습니다.

또 제가 잘못 생각하고 있는 부분이 있으면 말씀부탁드려요 :)

답변 1

답변을 작성해보세요.

1

안녕하십니까, 

피처 엔지니어링은 정해진 답이 없습니다.  모델을 돌려 보고 성능을 파악하면서 적용해나가는 것입니다. 

먼저 선형 회귀를 적용하시겠다면, 피처들을 스케일링 적용하는 것이 좋습니다. 

출발 시간 피처의 로그 변환이 옳은지 그렇지 않은지는 알 수 없습니다. 모델에 적용해 봐야 됩니다. 

먼저 스케일링 먼저 변환해 보시고 아래와 같은 사항을 적용해 보시지요. 

시간/분 은 시간대(오전 출근 시간, 점심시간, 오후시간, 퇴근 시간, 야간, 심야등)

요일은 주간, 휴일 구분

좌표의 경우 좌표 이동(end - start), 전체 출발 평균 좌표 - 출발좌표, 전체 종료 평균 좌표 - 종료 좌표, 최대 이동 좌표 대비 이동좌표등의 속성

주말 시간대 평균 이동 좌표 거리, 주중 시간대 평균 이동 좌표 거리, 오전 출근시간대 평균 이동 좌표 거리등과 현재 이동 거리의 비율