inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[개정판] 파이썬 머신러닝 완벽 가이드

규제 선형회귀(Regularized Linear Regression)의 개요

이산적인(discrete) 데이터에 관한 질문

304

Yoonseok Choi

작성한 질문수 25

0

안녕하세요. 혼자 선형회귀를 돌려보려다가 제 데이터셋에 이산적인 데이터가 너무 많은 걸 깨달았습니다.

한 피쳐에 값이 4개 정도의 숫자로 이루어져 있는데, 이러한 피쳐가 굉장히 많이 있네요.

처음엔 그냥 continuous 데이터와 마찬가지로 표준화를 하고 학습을 시켰습니다. 그러고 생각을 해보니 원핫인코딩을 해야할 거 같기도 하고.. 원핫 인코딩을 한다면 10개정도의 numerical 데이터가 있는 피쳐도 똑같이 원핫 인코딩을 해야하는건지...

이 데이터를 어떻게 처리하는게 좋을까요?

이렇게 이산적인 데이터 피쳐가 많다면 선형회귀가 힘들까요?? 원래는 continuous해야하는 데이터지만 데이터 수집에 한계를 느껴서 같은 값을 입력한 row가 많습니다

python 머신러닝 배워볼래요? 통계

답변 1

0

권 철민

안녕하십니까,

선형 회귀에 이산 데이터를 반드시 원핫 인코딩 하실 필요 없습니다. 다만 영향이 있을 수 있기에 원핫 인코딩을 권장 드리는 것입니다.  먼저 레이블 인코딩 한 후 학습/예측 수행해 보시고, 다음번에는 이산 데이터 만 골라서 pd.get_dummies()를 적용해 원-핫 인코딩 해보십시요.  그런 다음 좋은 걸 선택하면 됩니다. 

그리고 numerical 데이터를 별도 인코딩 해줄 필요는 없습니다. 단 이 numerical 데이터가 이산값과 비슷한 코드성 값이라면 아예 아무 처리를 해주지 않거나(이미 레이블 인코딩 되어 있는 것과 동일하기 때문에) 아니면 위에서와 같이 실험적으로 원-핫 인코딩 해주십시요.

원-핫 인코딩의 문제는 피처갯수가 너무 많이 늘어날 수 있다는 것인데, 이 또한 테스트 해서 결과가 좋으면 수용할 수 있습니다.

크게 고민하지 마시고 먼저 어떤것이든 구현해 보시고 비교/선택해보시는게 좋을것 같습니다.

감사합니다.

안녕하세요 열심히 수강중인 학생입니다

0

61

2

정수 인덱싱

0

68

2

넘파이 오류

0

85

2

11강 numpy의 axis 축 질문 드립니다.

0

85

2

Kaggle 에서 Santander customer satisfaction data 를 다운로드 되지가 않습니다.

0

79

2

Feature importances 를 보여주는 barplot 이 그래프로 안보여져요.

0

70

2

타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.

0

75

2

타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.

0

64

2

5강 강의 오류가 있어요.

0

84

1

실무에서 LTV 관련 모델 선택 질문입니다!

0

72

2

14강 강의 듣는중에 궁금한게 있어서 질문합니다~

0

69

3

파이썬 다운그레이 후 사이킷런 재설치

0

117

2

좋은 강의 감사합니다.

0

72

2

scoring 함수 음수값

0

67

2

6번 강의에 사이킷런, 파이썬, 아나콘다 각각 버전 일치 안 시키고 진행해도 강의 따라가 지나요?

0

100

2

분류 평가 정확도 예측

0

76

2

안녕하세요. 강의 들으면서 업무에 적용하고 싶은 수강생입니다.

0

98

1

카카오톡 채널 있나요

0

107

1

혹시 강의에서 사용하시는 ppt 받을 수 있는건가요

0

189

2

pca 스케일링 관련하여 질문드립니다.

0

100

2

주피터 대신 구글 코랩

0

172

2

강의에서 사용하는 pdf or ppt자료는 따로 없는 건가요?

0

147

2

실루엣 스코어..

0

85

2

float64 null 값 처리 방법

0

102

2