inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[개정판] 파이썬 머신러닝 완벽 가이드

회귀 분석 질문입니다.

해결된 질문

317

Heegee Park

작성한 질문수 2

0

좋은 강의 감사합니다. 너무 좋은 수업으로 머신러닝 이해에 큰 도움이 되고 있습니다.

질문은 다음과 같습니다.

1. 만약 범주의 개수가 많은 변수(ex: 국가코드, 생물 종) 같은 경우 원-핫 인코딩을 할 경우 컬럼의 수가 몇 백개가 추가 생성되는데 이 경우 회귀 모델 학습의 시간이 증가합니다. 이 경우 학습 시간의 증가는 어느정도 감수해야하는 건가요?

1-1. 회귀 분석시 위 방법보다 더 효율적인 다른 방법이 있는지 궁금합니다.

1-2. 제가 생각한 방법으로 국가 코드를 연속형변수로 바꾸고 이것을 구간화를 시킨 후 학습시키는 방법인데 올바른 방법인가요?

2. 트리 회귀 분석 시 예측해야할 값이 count 같은 빈도를 나타내고 초기 count의 분포가 자전거 예제처럼 한쪽으로 많이 치우쳐져있는 분포를 나타낸다면 회귀 분석과 같이 log 변환 하고 모델을 학습해야 하나요? 

2-1. 위 방법과 log 변환을 하지않고 트리의 깊이 또는 모델 파라미터를 변경하여 학습하는 방법 중 어떤 방법이 좋을지 궁금합니다.

좋은 강의, 설명 항상 감사합니다.

python 머신러닝 배워볼래요? 통계

답변 2

1

권 철민

안녕하십니까,

1. 어느 정도 감수할지에 대해서는 정해진게 없습니다. 만약 몇백개의 컬럼이 추가된 원-핫 인코딩후 수행 성능이 3~4% 향상되었다면 학습 시간의 증가를 감수를 적극적으로 고민할 것입니다(예를 들어 6시간에서 12시간으로 늘어나도).

그렇지만 수행 성능이 미비할 경우에는 별로 감수하고 싶지 않은 선택입니다. 만일 competition이라면 미비한 성능향상이라도 큰 순위로 이어 질 수 있으니 고민해 볼수는 있습니다.

1-1. 이 부분은 제가 정확히 답변 드리기가 어렵습니다.아마 1-2 의 질문에 대한 의견이신걸로 판단되어서 1-2에 대한 제 의견으로 대신하려 합니다.

1-2. 국가코드를 연속형 변수로 바꾸고 구간화를 시킨다는 의미를 제가 정확히 이해하지 못했습니다만, 보다 넓은 의미의 국가 코드를  부여 한다는 의미로 이해하겠습니다. 예를 들어 아시아권, 유럽권, 북미, 중미, 남미 등...  이 코드는 별도의 추출 코드 이므로 유용하게 사용될 수도 있습니다. 상세한 레벨의 피처에서 업무적으로 좀 더 의미있는 그룹핑 피처를 부여하는 것은 좋은 기법입니다.  원래 국가코드+ 추출 국가코드 또는 추출 국가코드 단독으로 테스트를 해보셔서 성능을 측정해보시는 것도 좋을 것 같습니다(대부분의 경우 원래 국가코드 + 추출 국가코드가 추출 국가코드 단독으로 사용되는 것보다 좋습니다. )

2. 일반적으로 트리 회귀가 skew데이터에 상대적으로 강점은 있지만 그럼에도 불구하고 skew인 경우 트리 회귀에서 log transformation을 적용하는 것이 좋습니다.

2-1.  트리의 하이퍼 파라미터를 튜닝하는 것도 좋은 방법이지만, 머신러닝 모델을 튜닝할때 로그 변환을 포함한 다양한 feature engineering 기법보다 더 나은 성능 향상 기법은 없습니다.  일반적으로 feature engineering을 중점으로 하면서 하이퍼 파라미터 튜닝을 수행합니다.

감사합니다.

0

Heegee Park

친절하고 자세한 답변 감사합니다!

안녕하세요 열심히 수강중인 학생입니다

0

63

2

정수 인덱싱

0

68

2

넘파이 오류

0

85

2

11강 numpy의 axis 축 질문 드립니다.

0

85

2

Kaggle 에서 Santander customer satisfaction data 를 다운로드 되지가 않습니다.

0

79

2

Feature importances 를 보여주는 barplot 이 그래프로 안보여져요.

0

70

2

타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.

0

75

2

타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.

0

64

2

5강 강의 오류가 있어요.

0

84

1

실무에서 LTV 관련 모델 선택 질문입니다!

0

72

2

14강 강의 듣는중에 궁금한게 있어서 질문합니다~

0

69

3

파이썬 다운그레이 후 사이킷런 재설치

0

117

2

좋은 강의 감사합니다.

0

74

2

scoring 함수 음수값

0

67

2

6번 강의에 사이킷런, 파이썬, 아나콘다 각각 버전 일치 안 시키고 진행해도 강의 따라가 지나요?

0

100

2

분류 평가 정확도 예측

0

79

2

안녕하세요. 강의 들으면서 업무에 적용하고 싶은 수강생입니다.

0

99

1

카카오톡 채널 있나요

0

108

1

혹시 강의에서 사용하시는 ppt 받을 수 있는건가요

0

190

2

pca 스케일링 관련하여 질문드립니다.

0

100

2

주피터 대신 구글 코랩

0

172

2

강의에서 사용하는 pdf or ppt자료는 따로 없는 건가요?

0

148

2

실루엣 스코어..

0

86

2

float64 null 값 처리 방법

0

103

2