1) Binary 변수의 coefficient 해석 2) L1, L2 가정
463
작성자 없음
0 asked
- Hour_20 변수의 coefficient = -0.3 일 경우, 20시일 때 자전거 대여수가 줄어든다
- Hour_9 변수의 coefficient =0.5 일 경우, 오전 9시에 자전거 대여수가 늘어난다.
- Hour_6 변수의 coefficient = 0.0001 일 경우, 오전 6시는 자전거 대여수에 거의 영향을 주지 않는다.
- Linearity - 선형성
- Independent data points - 독립성
- Normality - 정규성
- Equal variance - 등분산성
- No multi-collinearity
Answer 2
1
안녕하십니까,
답변이 늦어서 죄송합니다.
지나친게 아니고, 질문하신 원-핫 인코딩에 대해서 저도 생각할 시간이 필요해서 답변이 늦었습니다. (이제 나이가 있으니 장시간 운전하면 체력이 회복이 안되서 그런 부분도 있습니다 ^^;;)
1. 먼저 원-핫 인코딩이 아닌 일반 코드값의 회귀 계수는 잘 아시다시피 그런 식으로 이해 될 수가 없습니다.
연속형 값에 대해서는 그렇게 이해할 수 있습니다. 하지만 코드값, 가령 (19, 20, 21, 22, 23, 00)를 그렇게 대응 시킬 수는 없습니다. 코드값의 경우는 '전체 회귀식에서 해당 회귀 계수의 영향도가 이정도 이다'라는 정도로 이해가 되면 될 것 같습니다.
그럼 일반 코드값을 원-핫 인코딩한 회귀 계수는 연속형 값과 같은 해석이 가능한가 인데, 이 역시 그정도 수준까지 확장 해석하기에는 무리가 있습니다. 물론 회귀 계수값이 - 냐, + 냐에 따라서 당연히 타겟값에 영향을 미치겠지만, 그것보다는 원핫 인코딩 원본 컬럼을 기준으로 어느정도의 영향을 가지고 있느냐 정도로 해석되는게 더 맞다고 생각됩니다. 즉 hour_20의 회귀계수가 -0.3 일때 20시의 자전거 대여수가 늘어나고 hour_9일때 회귀 계수가 0.5라면 9시에 대여수가 늘어난다기 보다는 hour라는 피처를 원핫 인코딩 될 때 개별 피처들의 영향도가 이정도 이다 라는 정도로 이해가 되면 될 것 같습니다.
2. 통계학 기반의 회귀와 머신러닝 기반의 회귀의 가장 큰 차이는 가정 검증을 하느냐 그렇지 않느냐 입니다.
머신러닝 기반의 회귀는 일반적으로 통계학 기반의 회귀에서 수행하는 가정 검증을 별도로 하지 않습니다. 방정식 형태로 변수간의 관계를 공식화하는 통계학 기반의 회귀에는 다르게 머신러닝 기반의 회귀는 학습 데이터를 기반으로 모델 알고리즘을 학습 시키는 방식의 차이가 있기 때문입니다.
예를 들어 통계학 기반의 회귀에서는 R2 Score, p밸류 유의성 검증등이 중시되지만, 머신러닝에서는 RMSE와 같이 예측과 실제값 차이가 더 중시됩니다. 머신러닝이 좀 더 결과 우선주의이긴 합니다.
그래서 제 강의를 포함한 어떤 머신러닝 강의에서도 아마 p 밸류 검증값은 단어는 나오지 않을 것입니다.
그런데 이를 수행해야 하느냐, 수행하지 않아야 하느냐는 머신러닝 초창기에는 여러 이견이 있습니만, 지금은 각자의 의견의 존중하는 걸로 정착이 되었습니다
안녕하세요 열심히 수강중인 학생입니다
0
58
2
정수 인덱싱
0
66
2
넘파이 오류
0
83
2
11강 numpy의 axis 축 질문 드립니다.
0
84
2
Kaggle 에서 Santander customer satisfaction data 를 다운로드 되지가 않습니다.
0
76
2
Feature importances 를 보여주는 barplot 이 그래프로 안보여져요.
0
68
2
타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.
0
73
2
타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.
0
62
2
5강 강의 오류가 있어요.
0
81
1
실무에서 LTV 관련 모델 선택 질문입니다!
0
71
2
14강 강의 듣는중에 궁금한게 있어서 질문합니다~
0
67
3
파이썬 다운그레이 후 사이킷런 재설치
0
115
2
좋은 강의 감사합니다.
0
70
2
scoring 함수 음수값
0
66
2
6번 강의에 사이킷런, 파이썬, 아나콘다 각각 버전 일치 안 시키고 진행해도 강의 따라가 지나요?
0
98
2
분류 평가 정확도 예측
0
75
2
안녕하세요. 강의 들으면서 업무에 적용하고 싶은 수강생입니다.
0
96
1
카카오톡 채널 있나요
0
104
1
혹시 강의에서 사용하시는 ppt 받을 수 있는건가요
0
187
2
pca 스케일링 관련하여 질문드립니다.
0
100
2
주피터 대신 구글 코랩
0
169
2
강의에서 사용하는 pdf or ppt자료는 따로 없는 건가요?
0
145
2
실루엣 스코어..
0
82
2
float64 null 값 처리 방법
0
99
2

