inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

모두를 위한 딥러닝 - 기본적인 머신러닝과 딥러닝 강좌

lab 04-1: multi-variable linear regression을 TensorFlow에서 구현하기

parameter의 수와 prediction power의 상관 관계

270

Jason Yu

작성한 질문수 1

0

강의 시작 부분에서 $$X_1, X_2, ... X_n$$ 처럼 parameter의 수가 많아질수록 prediction power가 강해진다고 설명해주셨는데요, 이 부분의 경우 X값과 Y값이 어느정도 상관 관계가 있을 경우에만 해당 되지 않을까요? 실제로 raw data를 다룰 때에도 큰 상관관계가 없는 parameters들은 EDA 과정에서 제거하거나 별도의 data transformation을 한다고 알고 있었습니다.

설명 해주신 부분은 위의 모든 과정이 모두 끝난 가정 하에 성립이 되는건가요 아니면, 일반적으로 위의 과정 없이도 prediction power가 강해지는건가요?

답변 부탁드립니다! 감사합니다 :)

딥러닝 강화학습

답변 1

0

아쿠아라이드

교수님의 강의가 선형회귀자체의 이론보다는 머신러닝을 설명하기 위한 과정으로서 선형회귀를 설명하다보니 깊게는 들어가지 않고 넘어가신 듯 해 보입니다.

 X값과 Y값이 어느정도 상관 관계가 있을 경우에만 해당 되지 않을까요?

-->회귀분석의 이론 상  질문 하신 내용이 맞구요, 종속변수와 상관관계가 높은 독립변수만을 X 변수로 선정하되, 사실 최소의 독립변수로 최대의 설명률을 가질 수 있는 회귀모델을 일반적으로 좋은 회귀 모델로 봅니다. 결정계수보다 adjusted 결정계수를 더 의미 있게 보는 이유가 여기에 있습니다.

또한 종속변수와 독립변수간에는 상관관계가 높아야 하지만, 독립변수 끼리는 서로 상관관계가 작아야 한다는 부분도 회귀 모델 만들 때 아주 중요한 point 입니다.

만약 독립변수간에 상관관계가 높은 경우에는 다중공선성의 문제가 발생하여 회귀모델의 신뢰도가 아주 떨어질 가능성이 높아지기 때문에 (학습 데이터로 재대입  확인 시 결정계수가 높게 나오는 경우에도, 검정데이터로 확인 시 엉망인 결과가 나오는 경우가 있음) 이때는 독립변수들에 대한 주성분분석을 통한 다중공선성을 없애는 시도를 하거나, 중요도가 낮은 독립변수를 제거하는 시도를 해야 합니다.

본 예제에서는 기본적으로 주어진 모든 독립변수가 종속변수와 강한 상관관계가 있고, 각 독립변수끼리 모두 독립적이라는 가정을 깔아 놓으신 상태에서 설명을 하신 것으로 이해가 됩니다.

모든 독립변수 간에 상관관계가 0에 가까우면서 동시에 모든 독립변수가 종속변수와는 상관관계가 높은경우라면, 분명히 독립변수를 많이 사용하면 사용할 수록 예측력이 우수한 회귀 모델이 만들어진다고 말할 수 있기 때문입니다.

tf.placeholder 에러

0

528

1

파이썬 3.10 버전 tensor flow 설치 문의

0

510

0

안녕하세요

0

286

0

딥러닝 vs 머신러닝

0

379

0

출력이미지 사이즈 계산법이 유다시티 강좌와 달라요

0

406

2

train 의미

0

369

0

텐서플로우

0

583

2

텐서플로1.0 -> 2.0설치로 인한 1.0 버전 에러

0

458

1

Tensorflow 설치 질문있습니다..

2

320

1

ModuleNotFoundError: No module named 'tensorflow.examples.tutorials' Error 해결법

0

2833

0

강의 잘 들었습니다!

0

301

0

파이썬을 잘 다뤄야 강의를 들을 수 있나요?

0

302

0

plot range

0

275

1

안녕하세요. 수업 너무 재미있게 보고 있던도중 오류가 생겼습니다 ㅠㅠ

0

293

2

validation set을 굳이 만들어야 되나요?

0

425

0

Epoch을 여러번 돌리면..

0

493

1

numpy로 loadtxt 할 때 이런 오류가 뜨는데 도대체 뭔가요 ㅠㅠ?

0

791

0

lab04-1 7분 30초 부분에서 hypothesis와 bias shape에 관한 질문입니다.

0

332

1

tf.train.batch 속도 질문

0

229

0

lab 04-1 multi-variable linear regression 의 cost 값 질문

0

183

1

어렵군요.

0

260

0

Minmaxscaler

0

218

0

cost 값이 변화가 없다는 것은 무엇을 의미하는 건가요?

0

232

0

cost구하는 공식 reduce_sum으로 되어있는거 오타인가요?

0

260

1