• 카테고리

    질문 & 답변
  • 세부 분야

    딥러닝 · 머신러닝

  • 해결 여부

    미해결

선생님, 질문이 있습니다.

21.09.18 16:32 작성 조회수 134

0

선생님 안녕하세요?

즐거운 추석 연휴 되시기 바랍니다.

다름이 아니라 지금 공부하는 가운데 살짝 용어가 헷갈려서 질문을 드리는 바입니다. 

 

머리 속에서 정확하게 구분되지 않고 두루뭉술하게 떠 있는 느낌이라 바로잡고자 질문을 드립니다.

Q1.

먼저 그 회귀 계수라는게 회귀 첫 소개때 다뤘던 예시로 따지면아파트 값 = (방 크기)*X + (방 넓이)*X ...에서
방 크기 / 방 넓이를 말하는 것인가요?
회귀 첫 시간에 계속 실생활의 예시에 비유하셔서 설명을 해주신게 기억이 남아서 이대로 자세하게 설명을 부탁드립니다ㅜ.ㅜ
일단 제가 생각한 바로는 예를 들어 어떤 대학교 정시 모집에서 국어 수학 영어의 반영비율이 각각 40% 20% 40%이렇게 되면 이 회귀계수라는게 반영비율을 말하는 것인가요?

 

Q2. 

[x0,x1]과

poly_ftr = PolynomialFeatures(degree=3)이란게 있으면 

x0과 x1은 feature에 해당하는 것이죠?

그렇다면 [1,x0,x1,x0x1]과 같은 것은 feature들끼리의 관계를 나타낸다고 볼 수 있을까요?

약간 이게 중복조합?과 관련이 있는 것으로 어렴풋이 기억되는데 중복조합과는 어떠한 연관이 있나요?

 

Q3. 

학습 / 데이터 셋을 분리하고 fit - predict까지는 그래도 선생님 강의보면서 코딩 많이 하다보니 익숙해졌는데

fit_transform() 함수를 쓰시는 그 흐름을 놓쳤습니다ㅜ.ㅜ

이 함수의 기능이 fit과 transform을 동시에 수행하는 것인가요?

그리고 transform()함수가 수행하는 일이 정확하게 어떤 것인지 궁금합니다.

 

감사합니다!!

답변 1

답변을 작성해보세요.

0

안녕하십니까,

추석 연휴 잘 보내고 계시는지요?

1. 말씀하신대로 수학, 영어 비율과 비슷합니다. 

아파트값을 예로 들면, 방크기와 방 개수를 각각 feature 1, feature 2라고 하면 아파트값을 결정하는 회귀식은 방크기의 몇 프로 + 방 개수의 몇프로 와 같이 아파트값을 결정할 때 개별 피처가 어느정도 비율로 관여하는지를 의미하는게 회귀 계수 입니다. 가령 아파트값은 0.3 * 방크기 + 0.5*방개수라고 하면 0,3과 0.5가 회귀 계수입니다. 

2. 중복 조합이라기 보다는 feature들을 이용한 N차 다항식(방정식) 결합으로 보시는게 좋을 것 같습니다. 

여러개의 feature들을 1차 방정식 형태로 만들건지, 2차 방정식 형태로, 또는 3차 방정식으로 만들건지에 따라서 차수만큼의 방정식을 풀어서 만든게 poloynomial 입니다.  즉 (x1 + x2)의 제곱, (x1+ x2 + x3)의 3제곱을 풀어낸것입니다.

3. 네 맞습니다. fit_transform()은 fit()과 transform()을 한꺼번에 수행한 것입니다. 

사이킷런이 사실 fit()과 transform/predict()이 조합을 좀 집착(?)하는 경향이 있습니다.  그래서 API 일관성을 맞추기 위해서 fit(), transform(), fit_transform()과 같은 API가 있습니다. transform()은 말 그대로 변환입니다. 주로 문자열을 숫자값으로 또는 원핫 인코딩을 수행 할때와 같은 변환 작업, 또는 원본 데이터를 차원 축소를 수행하는 변환 작업을 수행할 때 transform()을 적용합니다.  

사이킷런은 이러한 변환 작업을 수행할 때도 fit() 을 먼저하고 transform()을 적용하는 메커니즘을 사용하는데 이러한 작업을 한번에 묶어서 fit_transform()을 적용할 수 있습니다. 

감사합니다.