머신러닝 적용을 위한 Feature Engineering 강의 질문입니다

Question

머신러닝 적용을 위한 Feature Engineering 강의 8:20 부분에서 질문입니다!!

EDA를 통해 humidity와 대여량의 관계를 그래프로 파악했을 때, humidity가 70 이상일 때 대여량이 크게 감소하는 것을 파악했고, 이를 기반으로 humid 컬럼을 만들었습니다.

이때, humid 컬럼의 값이 1 이면 humidity가 70 이상으로, 습한 날씨이며, 결국 자전거를 타기에 '좋은 날씨는 아니다 '라는 의미로 이해를 하였는데요

위에서 fit 컬럼을 만들 때에는 값이 1일 때, 자전거를 타기 '좋은 날씨이다' 라고 표현을 하였던 것과 반대라는 것이 눈에 띄었습니다.

이렇게 feature engineering을 진행할 때, 척도의 의미가 컬럼별로 달라도 관계가 없는 것인지 궁금합니다!!

보통 설문지 문항에서 척도의 의미가 다른 경우, 역코딩을 했던 기억이 있는데, 머신러닝의 경우에는 다른 것인지 여쭙고 싶습니다..!

Answer

안녕하세요. 답변 도우미입니다.척도의 의미 에 대해서는 다음과 같은 사항을 참고할 수 있을 것 같은데요.일관성: Feature engineering을 할 때 중요한 것은 일관성입니다. 즉, 같은 feature 내에서 1이 항상 '좋다'나 '나쁘다'와 같은 특정 의미를 갖도록 하는 것이 좋습니다. 그렇게 함으로써 모델이 학습하는 데 혼란이 생기지 않습니다.역코딩 (Reverse Coding): 설문조사에서의 역코딩은 응답자의 답변의 방향성을 통일시키기 위한 것입니다. 머신러닝에서도 특정 feature의 척도나 방향성을 바꾸는 것이 모델의 성능을 향상시키거나 해석을 용이하게 할 수 있습니다. 그러나 이러한 변환은 항상 필요한 것은 아닙니다.모델 해석성: 만약 모델의 결과를 해석하거나 시각화하는 것이 중요하다면, feature의 척도나 방향성을 통일하는 것이 유용할 수 있습니다. 이렇게 함으로써 모델의 해석이 더 직관적이고 쉬워질 수 있습니다.머신러닝 모델의 관점: 대부분의 머신러닝 모델은 feature의 절대적인 값보다는 feature 간의 상대적인 관계나 패턴에 민감하게 반응합니다. 따라서 척도나 방향성이 달라도 모델이 잘 학습할 수 있습니다. 그러나 일부 모델, 예를 들어 선형 회귀나 로지스틱 회귀에서는 feature의 스케일이 모델의 계수 해석에 영향을 줄 수 있으므로 주의가 필요합니다.결론적으로는 feature engineering을 할 때 척도의 의미가 컬럼별로 달라도 모델의 성능 자체에 큰 영향을 주지는 않습니다. 그러나 모델의 해석이나 시각화, 그리고 다른 feature와의 관계를 파악하는 데 있어서는 일관된 척도나 방향성을 갖는 것이 좋습니다.감사합니다.

vpdtlrdl

머신러닝 적용을 위한 Feature Engineering 강의 질문입니다

이 글과 비슷한 Q&A

안녕하세요 오늘 수강 시작했어요 강의자료부탁드려요

데몬스레드 설명

궁금한 부분이 있습니다.

원핫 인코딩을 실행하면 0과 1로 변환되지 않습니다.