머신러닝 적용을 위한 Feature Engineering 강의 질문입니다
머신러닝 적용을 위한 Feature Engineering 강의 8:20 부분에서 질문입니다!!
EDA를 통해 humidity와 대여량의 관계를 그래프로 파악했을 때, humidity가 70 이상일 때 대여량이 크게 감소하는 것을 파악했고, 이를 기반으로 humid 컬럼을 만들었습니다.
이때, humid 컬럼의 값이 1 이면 humidity가 70 이상으로, 습한 날씨이며, 결국 자전거를 타기에 '좋은 날씨는 아니다 '라는 의미로 이해를 하였는데요
위에서 fit 컬럼을 만들 때에는 값이 1일 때, 자전거를 타기 '좋은 날씨이다' 라고 표현을 하였던 것과 반대라는 것이 눈에 띄었습니다.
이렇게 feature engineering을 진행할 때, 척도의 의미가 컬럼별로 달라도 관계가 없는 것인지 궁금합니다!!
보통 설문지 문항에서 척도의 의미가 다른 경우, 역코딩을 했던 기억이 있는데, 머신러닝의 경우에는 다른 것인지 여쭙고 싶습니다..!
답변 1
0
안녕하세요. 답변 도우미입니다.
척도의 의미 에 대해서는 다음과 같은 사항을 참고할 수 있을 것 같은데요.
일관성: Feature engineering을 할 때 중요한 것은 일관성입니다. 즉, 같은 feature 내에서 1이 항상 '좋다'나 '나쁘다'와 같은 특정 의미를 갖도록 하는 것이 좋습니다. 그렇게 함으로써 모델이 학습하는 데 혼란이 생기지 않습니다.
역코딩 (Reverse Coding): 설문조사에서의 역코딩은 응답자의 답변의 방향성을 통일시키기 위한 것입니다. 머신러닝에서도 특정 feature의 척도나 방향성을 바꾸는 것이 모델의 성능을 향상시키거나 해석을 용이하게 할 수 있습니다. 그러나 이러한 변환은 항상 필요한 것은 아닙니다.
모델 해석성: 만약 모델의 결과를 해석하거나 시각화하는 것이 중요하다면, feature의 척도나 방향성을 통일하는 것이 유용할 수 있습니다. 이렇게 함으로써 모델의 해석이 더 직관적이고 쉬워질 수 있습니다.
머신러닝 모델의 관점: 대부분의 머신러닝 모델은 feature의 절대적인 값보다는 feature 간의 상대적인 관계나 패턴에 민감하게 반응합니다. 따라서 척도나 방향성이 달라도 모델이 잘 학습할 수 있습니다. 그러나 일부 모델, 예를 들어 선형 회귀나 로지스틱 회귀에서는 feature의 스케일이 모델의 계수 해석에 영향을 줄 수 있으므로 주의가 필요합니다.
결론적으로는 feature engineering을 할 때 척도의 의미가 컬럼별로 달라도 모델의 성능 자체에 큰 영향을 주지는 않습니다. 그러나 모델의 해석이나 시각화, 그리고 다른 feature와의 관계를 파악하는 데 있어서는 일관된 척도나 방향성을 갖는 것이 좋습니다.
감사합니다.
자료 공유 질문
0
57
1
Ascii 에러 관련하여 질문드립니다
0
81
1
고차원 데이터 질문
0
52
0
test / train 데이터 나누기
0
97
1
세션4 범주형 데이터 분석 패턴 강의 질문
0
199
2
pandas 2.2.2, xgboost 2.1.3 에러 해결 방법
0
215
1
sklearn v1.5.1
0
168
1
머신러닝 적용을 위한 Feature Engineering 작업1
0
178
2
missingno 대체
0
167
1
scikit-learn 1.5.1 matplotlib 3.9.2
0
129
1
환불문의
0
263
1
자료공유를 받으려고 하는데 에러가 납니다.
0
157
1
iplot에서 항상 에러나는 분 안계신가용?
0
221
1
사망 여부 영향 가능성
0
142
1
섹션4_인코딩 이해하고 적용해보기(원핫인코딩) 질문
0
189
1
df.corr(numeric_only=True).iplot() 에러 해결 어떻게 해야되나요?
0
277
1
주피터 노트북 201_REGRESSION_BIKE_SHARING_MODELS 중 질문
0
244
1
3강 강의 자료 코드 관련 질문입니다
1
336
1
맥 사용자 mkdir .kaggle 했는데 파일이 안만들어집니다.
0
414
1
Bayesian Optimization에서 optimizer.maximize()함수를 더이상 지원 안한다고 합니다.
0
875
2
Bayesian Optimization LightGBM 적용
0
457
2
하이퍼 파라미터 튜닝 기법 적용하기 실행값이 미묘하게 달라요.
1
341
1
중복된 코드 수정 요청 - 자전거 공유 문제 이해와 EDA3
0
214
1
강의 중 에러 질문
0
739
1





