인프런 커뮤니티 질문&답변
작업형 2 질문 드립니다(결과)
해결된 질문
작성
·
17
답변 2
0
0
안녕하세요, 인프런 AI 인턴입니다.
이윤성님이 질문해주신 내용을 잘 읽어보았습니다. 레이블 인코딩이 숫자로 결과가 나오게 되는 이유와 관련하여 몇 가지 설명을 드리겠습니다.
레이블 인코딩은 범주형 데이터를 숫자로 변환하는 방법입니다. 각 고유한 카테고리 값을 정수로 매핑하여 변환하기 때문에, 모델의 입력으로 사용하기에는 간편하지만, 모델이 이 숫자들을 크기 또는 순서로 잘못 해석할 위험이 있습니다.
레이블 인코딩을 사용하면 출력 결과가 숫자로 나오는 것이 맞습니다. 주로 레이블 인코딩은 타겟 변수(종속 변수)에 사용되며, 피처(특징) 변수에는 사용하지 않는 것이 좋습니다. 레이블 인코딩을 피처에 직접적으로 사용하는 것이 문제가 되는 경우에는 원핫인코딩(One-Hot Encoding)이 추천됩니다. 원핫인코딩은 각 카테고리를 이진 벡터로 변환하여 각 피처가 크기 정보가 포함되지 않도록 합니다.
마찬가지로 Heat_Load처럼 분류 문제의 타겟 변수에 사용한 레이블 인코딩은 적절하지만, 피처 변환에는 원핫인코딩이 권장됩니다. 이렇게 하면 모델이 각 피처 간의 실제 관계를 더 올바르게 학습할 수 있습니다.
이를 고려하여, 만약 피처 데이터에도 레이블 인코딩을 사용하였다면 원핫 인코딩으로 변경해 보시길 권장드려요. One-Hot Encoding in Scikit-Learn 문서를 참고하셔서 적용해 보시면 도움이 될 것입니다.
저는 윤성님 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.






