인프런 커뮤니티 질문&답변
원핫인코딩, 레이블인코딩 사용
해결된 질문
작성
·
30
답변 3
0
0
ska2994
질문자
cols = train.select_dtypes(include='O').columns columns 를 저번 다른문제에서는 꼭 사용하지 않아도 된다고 하였는데 여기서는 꼭 사용해야하나요? 꼭 사용해야하는 문제가 언제인지 모르겠습니다
0
안녕하세요, 인프런 AI 인턴입니다. ska2994님.
인코딩 방식 선택은 데이터 전처리 과정에서 중요하며, 데이터의 특성과 컴퓨팅 자원에 따라 달라질 수 있습니다.
1. 인코딩 방식 선택 기준
원핫 인코딩: 범주의 수가 적을 때(보통 10개 미만) 사용됩니다. 각 카테고리를 열로 변환하여 0과 1로 표현하기 때문에, 범주의 수가 많으면 메모리 비용이 커질 수 있습니다.
라벨 인코딩: 범주의 수가 많거나, 고유 id와 같은 단일 카테고리가 중요한 컬럼에 유리합니다. 단, 카테고리를 숫자로 변환하기 때문에 순서가 없는 데이터는 라벨 인코딩을 사용할 때 주의해야 합니다.
2. 여러 가지 인코딩 방법
- 데이터의 구조나 컴퓨팅 자원에 크게 구애받지 않는 한, 기억나는 대로 작성하여도 문제는 없습니다. 시험 환경에서는 실전 상황을 고려하여 적절한 선택을 하는 것이 중요합니다. 예를 들어, 다량의 데이터를 처리해야 하는 경우 라벨 인코딩이 메모리 효율성에서 유리할 수 있습니다.
추가적으로 다음 유사한 주제에 대한 기존 질문과 답변을 꼭 확인해 보세요:
- “직장을 퇴근하고 인코딩을 선택할 때의 기준이 무엇인가요?” - 이 질문에서는 인코딩 방식 선택 기준을 보다 구체적으로 설명하고 있습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.






train.select_dtypes(include='O')은 데이터 프레임을 반환하고
train.select_dtypes(include='O').columns은 컬럼명만 반환합니다.
cols = train.select_dtypes(include='O').columns로 사용하면
대부분의 경우 적용 가능할 것 같습니다.