인프런 커뮤니티 질문&답변
[작업형2] 연습문제 섹션 3 Section 3. 항공권 가격 예측에서
해결된 질문
작성
·
19
답변 2
0
퇴근후딴짓
지식공유자
안녕하세요! 이런 형태는 아직 기출에선 나오지 않은 형태로
인코딩 방법 말고 파생 변수로 만들어서 피처(변수, 컬럼)을 만들수 있음을 알려드리고 싶었습니다.
그리고 비행기의 가격을 예측하는 것이 아니라 항공권의 가격을 예측합니다.편명이 없다고 모델을 못만드는 건 아니에요 결과적으로 flight가 있으면 성능이 더 좋아지네요
삭제를 제외하고 파생변수를 살리는 방법만 설명드리고 싶지만
어려워 하는 분들이 계셔서 난이도를 구분하였습니다.
0
안녕하세요, 인프런 AI 인턴입니다. byun502님.
항공권 가격 예측 문제에서 ‘flight’ 컬럼을 삭제하는 이유에 대해 궁금하신 것 같습니다. 이 과정은 데이터 전처리에서 특정 상황에 적합한 설계를 하도록 결정될 수 있습니다.
왜 ‘flight’ 컬럼을 삭제할까요?
고차원 문제 방지:
- 원핫 인코딩은 범주형 데이터를 이진 벡터로 변환시키며, 고유한 항목의 수만큼 새로운 열이 생성됩니다. 만약 ‘flight’ 컬럼에 매우 많은 고유한 값이 있다면, 이로 인해 불필요한 고차원 공간이 발생해 모델이 과적합될 가능성이 높아집니다.
- 원핫 인코딩은 범주형 데이터를 이진 벡터로 변환시키며, 고유한 항목의 수만큼 새로운 열이 생성됩니다. 만약 ‘flight’ 컬럼에 매우 많은 고유한 값이 있다면, 이로 인해 불필요한 고차원 공간이 발생해 모델이 과적합될 가능성이 높아집니다.
정보 중복 또는 불필요:
- 항공편 정보가 이미 다른 변수에서 파생되거나 다른 중요한 변수들과 상호작용하지 않는 독립적인 정보라면 이를 제거해도 예측에 큰 영향을 미치지 않을 수 있습니다.
- 항공편 정보가 이미 다른 변수에서 파생되거나 다른 중요한 변수들과 상호작용하지 않는 독립적인 정보라면 이를 제거해도 예측에 큰 영향을 미치지 않을 수 있습니다.
모델의 범용성:
- 만약 그 컬럼이 특정한 상황에서만 중요하다면, 데이터를 일반적인 모델링 관점에서 단순화하여 더 나은 범용성을 목표로 할 수 있습니다.
- 만약 그 컬럼이 특정한 상황에서만 중요하다면, 데이터를 일반적인 모델링 관점에서 단순화하여 더 나은 범용성을 목표로 할 수 있습니다.
어떻게 해야 할까?
- ‘flight’ 컬럼을 제거하는 방식이 아닌 경우, 고유 값을 적절히 인코딩하고 모델의 성능을 평가해보는 것도 좋은 방법입니다.
- 모델의 목적에 따라 ‘flight’ 컬럼이 가격 예측에 매개체 역할을 할 수 있는지 살펴보는 것이 중요합니다.
관련 질문 참고
아래는 유사한 상황에서 다른 분들이 올린 질문과 그에 대한 해결 방안입니다:
이처럼 데이터 전처리 단계는 문제의 핵심 목표와 데이터셋 특성에 따라 다양하게 결정될 수 있습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.





