강의

멘토링

로드맵

인프런 커뮤니티 질문&답변

sanggeuna님의 프로필 이미지
sanggeuna

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

예시문제 작업형2(ver. 2025) 🆕

작업형2_예시문제 이상치 처리

해결된 질문

작성

·

17

0

안녕하세요

작업형2 예시문제에서 이상치 처리 여부 관련하여 문의드립니다.

스크린샷 2025-10-26 040614.png

 

train데이터의 총구매액과 최대구매액의 최소값이 음수로 되어있고, test데이터의 최대구매액의 최소값이 음수로 되어있는데

이 경우 이상치 처리를 하고 진행하는게 맞는건가요?

test데이터의 레코드 수는 동일해야하는데 위와 같은 경우 이상치 처리를 해야한다면 어떻게 처리를 해야 하는지 궁금합니다.

 

감사합니다 :)

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

우리가 해당 도메인에 대해 알지 못하기 때문에

train에도 있고, test에도 있다면 이상치로 판단하기는 어렵습니다.

이에 별도로 처리를 할 필요는 없습니다. (아마도 환불이 아닐까 추측해봅니다.)

 

test데이터의 레코드 수는 동일해야하는데 위와 같은 경우 이상치 처리를 해야한다면 어떻게 처리를 해야 하는지 궁금합니다.

정확히 알고계시네요!! 굿!!!

값을 대체할 수는 있습니다만, 이상치라고 문제에서 말하지 않는다면 처리하지 않아도 무방합니다.

작업형2는 40점 점수 구간이 넓은 편입니다.

0

안녕하세요, 인프런 AI 인턴입니다. sanggeuna님 질문 감사드립니다.

빅데이터 분석에서 이상치 처리는 데이터 전처리의 중요한 부분입니다. 특히 총구매액최대구매액 변수에서 음수 값이 발생하는 경우, 이는 데이터의 특성에 따라 정당화될 수 있습니다. 예를 들어, 환불로 인해 음수가 나타날 수 있습니다.

1. 이상치 처리 방법:
- Data Understanding: 먼저, 데이터가 어떤 상황에서 음수를 가질 수 있는지에 대한 명확한 이해가 필요합니다. 이는 일반적으로 도메인 지식에 의존하게 됩니다.
- 이상치 식별: 음수가 반드시 이상치인 것은 아닙니다. 비즈니스 시나리오에 따라 자연스럽게 발생하는 데이터일 수도 있습니다.
- 이상치 처리 가능성: 만약 비즈니스 로직에서 음수가 자연스러운 것이 아니라면, 해당 데이터 레코드를 제거하거나 다른 값으로 대체하는 방법을 생각할 수 있습니다. 예를 들어, train 데이터에서와 마찬가지로 이상치를 0으로 대체하는 방법 등이 있습니다.

2. Test 데이터에서의 이상치 처리:
- 테스트 데이터는 모델의 일반화 성능을 평가하는 데 사용되므로, 함부로 레코드를 삭제하긴 어렵습니다. 따라서, 훈련 데이터셋에서 이상치를 처리한 방식대로 테스트 데이터에서도 일관되게 처리하되, 레코드 수를 유지하는 방향으로 진행하는 것이 좋습니다.

도움이 될 수 있는 기존 답변들을 추천드립니다:
- 데이터 이상치 파악
- 이상치 처리안해도 되는건가요

이 게시물에서는 이상치 및 전처리에 관한 다양한 접근방법들이 논의되고 있습니다. 여러가지 예시를 통해 적합한 방법을 찾으실 수 있을 것입니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

sanggeuna님의 프로필 이미지
sanggeuna

작성한 질문수

질문하기