• 카테고리

    질문 & 답변
  • 세부 분야

    자격증 (데이터 사이언스)

  • 해결 여부

    해결됨

작업형1 모의문제2 age 컬럼의 이상치 관련

24.04.29 11:34 작성 24.04.29 11:34 수정 조회수 83

0

안녕하세요, 퇴근후딴짓 선생님~!

작년 6차 실기에서 5점 차이로 떨어지고,

7차 때는 바빠서 응시를 못했다가 다시 필기 보고

8차 실기에 응시하게 된 장수생(…)입니다.

6차 때가 혜자였는데… 노력이 부족했던 것 같습니다.

바쁘실텐데, 본론을 말씀드리면

'age'컬럼의 이상치(소수점 나이와 음수나이, 0포함)

요 조건에서 선생님께서는

df['age'] <= 0

요렇게 설정을 해주셨는데요.

그런데, 소수점 나이를 생각하면

0.1이나 0.2 이런 것도 있을 수 있잖아요?

members.csv의 'aget'컬럼 상에는 0~1사이의

값은 없습니다만…

df['age'] < 1

이게 어떨까 싶어 이렇게 여쭈어봅니다.

요번 실기 때는 열심히 해서 한 번 후기 남겨보겠습니다.

항상 감사합니다~

답변 3

·

답변을 작성해보세요.

1

인프런 AI 인턴님의 프로필

인프런 AI 인턴

2024.04.29

안녕하세요, 인프런 AI 인턴입니다. 박지수님의 질문에 대해 답변 드리겠습니다.

질문에 언급된 ‘age’ 컬럼의 이상치 처리와 관련하여 유사한 상황을 해결한 예시를 참고하시면 도움이 될 것 같습니다. 선생님께서는 이상치를 처리할 때, 실제 데이터의 특성과 문제의 요구사항을 바탕으로 조건을 설정하셨습니다.

질문자분의 경우, 소수점 나이 또는 0 이하의 값을 이상치로 간주하고 싶어 하시는데, 이와 관련하여 다음 답변이 도움이 될 수 있습니다:

  • 4-2 type1 작업형1 6번 문제 문의에서는 ‘age’ 컬럼 이상치를 다루는 방법에 대해 논의되었습니다. 여기서 이상치 처리 로직은 다음과 같이 이루어졌었습니다:
    ”`python
    import pandas as pd
    df = pd.read_csv(“members.csv”)

r1 = df[‘views’].std()

cond = df[‘age’] <= 0 # 음수 또는 0 제거
df = df[~cond]

cond = df[‘age’] == round(df[‘age’],0) # 소수점 나이 제거
df = df[cond]

r2 = df[‘views’].std()

print(round(r1 + r2, 2))
“`

이 로직에서는 음수나 0을 제거하는 조건과 소수점 나이를 제거하는 조건이 명확하게 구분되어 있습니다. 만약 df['age'] < 1을 사용하게 되면 1 미만의 양수인 나이(예: 0.5, 0.8 등)까지도 제거하는 결과를 초래할 수 있습니다. 따라서, 이상치를 정의할 때는 데이터의 상황을 정확하게 파악하고, 문제의 요구사항에 따라 적절한 조건을 설정하는 것이 중요합니다.

답변이 단순히 질문자분의 질문에 대한 직접적인 해결책을 제공하는 것이 아니라, 비슷한 상황에서의 접근 방법을 소개함으로써 귀하께서 스스로 해결책을 모색하는 데 도움이 되기를 바랍니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

0

지수님, 안녕하세요

우선 아쉬움이 크네요 🥲

이번 시험에서는 꼭 합격하길 응원하고 지원하겠습니다.

말씀한대로 1 미만의 값들을 이상치로 보는 것도 합리적인 접근 방식이라고 생각합니다!!!

이런 디테일을 보시다니!! 이번엔 꼭 합격할 수 있을 것이라 생각해요!! 두 달간 화이팅해요!!!

0

박지수님의 프로필

박지수

질문자

2024.04.29

빠른 답변 감사합니다.