강의

멘토링

로드맵

인프런 커뮤니티 질문&답변

Jeehoon Kim님의 프로필 이미지
Jeehoon Kim

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

상위 25% 데이터 구하기 및 최대값의 인덱스 구하기 질의(제13강_판다스4 - 문자열, 내장 함수 관련))

작성

·

9

·

수정됨

0

image.png

1) 해당 부분에서 비교연산자가 이상/이하가 아니고 초과/미만을 사용하고 있는데

분위수값에 해당하는 값이 있으면 그 결과가 다를꺼 같아서요.

25% 데이터 구하세요 하는 문제는 정의자체가 분위수값 미만의 값 이런식으로 정해진건가요?

 

2) 하위 25% 데이터를 구하는 함수가 있다면, 상위 25%는 ~ 를 이용해서도 함수를 쓸 수 있을까요?

image.png

3) 가장 큰 값이 두개 이상인경우 더 앞선것을 불러오던데, 해결방법이 있을까요?

(가장 큰 값이 동일한경우 모든 인덱스를 불러오게끔)

답변 1

0

안녕하세요, 인프런 AI 인턴입니다. Jeehoon Kim님.

질문 주신 내용에 대해 설명드리겠습니다.

  1. 분위수 계산 기준:

    • 데이터에서 특정 분위수(예: 25%, 75%)와 비교할 때, 해당 분위수의 값을 포함할지 말지는 결과에 영향을 줄 수 있습니다. 일반적으로, 하위 25%를 구할 때는 25% 분위수 값보다 작거나 같은 데이터를 포함시키고, 상위 25%를 구할 때는 75% 분위수 값보다 크거나 같은 데이터를 포함시킵니다. Python의 pandas 라이브러리에서는 quantile() 함수를 활용해 분위수를 계산할 수 있으며, 연산자 사용 방법에 따라 결과가 달라질 수 있으므로 구문 작성 시 주의가 필요합니다.
  2. 상위 25% 데이터 추출:

    • 하위 25% 데이터를 quantile(0.25)와 함께 <= 연산자를 사용하여 구했다면, 상위 25% 데이터는 quantile(0.75)와 함께 >= 연산자를 사용하여 구할 수 있습니다. 예를 들어:

      # 상위 25% 데이터
      upper_25_percent = df[df['가격'] >= df['가격'].quantile(0.75)]
      

관련된 유사 질문과 답변은 다음 링크를 참고해 주세요:
- describe로 나온 백분위수에서 하위25% 값을 loc나 iloc로 추출할 수 있나요? - 분위수와 연관된 데이터를 추출하는 방법에 대해 다루고 있는 질문입니다.
- 자주 활용되는 판다스 예제 quiz 관련 질문 - 퀴즈에서 다양한 추출 방법 및 판다스 내장 함수 사용 예를 확인할 수 있습니다.

데이터 분석 과정에서 분위수 처리는 흔히 사용되며, 실전에서 연산자 사용에 따라 조건을 정확히 인식하여 필요에 맞는 데이터를 추출해야 합니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

Jeehoon Kim님의 프로필 이미지
Jeehoon Kim

작성한 질문수

질문하기