강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

jkim8109님의 프로필 이미지
jkim8109

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

2회 기출유형(작업형1)

loc사용법 문의드립니다.

해결된 질문

작성

·

21

0

기출6회 작업형 1-1번 풀이중 loc를 아래와 같이 사용했더니 상위 5개만 출력이되는데요

사용법이 어떤점이 잘못된건지 왜 저렇게 출력이되는지 궁금합니다

 

둘의 차이점도 왜 저렇게 되는지 궁금합니다

df.loc[:10, 'views'] = min_value

df.iloc[:10, -1] = min_value

#주어진 데이터셋(members.csv)의 'views'컬럼 상위 10개 데이터를 'views' 컬럼 상위 10번째 값으로 대체한 후
#'age'컬럼이 80 이상인 데이터의 'views' 컬럼 평균값을 구하시오.(반올림하여 소수 둘째 자리까지 계산)

import pandas as pd

df = pd.read_csv('members.csv')
# print(df.head())
df.info()

df = df.sort_values('views', ascending=False)
print(df.head(15))
min_value = df['views'].sort_values(ascending=False).iloc[9]
print(min_value)

df.loc[:10, 'views']

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

loc와 iloc 부분을 조금 더 학습이 필요할 것 같습니다.

loc는 인덱스 명!

iloc는 인덱스 번호로 슬라이싱 가능합니다.

 

loc[:10]

10번째까지가 아니라 인덱스명이 10인 것 까지 입니다.

3번째 10이 있다면 거기까지만입니다.

 

iloc[:10]

인덱스 번호 0부터 9번째까지 값을 슬라이싱해요

순서대로 슬라이싱 합니다.

0

안녕하세요, 인프런 AI 인턴입니다. jkim8109님.

주어진 코드에 대한 궁금증은 DataFrame 객체에서 lociloc의 사용 차이 및 출력 결과에 관한 것입니다. 이를 해결하기 위해 lociloc의 차이와, 왜 두 방식의 출력을 했을 때 다른 결과가 나오는지 살펴보겠습니다.

loc vs iloc

  • loc: 레이블 기반 인덱싱을 사용합니다. 즉, 행이나 열 레이블을 사용하여 데이터를 선택할 수 있습니다. 이 경우 df.loc[:10, 'views']는 행 레이블이 0에서 10인 데이터의 views 컬럼을 의미합니다. 이는 행 레이블 기준이므로, 데이터셋의 인덱스가 0부터 10까지 존재하지 않으면 예기치 않은 결과를 얻을 만합니다.

  • iloc: 정수 기반 인덱싱을 사용합니다. 이는 기본적으로 파이썬 인덱싱처럼 동작하기 때문에 0부터 시작해서 정수 인덱스로 데이터를 선택합니다. df.iloc[:10, -1]은 인덱스 기준으로 0부터 9번째 행의 마지막 열(-1)을 선택합니다.

원인 및 결과 설명

  • loc가 예상한 대로 작동하지 않을까요?

    • loc는 행의 라벨(주로 인덱스) 기반으로 작용하기 때문에, 데이터셋이 정렬되거나 인덱스가 변화하였다면, 원하는 대로 상위 10개를 정확히 찾지 못할 수 있습니다. 기본 정렬이 아닌 상황에서 df.loc[:10, 'views']가 예상한 대로 작동하려면 인덱스가 변하지 않아야 합니다.
  • 정상 작동 설명

    • 만약 여러분의 데이터셋이 원래 인덱스가 아닌 상태이거나 재설정된 상태에서 loc를 사용하도록 의도되었다면, iloc 사용이 더 적절합니다. 이는 iloc이 정렬이나 인덱스와 무관하게 단순히 데이터의 상대적 위치를 기반으로 접근하기 때문입니다.

추가 설명 및 추천

  • 만약 views 컬럼의 상위 10개 값을 min_value로 대체하고자 한다면, iloc를 사용하여 데이터의 위치를 기반으로 접근하는 것이 정확하게 잘 작동했습니다. 이는 데이터프레임을 정렬한 후에 iloc를 사용하면, 정렬된 상태 그대로 상위 10개 값을 찾아 수정할 수 있음을 의미합니다.
  • 인덱스나 레이블이 변경될 수 있는 상황에서는, 특정 위치 기반 작업이 필요하면 iloc을 사용하는 것이 더 안전할 수 있습니다.

참고 링크

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

jkim8109님의 프로필 이미지
jkim8109

작성한 질문수

질문하기