• 카테고리

    질문 & 답변
  • 세부 분야

    데이터 분석

  • 해결 여부

    미해결

unique값의 차이

21.01.24 09:22 작성 조회수 202

1

둘의 unique 값이 차이나는 이유가 궁금합니다!

답변 9

·

답변을 작성해보세요.

1

thlee0607님의 프로필

thlee0607

질문자

2021.01.25

감사합니다 :)

1

thlee0607님의 프로필

thlee0607

질문자

2021.01.25

답변 감사합니다. line을 쓰고 싶어서 relplot을 썼더니 이쁘게 나와서 relplot으로 해결했습니다!

추가 질문 또 있습니다ㅜㅜ

1. relplot이나 멀티인덱스로 만든 plot에서 간격이 알아서 띄엄띄엄 나오는데, xticks 로 간격 설정하는 방법 말고도 다른 방법도 있나요?

2. 분석하고 있는 데이터를 그래프로 나타내고 있습니다.

데이터프레임을 확인해보면 G08(가장 밑 라인)의 데이터가 쭉 존재하는데, 그래프에선 왜 끊겨서 나오는 걸까요?

3. 혹시 멘토링 신청하면, 현재 분석하고 있는 데이터의 코드 수정이나 분석 방향도 잡아주시나요..?

1

thlee0607님의 프로필

thlee0607

질문자

2021.01.24

위와 다른 내용이지만 추가 질문 있습니다!

plot에서는 rot으로 x축 값의 모양을 조절할 수 있는데,

seaborn에서는 에러가 떠서,, 어떤 방식으로 해야되나요??

1

안녕하세요. 

unique 값을 모두 출력해 보면 아래와 같은 값을 볼 수 있는데요.

중간에 nan 값이 섞여 있어요.

nan == not a number 의 약자로 결측치를 의미해요.

pandas의 nunique()로 유일값을 셀때는 이 값은 결측치이기 때문에 제외하고 카운트 합니다.

하지만 len으로 카운트할때는 nan 이라는 결측치도 값의 일부로 보고 카운트했기 때문에 1개가 더 많이 나오게 됩니다.

  •  unique와 len => 결측치도 카운트에 포함
  • nunique() => 결측치는 카운트에 포함되지 않음

0

감사합니다 :)

0

안녕하세요.

추가 질문은 새로운 질문으로 올려주셔야 제가 알림을 놓치지 않을 수 있으니 되도록이면 새로 질문을 만들어서 올려주세요.

1. 변경할 수 있지만 범주형 데이터인지 수치형데이터인지 날짜 데이터인지에 따라 처리 방법이 약간씩 다릅니다.

이건  matplotlib xticks  등으로 검색해 보세요.

2. 끊겨서 나오는 이유는 아마도 해당 구간에 데이터가 결측치로 되어 있을거 같습니다.

3. 멘토링시 강좌와 관련된 코드수정이나 분석방향은 해드릴 수 있지만 강좌와 관련 없는 다른 데이터에 대한 내용은 멘토링하지 않습니다.

감사합니다.

0

안녕하세요.

아래와 같은 방법으로  사용해 보실 수 있어요.

import seaborn as sns

import matplotlib.pyplot as plt

plt.xticks(rotation=60)

sns.countplot(data=df, x="컬럼명")

seaborn은 matplotlib을 사용하기 쉽게 만들어 놓은 라이브러리라 그래프의 일부 명칭을 알아두시면 좋아요.

외울 필요는 없고 그래프를 커스텀하게 그리고자 할 때 다음의 링크를 통해 명칭을 보고 적용해 보실 수 있어요.

아래 링크에 보면 코드가 함께 있는데 참고해 보세요!

[Anatomy of a figure — Matplotlib 3.1.2 documentation](https://matplotlib.org/3.1.1/gallery/showcase/anatomy.html)

../../_images/sphx_glr_anatomy_001.png

0

감사합니다 :)

0

thlee0607님의 프로필

thlee0607

질문자

2021.01.24

감사합니다!