inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

(삭제 예정, 구 버전) 작업형1 모의문제1

작업형1 모의고사1 1번 문제 재질문 드립니다.

해결된 질문

120

강민균

작성한 질문수 29

0

  1. 작업형1 모의고사1 1번 문제 f1의 결측치를 중앙값으로 채우는 문제에서 다시 보니, f1의 중앙값이 결측치의 합계(31+28+4=63)개와 일치했습니다. 그래서 중앙값?이 대체 무슨값인지 궁금했습니다. 결측치 합계액과 일치하는 것이 우연의 일치인지 결측치 합계액을 의미하는지 궁금합니다.

 

  1. f1컬럼에 중앙값 63을 채웠다는 <아래 이미지> 0~99까지 f1컬럼의 행(?)의 인덱스 옆 숫자?가 결측치를 채운 값이라는데 의미를 이해 못했습니다.

     

    질문7.JPG.webp

     

  2. 이후 df['f1']으로 저장한 후 print(df.isnull( ).sum( ))을 통해 결측치를 채운 이후값이 f1 0으로 떨어지는데 이 개념을 이해 못했습니다. 쉽게 한 번 정리 부탁드립니다.

 

  1. 기초통계량 describe( )에는 평균(mean)만 있고, 최빈값(mood), 중앙값(meadian)이 없다는 사실을 확인했습니다.

    왜 없는지 모르겠군요. 기초통계량 확인할 때와는 달리 이번 문제는 초기에 데이터를 하나씩 들여다 봐서 전체 데이터의 윤곽을 이해하지 못한 채 진행이 되는 느낌입니다.

    의문인 것은 기초통계량의 50%(2사분위수)와 중앙값의 개념 차이입니다. 개념이 약해서 중앙값, 평균값, 2사분위수의 개념이 전반적으로 흔들립니다. 50%와 중앙값은 같은 건지 다른건지 궁금합니다.

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 2

0

퇴근후딴짓

  1. 중앙값이란 데이터가 ‘가장 가운데’에 있는 값이지, 결측치 개수(혹은 결측치들의 합)와는 전혀 관련이 없습니다.

  2. 결측값(비어있는 곳)에 어떤 특정 값(여기서는 중앙값 63)을 넣어 준것을 이야기 합니다.

  3. df.isnull( ) 의 결과는 True/False로 결과가 나옵니다 이를 sum()으로 계산하면 True는 1, False는 0으로 계산되기 떄문에 결측치가 없는 경우 총합은 0입니다.

  4. 중앙값(median)과 2사분위수(50%)는 같은 개념입니다.

0

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다. 강민균님.

질문해주신 내용을 바탕으로 몇 가지 관련된 정보를 찾아 보았습니다. 우선, 이 링크에서 설명된 사례에서 데이터의 결측치를 중앙값으로 채우는 방법을 설명하고 있습니다. ‘중앙값’은 데이터를 크기 순서대로 정렬했을 때 중간에 위치한 값입니다. 데이터의 분포를 파악할 때 유용하며, pandas에서 fillna()median() 함수가 어떻게 사용되는지 알 수 있습니다.

  1. 결측치를 중앙값으로 대체: 중앙값은 데이터 리스트를 오름차순으로 정렬했을 때 가장 중앙에 위치한 값이며, 결측값을 대체할 때 유용합니다. 이는 극단값에 대한 영향을 최소화하기 때문인데요, pandas의 fillna() 함수와 median() 함수를 조합하여 결측치를 중앙값으로 쉽게 채울 수 있습니다.

  2. 이미지에서의 중앙값: 이미지 참고 링크가 제공되어 이해에 도움이 되었습니다. 중앙값은 데이터 열의 중간 값에 해당합니다.

  3. describe() 함수 이해: pandas의 describe() 함수는 기본적으로 평균, 표준편차, 최소/최대값, 사분위수만을 제공하지만, 중앙값(median) 등은 기본 출력에 포함되지 않습니다. 중앙값은 별도로 median() 함수를 통해 확인할 수 있습니다.

  4. 중앙값과 2사분위수: 일반적으로 중앙값과 2사분위수는 같은 의미로 사용됩니다. 2사분위수는 4등분한 데이터 구간 중 2번째에 위치해 있어 중앙에 해당합니다.

만약 여전히 의문이 남아 있거나 문제 접근 방법에 대한 추가적인 조언이 필요하시면, 관련된 질문 및 강의 콘텐츠를 통해 단계별로 다시 접근해 보실 수 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

1유형 강의 다 나간 후 어떻게 할까요?

0

13

1

점수차가 많이 나는데 따로 하신게 있으신가요?

0

9

1

작업형1 모의문제 4번에 3)문제 질문

0

19

2

이상치 전처리 작업

0

25

2

평가결과값 문의

0

28

2

시계열 데이터 날짜와 시간 format

0

34

2

평가지표 F1 스코어 질문드립니다.

0

27

2

작업형 2 기출7회분에서

0

38

2

작업형2 모의문제1 (30강)

0

34

2

수강 기간 연장 문의 드립니다.

0

41

2

수강 계획과 관련해 문의 드립니다.

0

30

2

작업형1 - 연습문제 16~39 풀이는 몇강을 보면 되나요?

0

50

2

작업형 1 -연습문제 4-6

0

38

2

작업형 1 유형 부분

0

42

2

작업형 1 (삭제예정, 구 버전)

0

51

2

수강기간 연장 문의드립니다.

0

38

2

2유형 레이블 인코딩 VS 원핫 인코딩

0

37

3

수강기간 연장 문의드립니다.

0

44

2

인덱스 슬라이싱

0

37

2

질문 드립니다.

0

50

2

강의 내용 관련 질문드립니다~

0

46

2

수강 연장 문의

0

63

2

강의자료 일괄 다운로드

0

62

2

수강기간 연장 문의드립니다

0

48

2