표본의 분위수 구하는 방법

Question

표본의 분위수를 구하는 방법에 대한 설명이 조금 헷갈렸습니다. 데이터를 오름차순으로 정렬하고, 'α 분위수는 α * 100% 위치의 값이다'라고 하셨는데, '위치'가 단순히 데이터의 개수로 따져서 n * α 를 가리키는 건지, 아니면 데이터 범위 안에서 {x_(n) - x_(1)} * α + x_(1) 에 가까운 값의 sub index를 찾고자 하는 건지 혼동됩니다.

루비네 코딩 · Answer

안녕하세요! 좋은 질문 주셔서 감사합니다. 표본의 "α 분위수"는 "α * 100% 백분위수"와 같은 의미입니다. 그리고 이것은 "α * 100% 위치에서의 X값 "이라고 이해할 수 있습니다. 정렬된 자료를 가지고 있다면 "위치"는 n* α에 해당하고요 (서브인덱스). 그 위치에서의 X 값이 바로 분위수 입니다. (서브인덱스는 아닙니다!) 그런데 대다수의 경우에는 n* α는 정확하게 정수가 아니고 특정 서브인덱스 i와 (i+1) 사이의 실수인데요. 보통은 X_i와 X_(i+1) 사이의 값을 "내삽 (interpolation)" 방법으로 계산해서 정확도를 조금 높일 수 있습니다. 다시 정리해 보면 "위치의 값" 대신에 "위치 에서의 X값"이라 해석해 주세요~ 다소 루스한 용어 사용을 정확하게 지적해 주셔서 감사합니다^^ 루비네 코딩^^