• 카테고리

    질문 & 답변
  • 세부 분야

    마케팅

  • 해결 여부

    미해결

심슨 패러독스를 피하려면

22.07.03 20:43 작성 조회수 255

0

강의를 듣던 중 최근 고민 중인 내용이 나와 질문 남깁니다.

심슨 패러독스 관련된 내용인데요.

 

매월 참여자/정원 으로 참여율을 구한 후,

참여율의 12개월 평균을 내는 것과, 1년간 전체 참여자/전체 정원으로 평균을 구하는 것도 숫자가 서로 달라 고민 중입니다.

두가지 모두 심슨패러독스에 걸릴 것 같은데요. 피하고 정확하게 보려면 어떻게 하는게 좋을지 질문 드립니다.

답변 2

·

답변을 작성해보세요.

1

위 케이스라면, 저는 '모객율'이라는 지표는 '강의' 단위로만 의미가 있는 것 같아요.  (='강의별 모객율' 은 의미있지만 '월별 모객율'은 의미도 모호하고 해석하기도 모호한 지표라고 생각합니다)

월별 모객율을 보려는 이유는 월별로 얼마나 모객이 잘 되었는지를 지표화 하고 싶어서... 일 것으로 보이는데, 실제로 구해보면서 느끼셨겠지만, 1)각 강의별 모객율의 산술평균이나, 2)전체 신청자를 전체 정원으로 나눈 값은 월별 모객 수준을 대표하는 지표로 사용하기에 부적절합니다.  이는 각 지표의 반례를 생각해보시면 좋아요.

가령, 1월/2월에 각각 아래와 같은 모객 지표가 있다고 가정해 볼께요.

  • 1월
    • 강의A -> 정원 5명, 신청자 5명
    • 강의B -> 정원 100명, 신청자 0명
  • 2월
    • 강의C -> 정원 100명, 신청자 40명
    • 강의D -> 정원 100명, 신청자 40명
  • 3월
    • 강의E -> 정원 100명, 신청자 70명
    • 강의F -> 정원 100명, 신청자 10명

1) 강의별 모객율의 산술평균으로 1월과 2월을 비교해보면 1월은 50%, 2월은 40%가 나옵니다.  과연 1월의 모객율이 더 좋다고 볼 수 있을까요?  (당연히 아니겠죠...;;; )  비율 지표를 단순 사칙연산으로 2차 가공하면 전혀 엉뚱한 지표 활용이 될 수 있습니다.

그렇다면 2)전체 신청자를 전체 정원으로 나눈 값은 어떨까요?  2월과 3월을 이 기준으로 계산해보면 2월과 3월 모두 40%라는 숫자가 나오는데요.  그렇다면 2월과 3월의 모객 성과는 비슷하다고 판단할 수 있을까요?  사람에 따라서 판단 기준이 다를 수 있을텐데... 저라면 raw data를 보고 2월보다는 3월의 모객 성과가 더 좋다고 판단할 것 같습니다.  2월은 2개 강의 모두가 40% 정도의 신청자밖에 못 모았지만, 3월에는 적어도 하나의 강의는 70%라는 모객율을 기록했으니까요.

 

만약 제가 월별 모객 성과를 보는 지표를 정의해야 하는 입장이라면, 저는 그 달에 열린 강의 중에서 모객율 70%를 넘긴 강의의 비율 (물론 여기서 70%라는 숫자는 도메인 지식을 기반으로 정할 수 있겠죠.  100%일 수도 있고, 50%일 수도 있고...) 로 정할 것 같습니다.  그 달에 10개의 강의가 열렸는데 미리 정한 모객율을 달성한 강의가 7개였다면, 그 달의 모객 성공 강의비율이 70%라고 판단하는 식으로 말이죠.  개별 강의 단위에서의 모객 성공 수준과, 특정 기간 동안의 강의들을 모아서 모객 성공 수준을 측정하는 것은 다르게 접근해야 한다고 생각합니다~

제가 도메인 지식이 없는 상황에서 주어진 정보만 가지고 생각하다보니, 아마도 이것보다 더 좋은 지표를 생각해 내실 수도 있을 것 같은데요.  관련 아이디어를 얻는 데 도움이 되셨길 바랍니다 ^^

daniel seo님의 프로필

daniel seo

질문자

2022.07.04

앗! 질문 남겨 놓고 하루 종일 이리 저리 고민하다 저도 답변 주신 것과 동일한 결론을 내렸습니다!

며칠을 고민하던 문제가 시원하게 해결 됐네요~!

함께 고민해 주시고 자세히 설명해 주셔서 큰 도움이 됐습니다 :)

감사합니다!

0

안녕하세요.

해당 지표가 어떤 식으로 생성되고 어떤 목적으로 활용되는지에 대한 맥락 정보가 없어서, 정확한 답변이 될 지는 모르겠네요;;;  (참여자와 정원에 대한 더 자세한 배경 설명이 있으면 좋을 것 같아요)

말씀하신 내용으로만 보면, 월 단위로 참여율 = 참여자/정원 에 해당하는 지표를 계산해서, 이 지표의 월별 변화 추이를 보는 형태로 사용하면 별 이슈가 없어 보이는데요.  질문의 의도가 연 단위의 참여율을 구하고 싶다...는 의미로 이해하면 될까요?  참여율 계산에서 필요한 '정원'이 월 단위로 정해진다면, 억지로 이걸 연 단위로 계산하는 건 크게 의미가 없을 것 같아요.  (비율 지표의 평균을 계산해서 활용하는 것도 일반적으로 추천하지 않습니다...;;;)  만약 정원이나 참여자가 월별로 집계된다면, 해당 지표의 기간별 트렌드를 보는 형태로 사용하시는 게 가장 좋을 것 같습니다~

daniel seo님의 프로필

daniel seo

질문자

2022.07.04

질문을 모호하게 드려서 죄송합니다!

강의 개설자들이 자유롭게 개설을 하고 다른 사용자들은 원하는 강의를 찾아 신청하는 구조입니다.
저희는 모객률을 높이는 목표가 있고, 월별 연도별 모객률을 지표로 확인하려고합니다.

DB에서 뽑아오는 데이터 구조는 아래와 같습니다.

예를 들어 22년 7월에 대한 모객률을 구하는 부분에 궁금증이 생긴 것입니다.
각 강의별 모객률을 산술적 평균을 내는 것과 (7월신청자/7월정원)*100 두가지로 해보았는데...둘 다 잘 못된 지표가 아닌가...싶어서요^^;;

이런 상황에서는 모객률을 어떻게 보아야할지...평균 모객률이라는 것이 지표로서 의미가 없을지...궁금합니다.