inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

BigQuery(SQL) 활용편(퍼널 분석, 리텐션 분석)

[인프런 빅쿼리 빠짝스터디 2주차] 윈도우 함수, FRAME 설정, QUALIFY

140

양승엽

작성한 질문수 5

0

연습 문제

(1) 윈도우 함수

-- 1) user들의 다음 접속 월과 다다음 접속 월을 구하는 쿼리를 작성해주세요.
SELECT
  user_id,
  visit_month,
  LEAD(visit_month, 1) OVER (PARTITION BY user_id ORDER BY visit_month) AS after_visit_month_1,
  LEAD(visit_month, 2) OVER (PARTITION BY user_id ORDER BY visit_month) AS after_visit_month_2,
FROM `advanced.analytics_function_01`
ORDER BY user_id
-- 2) user들의 다음 접속 월과 다다음 접속 월, 이전 접속 월을 구하는 쿼리를 작성해주세요.
SELECT
  user_id,
  visit_month,
  LEAD(visit_month, 1) OVER (PARTITION BY user_id ORDER BY visit_month) AS after_visit_month_1,
  LEAD(visit_month, 2) OVER (PARTITION BY user_id ORDER BY visit_month) AS after_visit_month_2,
  LAG(visit_month) OVER (PARTITION BY user_id ORDER BY visit_month) AS previous_visit_month_1,
FROM `advanced.analytics_function_01`
ORDER BY user_id
-- 3) user의 다음 접속까지의 간격을 구하시오
SELECT
  user_id,
  visit_month,
  LEAD(visit_month, 1) OVER (PARTITION BY user_id ORDER BY visit_month) AS after_visit_month_1,
  (LEAD(visit_month, 1) OVER (PARTITION BY user_id ORDER BY visit_month) - visit_month) AS diff_month,
FROM `advanced.analytics_function_01`
ORDER BY user_id
SELECT
  *,
  (after_visit_month_1 - visit_month) AS diff_month
FROM (
  SELECT
    user_id,
    visit_month,
    LEAD(visit_month, 1) OVER (PARTITION BY user_id ORDER BY visit_month) AS after_visit_month_1,
  FROM `advanced.analytics_function_01`
  ORDER BY user_id
)

(2) QUALIFY

-- amount_total : 전체 SUM
-- cumulative_sum : row 시점에 누적 SUM
-- cumulative_sum_by_user : row 시점에 유저별 누적 SUM
-- last_5_orders_avg_amount : order_id 기준으로 정렬하고, 직전 5개 주문의 평균 amount

SELECT
  *,
  SUM(amount) OVER() AS amount_total,
  SUM(amount) OVER(ORDER BY order_id) AS cumulative_sum,
  SUM(amount) OVER(PARTITION BY user_id ORDER BY order_id) AS cumulative_sum_by_user,
  AVG(amount) OVER(ORDER BY order_id ROWS BETWEEN 5 PRECEDING AND 1 PRECEDING) AS last_5_orders_avg_amount
FROM advanced.orders
ORDER BY order_id
-- 1) 사용자별 쿼리를 실행한 총 횟수를 구하는 쿼리를 작성해주세요. 
--    단, GROUP BY를 사용해서 집계하는 것이 아닌 query_logs의 데이터의 우측에 새로운 컬럼을 만들어주세요.

SELECT
  *,
  COUNT(query_date) OVER(PARTITION BY user) AS cnt_by_user
FROM advanced.query_logs
-- 2) 주차별로 팀 내에서 쿼리를 많이 실행한 수를 구한 후, 실행한 수를 활용해 랭킹을 구해주세요.
--    단, 랭킹이 1등인 사람만 결과가 보이도록 해주세요

SELECT
  *,
  RANK() OVER(PARTITION BY team, week_key ORDER BY cnt_by_user DESC) AS rnk
FROM (
  SELECT
    user,
    team,
    IF(query_date < '2024-05-01', 1, 2) AS week_key,
    COUNT(user) AS cnt_by_user
  FROM advanced.query_logs
  GROUP BY ALL
)
QUALIFY rnk = 1
ORDER BY team, week_key
-- 강의 코드
WITH query_cnt_by_team AS(
  SELECT
    EXTRACT(WEEK FROM query_date) AS week_number,
    team,
    user,
    COUNT(user) AS query_cnt
  FROM advanced.query_logs
  GROUP BY ALL
)

SELECT
  *,
  RANK() OVER(PARTITION BY week_number, team ORDER BY query_cnt DESC) AS rk
FROM query_cnt_by_team
QUALIFY rk = 1
ORDER BY week_number, team, query_cnt
-- 3) (2번 문제에서 사용한 주차별 쿼리 사용) 쿼리를 실행한 시점 기준 1주 전에 쿼리 실행 수를 별도의 컬럼으로 확인할 수 있는 쿼리를 작성해주세요
SELECT
  *,
  LAG(query_cnt) OVER(PARTITION BY user ORDER BY week_number) AS previous_week_cnt
FROM query_cnt_by_team
ORDER BY user
-- 4) 시간의 흐름에 따라, 일자별로 유저가 실행한 누적 쿼리 수를 작성해주세요

SELECT
  *,
  SUM(query_cnt) OVER(PARTITION BY user ORDER BY query_date ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) AS cumul_cnt
FROM (
  SELECT
    user,
    team,
    query_date,
    COUNT(*) AS query_cnt
  FROM advanced.query_logs
  GROUP BY ALL
)
ORDER BY user, query_date
-- 5) 다음 데이터는 주문 횟수를 나타낸 데이터입니다. 만약 주문 횟수가 없으면 NULL로 기록됩니다. 
--    이런 데이터에서 NULL 값이라고 되어있는 부분을 바로 이전 날짜의 값으로 채워주는 쿼리를 작성해주세요

SELECT 
  date,
  IF(number_of_orders IS NULL, LAG(raw_data.number_of_orders, 1) OVER(ORDER BY date), number_of_orders) AS number_of_orders
FROM raw_data
-- 강의 코드

SELECT 
  *,
  LAST_VALUE(number_of_orders IGNORE NULLS) OVER(ORDER BY date) AS last_value_orders
FROM raw_data
-- 6) 5번 문제에서 NULL을 채운 후, 2일 전 ~ 현재 데이터의 평균을 구하는 쿼리를 작성해주세요(이동 평균)

SELECT
  *,
  AVG(last_value_orders) OVER(ORDER BY date ROWS BETWEEN 2 PRECEDING AND CURRENT ROW) AS moving_average
FROM (
  SELECT 
    *,
    LAST_VALUE(number_of_orders IGNORE NULLS) OVER(ORDER BY date) AS last_value_orders
  FROM raw_data
-- 7) app_logs 테이블에서 Custom Session을 만들어 주세요. 이전 이벤트 로그와 20초가 지나면 새로운 Session을 만들어 주세요. 
--    Session은 숫자로 (1, 2, 3 ...) 표시해도 됩니다

WITH base AS(
  SELECT
    event_date,
    DATETIME(TIMESTAMP_MICROS(event_timestamp), "Asia/Seoul") AS event_datetime,
    event_name,
    user_id,
    user_pseudo_id,
  FROM advanced.app_logs
  WHERE (event_date = "2022-08-18") AND (user_pseudo_id = "1997494153.8491999091")
  ORDER BY event_timestamp
)

SELECT
  *,
  SUM(diff_classification) OVER(ORDER BY event_datetime) + 1 AS session_id
FROM (
  SELECT
    *,
    IF(DATETIME_DIFF(event_datetime, before_datetime, second) > 20, 1, 0) AS diff_classification
  FROM (
    SELECT
      *,
      LAG(event_datetime) OVER(PARTITION BY user_pseudo_id ORDER BY event_datetime) AS before_datetime,
    FROM base
  )
)
ORDER BY event_datetime

EDA(2)

요일별 접속자 수 + 기간 내 이벤트날

image.png

시간대에 따른 이용자 수

image.pngimage.png

sql Google-Analytics firebase google-sheets bigquery

답변 1

0

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다. 양승엽님께서 윈도우 함수와 관련된 SQL 쿼리 작성에 대해 질문해 주셨습니다. 이를 통해 SQL의 다양한 기능을 활용하여 데이터를 분석하고자 하시는 것으로 보입니다. 아래와 같은 기존의 유사한 질의 응답을 통해 도움이 될 만한 정보를 제공해 드리겠습니다.

  1. LEAD와 LAG 함수 활용: LEAD와 LAG 함수는 미래 또는 과거의 데이터를 쉽게 조회할 수 있도록 도와줍니다. 각각의 함수를 사용하는 방법에 대한 다양한 예제가 포함된 3-7 리텐션 SQL 쿼리 작성하기 연습 (Weekly, Monthly) 게시물을 참고하시어, 위에서 언급하신 문제가 어떻게 해결되어가는지 확인해 보세요.

  2. 윈도우 함수의 다양한 활용 사례: 윈도우 함수는 데이터를 움직이면서 계산 결과를 낼 때 매우 유용합니다. 특히, 누적합, 이동 평균, 데이터의 갭 분석 등을 수행할 수 있습니다. 이에 대한 보다 자세한 사용 사례는 퍼널별 유저들의 새로운 세션 시작 횟수의 총합 _ 윈도우 함수 마지막 문제 응용 게시물에서 확인할 수 있습니다. 여기서는 사용자의 세션 데이터를 윈도우 함수를 통해 어떻게 분석할 수 있는지를 설명합니다.

  3. QUALIFY와 PARTITION BY 활용: PARTITION BY를 통해 데이터의 그룹별로 누적 합이나 순위를 계산할 수 있습니다. 또한 QUALIFY 절은 데이터 필터링 시 더욱 유용하게 쓸 수 있지요. 관련 예제는 Bigquery 활용편(PDF)파일 P.229 페이지 코드 오류에서 찾을 수 있으며, 이 자료에서 논의된 문법을 실습하며 이해를 깊이 하실 수 있습니다.

질문에 포함된 쿼리와 관련된 문제 해결에 도움이 되었기를 바랍니다. 양승엽님에게 좋은 학습의 기회가 되길 바라며, 추가적으로 궁금한 점이 있으시면 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏

최종 과제 제출

0

82

3

BigQuery 활용편 18강 질문있습니다!

0

84

1

리텐션 공부하다가 궁금한게 생겨 질문드립니다

0

83

2

안녕하세요 강사님 코호트 쿼리 공부하다가 의문점이 생겨서 문의드립니다

0

75

2

biquery 테이블 생성 오류 이슈

0

55

2

동일하게 쿼리를 작성했는데 화면과 다른 값이 나옵니다

0

73

2

[과제] 퍼널 PIVOT 테이블 작성하기

0

67

2

array 등

0

63

2

N day 리텐션 쿼리 관련 질문

0

63

2

이동평균 계산 시 order by 기본값은 뭔가요?

0

69

2

윈도우 연습문제 1번 질문

0

65

1

user_id에 NULL이 나오는데 정상인가요?

0

72

2

3-13 리텐션 과제 제출

0

94

2

최종 과제 제출

0

130

3

weekly retention 구하기 과제

0

90

2

1-9. 피벗 쿼리 작성

0

81

2

app_logs 테이블 생성 문제

0

73

2

Weekly Retention 구하기 완성하였습니다.

0

77

2

[과제] 퍼널 쿼리(피벗테이블 적용) 작성 완료

0

107

2

3-7 Weekly, Monthly Retention 쿼리 작성

0

92

2

정성 데이터 분석 방법 문의

0

165

1

최종 과제 제출

0

108

3

1-6 예시 문제 풀이

0

69

2

최종과제 제출

0

145

2