• 카테고리

    질문 & 답변
  • 세부 분야

    데이터 분석

  • 해결 여부

    미해결

FROM절 Sub Query 실행시 Sub Query 밖에 WHERE 절 써도 효과적으로 SELECT 되는지 알고 싶습니다.

21.04.28 19:08 작성 조회수 78

2

일단 제목만 보고 이해가 안가실텐데요...

해당 강의에서 ROW_NUMBER() 를 쓰는거 보고 갑자기 의문이 생겨서 이렇게 질문을 드립니다.

만약 실제 회사에서 해당 경우에 ROW_NUMBER() 를 써도 되는것인지 의문이기도 해서요.

예를들자면

'API_HISTORY' 이라는 테이블이 있습니다. (참고로 약 400백만건 이상 데이터가 있습니다.)

URL DATE METHOD
/api/members 2021-02-12 13:43:35 POST
/api/categories/2 2021-02-13 23:34:55 GET
/api/members 2021-02-14 02:23:43 POST

SELECT *
FROM (
        SELECT
            URL,
            DATE,
            ROW_NUMBER() OVER (PARTITION BY sub.URL ORDER BY sub.DATE DESC) AS 'rank'
        FROM
            API_HISTORY AS sub
) AS T
 WHERE T.`rank` = 2

이렇게 FROM 절에 sub query로 'API_HISTORY' 테이블 SELECT 먼저 하는데요. 해당 서브 쿼리를 잘 보시면 

이번 강의때 배운 ROW_NUMBER() 를 사용해 보았습니다.

그런다음 rank를 맺긴것을 이용해서 WHERE절을 이용하기 위해 FROM절로 다시 감싸서 각 URL마다 rank(DATE DESE 기준) 2위 만 SELECT 할려고 합니다.

그런데 문제는 'API_HISTORY' 테이블은 400백만건이 있기 때문에

형식상 저 query를 실행하게 되면 sub Query가 먼저 실행되고(결국 이때 400백만건을 모두 조회한 셈???인가요??) 다 조회한뒤 WHERE 절 rank 2위만 SELECT 하는것 같습니다.

다시 말씀드리자면 일반적인 SELECT문 경우 WHERE절이 있다면 그걸 필터링 해서 가져오기 떄문에 성능상 빠르지만

해당 쿼리문은 FROM 절 SUB 쿼리를 실행하기 떄문에

먼저 서브쿼리 안에 있는것들을 SELECT 하고(약 400백만건 모두 조회 한다는 의미입니다.) 그다음에 WHERE절 통해 필터링 해서 더 늦게  출력되지 않을까 생각되는데요.

제가 잘못 이해하는것인가요?

답변 부탁드립니다^^

좋은 하루 되세요 :)

답변 1

답변을 작성해보세요.

1

안녕하세요. 답변이 늦어져 죄송합니다.

아래와 같이 계산을 하고 계시네요.

1. 전체 테이블에 대해 윈도우 함수로 rank 계산

2. 계산된 rank 를 이용해 WHERE 절에서 데이터 필터링

1 단계에서 전체 테이블을 가지고 rank 계산을 꼭 해야한다면 전체 테이블 연산을 피할 수 없습니다.

데이터가 너무 많아서 현실적으로 계산이 불가능하다면 일정 기간 동안 조회된 url 에 대해서만 연산을 하는 등 계산하는 데이터의 범위를 좁히는 것이 필요합니다.

답변이 되었기를 바랍니다 :)

감사합니다.