작성
·
146
2
일단 제목만 보고 이해가 안가실텐데요...
해당 강의에서 ROW_NUMBER() 를 쓰는거 보고 갑자기 의문이 생겨서 이렇게 질문을 드립니다.
만약 실제 회사에서 해당 경우에 ROW_NUMBER() 를 써도 되는것인지 의문이기도 해서요.
예를들자면
'API_HISTORY' 이라는 테이블이 있습니다. (참고로 약 400백만건 이상 데이터가 있습니다.)
URL | DATE | METHOD | |||
/api/members | 2021-02-12 13:43:35 | POST | |||
/api/categories/2 | 2021-02-13 23:34:55 | GET | |||
/api/members | 2021-02-14 02:23:43 | POST |
SELECT *
FROM (
SELECT
URL,
DATE,
ROW_NUMBER() OVER (PARTITION BY sub.URL ORDER BY sub.DATE DESC) AS 'rank'
FROM
API_HISTORY AS sub
) AS T
WHERE T.`rank` = 2
이렇게 FROM 절에 sub query로 'API_HISTORY' 테이블 SELECT 먼저 하는데요. 해당 서브 쿼리를 잘 보시면
이번 강의때 배운 ROW_NUMBER() 를 사용해 보았습니다.
그런다음 rank를 맺긴것을 이용해서 WHERE절을 이용하기 위해 FROM절로 다시 감싸서 각 URL마다 rank(DATE DESE 기준) 2위 만 SELECT 할려고 합니다.
그런데 문제는 'API_HISTORY' 테이블은 400백만건이 있기 때문에
형식상 저 query를 실행하게 되면 sub Query가 먼저 실행되고(결국 이때 400백만건을 모두 조회한 셈???인가요??) 다 조회한뒤 WHERE 절 rank 2위만 SELECT 하는것 같습니다.
다시 말씀드리자면 일반적인 SELECT문 경우 WHERE절이 있다면 그걸 필터링 해서 가져오기 떄문에 성능상 빠르지만
해당 쿼리문은 FROM 절 SUB 쿼리를 실행하기 떄문에
먼저 서브쿼리 안에 있는것들을 SELECT 하고(약 400백만건 모두 조회 한다는 의미입니다.) 그다음에 WHERE절 통해 필터링 해서 더 늦게 출력되지 않을까 생각되는데요.
제가 잘못 이해하는것인가요?
답변 부탁드립니다^^
좋은 하루 되세요 :)
답변 1
1
안녕하세요. 답변이 늦어져 죄송합니다.
아래와 같이 계산을 하고 계시네요.
1. 전체 테이블에 대해 윈도우 함수로 rank 계산
2. 계산된 rank 를 이용해 WHERE 절에서 데이터 필터링
1 단계에서 전체 테이블을 가지고 rank 계산을 꼭 해야한다면 전체 테이블 연산을 피할 수 없습니다.
데이터가 너무 많아서 현실적으로 계산이 불가능하다면 일정 기간 동안 조회된 url 에 대해서만 연산을 하는 등 계산하는 데이터의 범위를 좁히는 것이 필요합니다.
답변이 되었기를 바랍니다 :)
감사합니다.