FROM절 Sub Query 실행시 Sub Query 밖에 WHERE 절 써도 효과적으로 SELECT 되는지 알고 싶습니다.

Question

일단 제목만 보고 이해가 안가실텐데요... 해당 강의에서 ROW_NUMBER() 를 쓰는거 보고 갑자기 의문이 생겨서 이렇게 질문을 드립니다. 만약 실제 회사에서 해당 경우에 ROW_NUMBER() 를 써도 되는것인지 의문이기도 해서요. 예를들자면 'API_HISTORY' 이라는 테이블이 있습니다. (참고로 약 400백만건 이상 데이터가 있습니다.) URL DATE METHOD /api/members 2021-02-12 13:43:35 POST /api/categories/2 2021-02-13 23:34:55 GET /api/members 2021-02-14 02:23:43 POST SELECT * FROM ( SELECT URL, DATE, ROW_NUMBER() OVER (PARTITION BY sub.URL ORDER BY sub.DATE DESC) AS 'rank' FROM API_HISTORY AS sub ) AS T WHERE T.`rank` = 2 이렇게 FROM 절에 sub query로 ' API_HISTORY' 테이블 SELECT 먼저 하는데요. 해당 서브 쿼리를 잘 보시면 이번 강의때 배운 ROW_NUMBER() 를 사용해 보았습니다. 그런다음 rank를 맺긴것을 이용해서 WHERE절을 이용하기 위해 FROM절로 다시 감싸서 각 URL마다 rank(DATE DESE 기준) 2위 만 SELECT 할려고 합니다. 그런데 문제는 'API_HISTORY' 테이블은 400백만건이 있기 때문에 형식상 저 query를 실행하게 되면 sub Query가 먼저 실행되고(결국 이때 400백만건을 모두 조회한 셈???인가요??) 다 조회한뒤 WHERE 절 rank 2위만 SELECT 하는것 같습니다. 다시 말씀드리자면 일반적인 SELECT문 경우 WHERE절이 있다면 그걸 필터링 해서 가져오기 떄문에 성능상 빠르지만 해당 쿼리문은 FROM 절 SUB 쿼리를 실행하기 떄문에 먼저 서브쿼리 안에 있는것들을 SELECT 하고(약 400백만건 모두 조회 한다는 의미입니다.) 그다음에 WHERE절 통해 필터링 해서 더 늦게 출력되지 않을까 생각되는데요. 제가 잘못 이해하는것인가요? 답변 부탁드립니다^^ 좋은 하루 되세요 :)

윤선미 · Answer

안녕하세요. 답변이 늦어져 죄송합니다. 아래와 같이 계산을 하고 계시네요. 1. 전체 테이블에 대해 윈도우 함수로 rank 계산 2. 계산된 rank 를 이용해 WHERE 절에서 데이터 필터링 1 단계에서 전체 테이블을 가지고 rank 계산을 꼭 해야한다면 전체 테이블 연산을 피할 수 없습니다. 데이터가 너무 많아서 현실적으로 계산이 불가능하다면 일정 기간 동안 조회된 url 에 대해서만 연산을 하는 등 계산하는 데이터의 범위를 좁히는 것이 필요합니다. 답변이 되었기를 바랍니다 :) 감사합니다.

URL	DATE	METHOD
/api/members	2021-02-12 13:43:35	POST
/api/categories/2	2021-02-13 23:34:55	GET
/api/members	2021-02-14 02:23:43	POST