5-6. 4번 문제 WHERE 조건의 위치 문의

Question

안녕하세요. 이전 질문에 대한 답변 감사합니다. type1을 기준으로 해서 4번 문제를 풀었는데요. 저는 trainer 테이블을 기준으로는 achivement_level = "Master"라는 조건이 있고, trainer_pokemon 테이블에서는 status IN ("Active", "Training")이라는 조건이 있으니 먼저 두 테이블을 이렇게 가공한 후에 JOIN하면 좋지 않을까? 라는 생각으로 아래와 같이 쿼리를 작성했어요. SELECT p.type1, COUNT(tp.id) type_cnt FROM (SELECT * FROM basic.trainer WHERE achievement_level = "Master") t LEFT JOIN (SELECT * FROM `basic.trainer_pokemon` WHERE status IN ("Active", "Training")) tp ON t.id = tp.trainer_id LEFT JOIN `basic.pokemon` p ON tp.pokemon_id = p.id GROUP BY p.type1 ORDER BY type_cnt DESC LIMIT 1 그런데 풀이에서는 trainer_pokemon 테이블만 status 기준으로 가공한 후, 나머지 테이블을 JOIN하고 -> 마지막에 WHERE 조건으로 achivement_level = "Master" 를 걸어서 데이터를 추리는 것 같더라고요. 현재 데이터 기준으로는 일단 값이 같지만, 뭔가 이 선후관계에 따라서 무언가가 달라질 수도 있을 것 같은데 명확하게 알기가 어려워 질문 드립니다! 확인 부탁 드립니다 :)

kyleschool · Answer

안녕하세요. 지금 하신 방법이 쿼리 최적화 방식으로는 더 좋은 방법일 수는 있습니다. 미리 가공해서 필요한 것만 JOIN한 것이니 잘 생각하셨어요. 제가 Master를 마지막에 필터링한 이유는 JOIN한 결과를 어떻게 사용할 것인가? 관점에서 Master만 필터링하지 않고 다른 등급의 트레이너를 파악해야 하는 경우 쿼리의 맨 마지막에서 바꿔주는 것이 더 편하기 때문에 이렇게 작성했다고 보시면 됩니다. 단순히 쿼리를 짜는 것이 다가 아니라, 그 쿼리의 결과를 어떻게 사용할지 필터링을 잦게 해야 한다면 어디에 배치할지를 고민하는 것이 필요합니다. 그래서 인프님 쿼리나 제 쿼리의 의도의 차이가 있다고 생각해주시면 될 것 같아요.

communityai8509 · Answer

안녕하세요, 인프런 AI 인턴입니다. 인프님께서 질문하신 것처럼 SQL 쿼리에서 필터링의 순서와 위치는 쿼리의 성능 및 결과에 영향을 미칠 수 있습니다. 특히, 쿼리에서 테이블을 조인하기 전에 미리 데이터를 가공하고 필터링하는 것은 매우 효율적인 방법일 수 있습니다. 이를 통해 조인 연산에서 처리해야 할 데이터의 양을 줄일 수 있기 때문입니다. 쿼리 최적화 방식 미리 필터링한 후 조인하기 : 두 테이블에서 필요한 조건을 미리 적용하여 데이터를 필터링한 후 조인을 수행하였습니다. 이는 데이터를 최소화하여 서버의 로드와 쿼리 실행 시간을 줄이는 데 유리합니다. 조인 후 필터링하기 : 반면, 강의에서는 trainer_pokemon 의 필터링 조건을 우선 적용한 후 trainer 와 다른 테이블을 조인한 다음 achievement_level = 'Master' 조건을 적용하였습니다. 이 방법은 전체적인 데이터를 보고 필요한 조건을 마지막에 필터링하는 방식입니다. 위 두 접근 방식은 데이터의 크기와 구조에 따라 다양한 결과를 초래할 수 있습니다. 대체로, 서버에서 처리해야 할 데이터의 크기를 줄이는 첫 번째 방식이 효율적입니다. 성능 및 결과에 대한 영향 성능 : 미리 데이터를 줄이고 조인하면 서버가 처리해야 할 데이터 양이 줄어들어 쿼리 성능이 향상됩니다. 서버는 작은 데이터 집합에서 조인을 수행하고 최종적으로 필터링을 통해 원하는 결과를 추출하므로 처리 시간이 단축될 수 있습니다. 결과의 동일성 : 현재의 데이터 구성에서는 두 방식 모두 결과가 같을 수 있지만, 데이터 세트가 크거나 구조가 복잡해질 경우 성능 및 결과 정확성에 차이가 날 수 있습니다. 특히, 데이터가 누락되거나 중복될 위험을 최소화하려면 미리 필터링하여 필요한 데이터만 다룰 수 있도록 구조화하는 것이 좋습니다. 저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 방식을 설명드리고 있습니다. 관련된 사례로써 다른 질문 에 대한 답변을 참조해 보시면, SQL에서 WHERE 및 JOIN 조건의 차이에 대해 더 깊이 이해하실 수 있을 것입니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.