강의

멘토링

커뮤니티

Cộng đồng Hỏi & Đáp của Inflearn

Hình ảnh hồ sơ của 1212544475
1212544475

câu hỏi đã được viết

Nhập môn BigQuery(SQL) cho người mới bắt đầu

5-6. BÀI TẬP JOIN 3-5 LẦN

5-6. 4번 문제 WHERE 조건의 위치 문의

Đã giải quyết

Viết

·

25

0

안녕하세요.

이전 질문에 대한 답변 감사합니다. type1을 기준으로 해서 4번 문제를 풀었는데요.

 

저는 trainer 테이블을 기준으로는 achivement_level = "Master"라는 조건이 있고,

trainer_pokemon 테이블에서는 status IN ("Active", "Training")이라는 조건이 있으니

먼저 두 테이블을 이렇게 가공한 후에 JOIN하면 좋지 않을까? 라는 생각으로 아래와 같이 쿼리를 작성했어요.

SELECT
 p.type1, COUNT(tp.id) type_cnt
FROM
  (SELECT
    *
  FROM basic.trainer
  WHERE
    achievement_level = "Master") t
  LEFT JOIN 
    (SELECT
      *
     FROM `basic.trainer_pokemon` 
     WHERE 
      status IN ("Active", "Training")) tp
  ON t.id = tp.trainer_id
  LEFT JOIN
    `basic.pokemon` p
  ON tp.pokemon_id = p.id
GROUP BY
  p.type1
ORDER BY 
  type_cnt DESC
LIMIT 1

 

그런데 풀이에서는 trainer_pokemon 테이블만 status 기준으로 가공한 후, 나머지 테이블을 JOIN하고 -> 마지막에 WHERE 조건으로 achivement_level = "Master" 를 걸어서 데이터를 추리는 것 같더라고요.

현재 데이터 기준으로는 일단 값이 같지만, 뭔가 이 선후관계에 따라서 무언가가 달라질 수도 있을 것 같은데 명확하게 알기가 어려워 질문 드립니다!

확인 부탁 드립니다 :)

sqlbigquery데이터-리터러시

Câu trả lời 2

0

kyleschool님의 프로필 이미지
kyleschool
Người chia sẻ kiến thức

안녕하세요. 지금 하신 방법이 쿼리 최적화 방식으로는 더 좋은 방법일 수는 있습니다. 미리 가공해서 필요한 것만 JOIN한 것이니 잘 생각하셨어요.

 

제가 Master를 마지막에 필터링한 이유는 JOIN한 결과를 어떻게 사용할 것인가? 관점에서 Master만 필터링하지 않고 다른 등급의 트레이너를 파악해야 하는 경우 쿼리의 맨 마지막에서 바꿔주는 것이 더 편하기 때문에 이렇게 작성했다고 보시면 됩니다.

 

단순히 쿼리를 짜는 것이 다가 아니라, 그 쿼리의 결과를 어떻게 사용할지 필터링을 잦게 해야 한다면 어디에 배치할지를 고민하는 것이 필요합니다. 그래서 인프님 쿼리나 제 쿼리의 의도의 차이가 있다고 생각해주시면 될 것 같아요.

0

안녕하세요, 인프런 AI 인턴입니다.

인프님께서 질문하신 것처럼 SQL 쿼리에서 필터링의 순서와 위치는 쿼리의 성능 및 결과에 영향을 미칠 수 있습니다. 특히, 쿼리에서 테이블을 조인하기 전에 미리 데이터를 가공하고 필터링하는 것은 매우 효율적인 방법일 수 있습니다. 이를 통해 조인 연산에서 처리해야 할 데이터의 양을 줄일 수 있기 때문입니다.

쿼리 최적화 방식

  1. 미리 필터링한 후 조인하기:

    • 두 테이블에서 필요한 조건을 미리 적용하여 데이터를 필터링한 후 조인을 수행하였습니다. 이는 데이터를 최소화하여 서버의 로드와 쿼리 실행 시간을 줄이는 데 유리합니다.
  2. 조인 후 필터링하기:

    • 반면, 강의에서는 trainer_pokemon 의 필터링 조건을 우선 적용한 후 trainer 와 다른 테이블을 조인한 다음 achievement_level = 'Master' 조건을 적용하였습니다. 이 방법은 전체적인 데이터를 보고 필요한 조건을 마지막에 필터링하는 방식입니다.

위 두 접근 방식은 데이터의 크기와 구조에 따라 다양한 결과를 초래할 수 있습니다. 대체로, 서버에서 처리해야 할 데이터의 크기를 줄이는 첫 번째 방식이 효율적입니다.

성능 및 결과에 대한 영향

  • 성능: 미리 데이터를 줄이고 조인하면 서버가 처리해야 할 데이터 양이 줄어들어 쿼리 성능이 향상됩니다. 서버는 작은 데이터 집합에서 조인을 수행하고 최종적으로 필터링을 통해 원하는 결과를 추출하므로 처리 시간이 단축될 수 있습니다.

  • 결과의 동일성:

    • 현재의 데이터 구성에서는 두 방식 모두 결과가 같을 수 있지만, 데이터 세트가 크거나 구조가 복잡해질 경우 성능 및 결과 정확성에 차이가 날 수 있습니다.
    • 특히, 데이터가 누락되거나 중복될 위험을 최소화하려면 미리 필터링하여 필요한 데이터만 다룰 수 있도록 구조화하는 것이 좋습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 방식을 설명드리고 있습니다. 관련된 사례로써 다른 질문에 대한 답변을 참조해 보시면, SQL에서 WHERE 및 JOIN 조건의 차이에 대해 더 깊이 이해하실 수 있을 것입니다.

현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

Hình ảnh hồ sơ của 1212544475
1212544475

câu hỏi đã được viết

Đặt câu hỏi