GROUP BY 질문입니다

Question

안녕하세요, 수업 잘 수강하고 있습니다. 다름이 아니라 GROUP BY가 조금 헷갈려서 질문드립니다. leetcode 182. Duplicate Emails를 예시를 들어 질문드립니다.  SELECT * FROM Person GROUP BY Email 이런식으로 Email로 groupby를 하게되고 같은 email을 가진 row끼리 묶이면서 count(email)등 등 연산을 할 수 있는 것으로 알고 있는데, groupby Email로 했는데 count(id)는 어떻게 동작되는지 궁금합니다. Email기준으로 groupby했는데 count(id)를 할 수 있는건가요?? Email기준으로 groupby 했을때 count(id), count(*), count(Email)의 차이점이 궁금합니다.

Answer

그룹을 묶는 기준이 되는 컬럼을 GROUP BY 절에 쓰고, 데이터 수를 세는 연산의 대상이 되는 컬럼을 COUNT() 안에 씁니다.
COUNT(*)은 row(행)의 개수를 의미합니다.

위 테이블에서 데이터를 조회하기 위해 다음과 같은 쿼리를 써 봅시다.

SELECT Email, COUNT(Id), COUNT(*), COUNT(Email)
FROM Person
GROUP BY Email

이 쿼리는 Email 값이 같은 것끼리 그룹을 지은 후, 각 그룹 내에서 Id 개수, row 개수, Email 개수를 세서 Email 값과 함께 출력해 달라는 뜻이므로, 다음과 같은 결과가 나옵니다.

a@b.com | 2 | 2 | 2
c@d.com | 1 | 1 | 1

이것은 중복값을 제외하지 않은 결과로, a@b.com 그룹의 Email 컬럼 값들이 a@b.com으로 동일하지만 데이터 수가 총 2개이므로 COUNT(Email) 값을 2로 출력합니다.

중복값을 제외하고 싶을 때는 DISTINCT를 함께 써 줘야 합니다.

SELECT Email, COUNT(DISTINCT Id), COUNT(*), COUNT(DISTINCT Email)
FROM Person
GROUP BY Email

a@b.com | 2 | 2 | 1
c@d.com | 1 | 1 | 1

Answer

감사합니다. 개념이 좀 더 명확해진거같네요!

녕나

GROUP BY 질문입니다

이 글과 비슷한 Q&A

인덱스? 파티셔닝? 관련 문의 드립니다

11gR2 에서 REAL_ORD 테이블 생성시 DEFAULT 시퀀스 문제

5-6 JOIN 연습문제 6번

SQL 설치 오류