• 카테고리

    질문 & 답변
  • 세부 분야

    데이터 분석

  • 해결 여부

    미해결

GROUP BY 질문입니다

21.07.23 00:44 작성 조회수 143

1

안녕하세요, 수업 잘 수강하고 있습니다.
다름이 아니라 GROUP BY가 조금 헷갈려서 질문드립니다.
leetcode 182. Duplicate Emails를 예시를 들어 질문드립니다.
SELECT *
FROM Person
GROUP BY Email
이런식으로 Email로 groupby를 하게되고 같은 email을 가진 row끼리 묶이면서 count(email)등 등 연산을 할 수 있는 것으로 알고 있는데, groupby Email로 했는데 count(id)는 어떻게 동작되는지 궁금합니다.
Email기준으로 groupby했는데 count(id)를 할 수 있는건가요??
Email기준으로 groupby 했을때 count(id), count(*), count(Email)의 차이점이 궁금합니다.

답변 2

·

답변을 작성해보세요.

2

그룹을 묶는 기준이 되는 컬럼을 GROUP BY 절에 쓰고, 데이터 수를 세는 연산의 대상이 되는 컬럼을 COUNT() 안에 씁니다. 
COUNT(*)은 row(행)의 개수를 의미합니다.

위 테이블에서 데이터를 조회하기 위해 다음과 같은 쿼리를 써 봅시다.

SELECT Email, COUNT(Id), COUNT(*), COUNT(Email)
FROM Person
GROUP BY Email

이 쿼리는 Email 값이 같은 것끼리 그룹을 지은 후, 각 그룹 내에서 Id 개수, row 개수, Email 개수를 세서 Email 값과 함께 출력해 달라는 뜻이므로, 다음과 같은 결과가 나옵니다.

a@b.com | 2 | 2 | 2
c@d.com | 1 | 1 | 1

이것은 중복값을 제외하지 않은 결과로, a@b.com 그룹의 Email 컬럼 값들이 a@b.com으로 동일하지만 데이터 수가 총 2개이므로 COUNT(Email) 값을 2로 출력합니다.

중복값을 제외하고 싶을 때는 DISTINCT를 함께 써 줘야 합니다. 

SELECT Email, COUNT(DISTINCT Id), COUNT(*), COUNT(DISTINCT Email)
FROM Person
GROUP BY Email

a@b.com | 2 | 2 | 1
c@d.com | 1 | 1 | 1

0

녕나님의 프로필

녕나

질문자

2021.07.26

감사합니다. 개념이 좀 더 명확해진거같네요!