SUM() 함수 문의

Question

안녕하세요- 리트코드 1179 Reformat Department Table 문제 풀이에서 SUM() 을 왜 사용하는건가요? ㅠ.ㅠ 선생님 해설 이전에 sum 을 사용하지 않고 코드를 실행했더니 jan 값이 두개가 null 이 출력되면서 오답이라고 떴는데, 여기서 왜 SUM 함수를 사용해야 제대로된값이 출력되는지 흐름이 이해가안됩니다 ㅠ_ㅠ

윤선미 · Answer

CASE 의 속성과 GROUP BY 의 속성을 따로 이해하면 좋을 것 같아요. CASE는 데이터를 순서대로 조회하면서, IF 조건에 맞는다면 THEN 뒤의 값을 넣고, 그렇지 않으면 ELSE 값을 넣는 역할을 수행해요. 그래서 맨 먼저 아래 쿼리를 실행해서 CASE의 아웃풋이 어떻게 나오는지 확인을 해보셨으면 좋겠어요. SELECT id , CASE WHEN month = 'Jan' THEN revenue ELSE NULL END AS Jan_Revenue , month , revenue FROM DEPARTMENT 부서 id가 어떤 값을 가지든지 상관 없이 month = 'Jan' 이라면 revenue를 넣어주고, 그렇지 않으면 NULL 값을 넣기 때문에 아래와 같이 아웃풋이 나올거예요. id Jan_Revenue month revenue 1 8000 "Jan" 8000 1 null "Feb" 7000 1 null "Mar" 6000 여기에서 두번째 그리고 세 번째 행은 부서 id는 1번이지만, month가 "Jan"이 아니기 때문에 7000, 6000인 revenue 값 대신 CASE 문을 통해 null로 표현을 해줬죠. 여기에서 GROUP BY를 id를 기준으로 수행해준다면 어떤 결과가 나올까요? SELECT id , SUM( CASE WHEN month = 'Jan' THEN revenue ELSE NULL END) AS example FROM DEPARTMENT GROUP BY id 라고 한다면, 8000, null, null 값들 중 SUM() 함수는 null을 무시하므로 최종적인 값은 아래와 같이 나올거예요 id example 1 8000 이렇게 CASE 문은 month = 'Jan' 에 해당되지 않는 값들을 null로 표시하고, SUM(), AVG() 같은 집계함수는 null 들을 무시하고 연산을 수행하면서 결국 id, month 조건에 딱 맞는 값만 출력되게 한다고 역할을 나누어서 생각하시면 좋을 것 같네요 :) 답변이 도움이 되었으면 좋겠네요. SQL을 오래 사용하신 분들도 잘 헷갈려하는 파트니까 곰곰히 하나씩 뜯어가면서 쿼리 실행해보고 감을 잡으셨으면해요.

hyemin · Answer

다른 분의 질문에 죄송합니다. 저도 비슷한 궁금증이 있었는데 덕분에 해결되었어요! 그런데 추가질문이 있어 이렇게 글을 남깁니다 ㅠㅠ 제가 느끼기로는 mysql 자체에서 GROUP BY를 실행할 경우, 한 카테고리에 여러 값이 있을 때 맨 위의 값만 출력하는 경우가 종종 있는 것 같더라고요. 예를 들어 해당 문제에서, id로 GROUP BY를 실행할 경우 단순히 revenue와 month를 출력하라고 명령했을 때 맨 위의 revenue 8000, month Jan만 출력합니다. SELECT id,revenue,month FROM DEPARTMENT GROUP BY id 이 경우 출력되는 값은 {"headers": ["id", "revenue", "month"], "values": [[1, 8000, "Jan"], [2, 9000, "Jan"], [3, 10000, "Feb"]]} 이렇게요. 그러니까 id =1 인 revenue 7000 month Feb나 revenue 6000 month Mar는 아예 출력되지 않는 것 같습니다. 이게 인터프리터 오류인지 혹은 원래 그렇게 설계된 것인지는 모르겠으나, 이러한 현상이 다른 때에도 종종 발생하는 경우를 접했습니다. 어쨌든 이러한 현상 때문에 SUM과 같은 집계함수를 해야하는 것 같는데, 혹시 맞나요? 아까의 예를 다시 설명하자면, 아까와 같은 코드로 하되 revenue가 아닌 SUM(revenue)를 출력하면 {"headers": ["id", "SUM(revenue)", "month"], "values": [[1, 21000, "Jan"], [2, 9000, "Jan"], [3, 10000, "Feb"]]} 이렇게 정상적으로 전체 revenue 값이 출력되는 것처럼요. 정리하자면 GROUP BY 함수를 사용할 때 맨 위의 데이터만 출력하는 현상이 존재하고, 집계함수를 사용하여 데이터를 전체적으로(?) 한번 더 읽어주는 것이 맞나요? 또 이걸 작성하면서 생긴 궁금증인데.. SELECT문에서 CASE WHEN month='Jan' THEN revenue ELSE NULL END 을 사용함으로써 ID로 GROUP BY된 테이블 속 Jan가 아닌 데이터들의 revenue 값이 다 NULL로 표시하는데요, 이는 원래의 department 자체를 변화시키는 건 아닌거죠? raw data를 가져오기만 하는 것이 맞나요?

크루하학 · Answer

이해하기 쉽게 설명해주셔서 감사합니다 + ㅅ +!!

크루하학 · Answer

넵 에러가 날때의 SQL 코드 (오답 코드) SELECT id , CASE WHEN month = 'Jan' THEN revenue ELSE NULL END AS Jan_Revenue , CASE WHEN month = 'Feb' THEN revenue ELSE NULL END AS Feb_Revenue , CASE WHEN month = 'Mar' THEN revenue ELSE NULL END AS Mar_Revenue , CASE WHEN month = 'Apr' THEN revenue ELSE NULL END AS Apr_Revenue , CASE WHEN month = 'May' THEN revenue ELSE NULL END AS May_Revenue , CASE WHEN month = 'Jun' THEN revenue ELSE NULL END AS Jun_Revenue , CASE WHEN month = 'Jul' THEN revenue ELSE NULL END AS Jul_Revenue , CASE WHEN month = 'Aug' THEN revenue ELSE NULL END AS Aug_Revenue , CASE WHEN month = 'Sep' THEN revenue ELSE NULL END AS Sep_Revenue , CASE WHEN month = 'Oct' THEN revenue ELSE NULL END AS Oct_Revenue , CASE WHEN month = 'Nov' THEN revenue ELSE NULL END AS Nov_Revenue , CASE WHEN month = 'Dec' THEN revenue ELSE NULL END AS Dec_Revenue FROM DEPARTMENT GROUP BY id ----- 위 SQL문 Output { "headers": ["id", "Jan_Revenue", "Feb_Revenue", "Mar_Revenue", "Apr_Revenue", "May_Revenue", "Jun_Revenue", "Jul_Revenue", "Aug_Revenue", "Sep_Revenue", "Oct_Revenue", "Nov_Revenue", "Dec_Revenue"], "values": [ [1, 8000, null, null, null, null, null, null, null, null, null, null, null], [2, 9000, null, null, null, null, null, null, null, null, null, null, null], [3, null, 10000, null, null, null, null, null, null, null, null, null, null] ]} ------- ------ Expected { "headers": ["id", "Jan_Revenue", "Feb_Revenue", "Mar_Revenue", "Apr_Revenue", "May_Revenue", "Jun_Revenue", "Jul_Revenue", "Aug_Revenue", "Sep_Revenue", "Oct_Revenue", "Nov_Revenue", "Dec_Revenue"], "values": [ [1, 8000, 7000, 6000 , null, null, null, null, null, null, null, null, null], [2, 9000, null, null, null, null, null, null, null, null, null, null, null], [3, null, 10000, null, null, null, null, null, null, null, null, null, null]] } 위 결과물처럼 1번 Row 의 revenue 2번, 3번 값이 7000, 6000 이 들어가는게 아닌 null 이 들어갑니다, 해서 선생님 해설대로 SUM 으로 감싸주었을때는 null 이 아니라 7000,6000 이 출력되면서 정답처리 되는데요! 여기서 어려운것이.. 저는 시나리오를 아래처럼 생각했는데, Table의 모든 행을 CASE WHEN month = 'Jan' THEN revenue ELSE NULL END AS Jan_Revenue 문으로 돌면서, month 가 Jan 인 Revenue 값을 가져오기 때문에, 별도의 SUM 함수가 없어도 알아서 7000, 6000 의 값이 들어갈것이다 그런데 첫번째 값인 8000 을 제외하고는 왜 null이 들어가고, 이걸 해결하기 위해 왜 SUM(), MAX() 등의 함수로 처리해야 하는지 이해가 어렵습니다 ㅠ -- 이하 문제에서의 Table Department table: +------+---------+-------+ | id | revenue | month | +------+---------+-------+ | 1 | 8000 | Jan | | 2 | 9000 | Jan | | 3 | 10000 | Feb | | 1 | 7000 | Feb | | 1 | 6000 | Mar | +------+---------+-------+

윤선미 · Answer

가빈님, 안녕하세요! 테이블 피봇 문제가 원래 좀 어려워요ㅎㅎ 근데 제가 가빈님이 어떤 코드를 작성했을 때에 어떤 에러가 났는지 알 수가 없어서 혹시 에러가 날 때의 SQL 코드와, 결과값을 올려주실 수 있을까요? 그리고 그 코드가 어떤 결과를 출력할거라고 예상하셨는지 예상 output도 같이 적어주시면 좋겠어요.