물리샤드, 논리샤드 번호 질문입니다!

Question

안녕하세요! 다른 분 질문에 대한 답변을 보고 기본적인 의구심은 해소되었는데요. 혹시 몰라 확인차 여쭙습니다. 09:38 피피티에서요. 나머지 연산을 이용해서 물리샤드, 논리샤드를 구분하셨잖아요. 제가 이해하기로 나머지가 0이면 1번 샤드, 1이면 2번 샤드...이렇게 의도하시려고 했던 것 같아요. https://inf.run/7i72V 여기에서 답변해주신 것과 피피티의 샤드 번호 현황?이 달라서 조금 혼란스러웠습니다. 링크 답변을 보면 아주 간단한 샤딩 예시였지만, 물리 샤드가 두 개일 때 % 2를 적용하면 1번 샤드(나머지 연산결과 +1)에는 article_Id가 [2, 4, 6, 8]이 들어가고 2번 샤드에는 [1, 3, 5, 7]이 들어갈 테죠. 논리 샤드 기준으로는 1번 논리샤드 = [4, 8] 2번 논리샤드 = [1, 5] 3번 논리샤드 = [2, 6] 4번 논리샤드= [3, 7] 1번 물리 샤드에는 1, 3번 논리 샤드 2번 물리 샤드에는 2, 4번 논리 샤드 (링크 답변과 동일한 분포) 이게 제가 위의 답변을 강의 자료에 적용해서 이해한 샤딩 현황입니다! 실제 프로덕션에서도 이렇게 샤딩하는지는 모르겠지만 교육 목적 상 간단한 해싱이었어도 제대로 이해하고 넘어가고 싶었습니다. PPT만 보고는 나머지 연산이 어떻게 사용된 건지 이해가 안 됐는데 답변 보고 이해가 돼서 확인 차 질문드렸습니다. 추가적으로 클라이언트는 논리 샤드만 알고 있다고 하셨는데 그럼 물리 샤드 번호는 물리적으로 나뉜 샤드를 구분하는 데만 사용하고 비즈니스 로직에서는 사용되는 일이 없을까요? 감사합니다.

쿠케 · Answer

literate_t님, 안녕하세요! 아주 예리한 질문이고, 혼란을 드려서 죄송하다는 말씀을 먼저 드리고 싶네요. 강의 자료의 hash function은 (article_id % 4) 연산으로 되어 있는데, 실제 결과는 그렇지 않게 표기되어 있습니다. 이러한 hash function으로 보았을 때, 실제로는 [1, 5], [3, 7], [2, 6], [4, 8]로 묶이는게 맞습니다. (샤드별 순서는 차치하더라도) 그래서 인프런 질문에 대한 답변으로 남겼던 것이 정확합니다..! 이 부분은 저도 이제서야 인지했네요, 여유될 때 수정해 두도록 하겠습니다! 제보 감사 드립니다. 추가적으로 클라이언트는 논리 샤드만 알고 있다고 하셨는데 그럼 물리 샤드 번호는 물리적으로 나뉜 샤드를 구분하는 데만 사용하고 비즈니스 로직에서는 사용되는 일이 없을까요? 표현에 대해 조금 더 짚고 넘어가면, DB 시스템이 아니라면 샤드 번호를 할당하는건 "비즈니스 로직"이라기 보단, "기술 구현 사항"으로 표현할 수 있습니다. 따라서, DB 자체가 비즈니스를 이루는 도메인이 아니라면, 물리 샤드 번호가 "비즈니스 로직"으로 사용될 일은 없다고 보면 될 것 같습니다. (이러한 관점에서는 논리 샤드 번호도 "비즈니스 로직"이라고 볼 수는 없습니다.) 물론, (DB 시스템이 아닌)클라이언트에서 물리 샤드를 알고, 기술 구현 사항으로 표현될 수는 있습니다. 위 관점에서 본다면, 질문에 대한건 "클라이언트 애플리케이션"에서의 사용 여부 질문으로 보이기도 합니다. 해당 내용은 구현하는 방법에 따라 달라질 것 같습니다. 강의에서는 실제 물리 샤드를 알려주는 장치로 샤드 라우터라는 표현이 있었는데요, 이러한 샤드 라우터가 어디에 구현되어 있는지에 따라 달라질 것 같습니다. 이러한 샤드 라우터는 클라이언트 애플리케이션에 구축될 수도 있고, 클라이언트 애플리케이션이 의존하는 라이브러리에 구축되어 있을 수도 있고, 데이터베이스에 구축되어 있을 수도 있고, 클라이언트 애플리케이션과 데이터베이스 사이에 추가적인 시스템(DB에 종속된 또는 범용적인)으로 구축되어 있을 수 있습니다. 몇 가지 예시를 들어보면, 레디스는 클라이언트 라이브러리에, mongo db는 별도 프로세스에 이러한 장치들이 포함되어 있습니다. 여기서 세부 사항까지 다루기 어렵지만, 구현 방법에 따라 모두 다를 수 있다는 점 언급 드립니다!

인프런 AI 인턴 · Answer

안녕하세요, 인프런 AI 인턴입니다. literate_t님. 샤딩을 이해하는 데 있어 물리적 샤드와 논리적 샤드의 구분은 데이터베이스의 확장성과 효율성을 높이는 중요한 개념입니다. 질문해 주신 내용과 관련하여, 샤딩의 동작 원리를 다시 한번 설명드리겠습니다. 샤딩의 기본 원리 논리적 샤드(Logic Shard) : 데이터를 논리적 그룹으로 나누는 것인데, 이 때 데이터의 분배를 결정하는 기준으로 나머지 연산을 사용할 수 있습니다. 예를 들어, 논리적 샤드 개수가 4개이고, 데이터의 article_Id 값이 있다고 하면, [1, 2, 3, 4, 5, 6, 7, 8] 을 각각 %4 연산하여 논리적 샤드에 분배하게 됩니다. 이때, 나머지가 0 이면 1번 논리샤드, 1 이면 2번 논리샤드&hellip; 식으로 나누어지게 됩니다. 물리적 샤드(Physical Shard) : 위의 논리적 샤드를 실제 물리적 서버에 매핑하는 과정입니다. 예를 들어, 물리적 샤드가 2개라면, 논리적 샤드의 결괏값 중 %2 연산을 통해 1번, 2번 물리적 샤드로 분배됩니다. 물리적 샤드 1번에는 1번, 3번 논리 샤드가, 물리적 샤드 2번에는 2번, 4번 논리 샤드가 매핑될 수 있습니다. 이 방법을 통해 데이터는 물리적 샤드에 적절히 분배돼서 처리 및 조회 시 성능 저하를 방지합니다. 교육상 예시로 간단한 해싱을 사용하면서도, 실제 프로덕션에서는 더 복잡한 해시 알고리즘 및 데이터 분배 기술을 사용하는 경우가 많습니다. 추가로 도움이 될 만한 유사 질문을 살펴보시려면, 아래 링크도 참조해보시면 좋겠습니다: 논리적 샤드를 구분 할 때 클라이언트의 해시 함수변경에 대하여 저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.