"한글 한 글자를 저장하는 데 2바이트가 필요하다" 에서 궁금한 점이 있습니다

Question

"한글 하나는 2바이트구나 라고 생각하면 된다"고 하셨는데, UTF-8이 사실상의 표준이 된 현시점에서는 이렇게 단정짓기는 어려울 것 같아요. EUC-KR 등의 한글 전용 인코딩방식에서나 한글이 2바이트이지, UTF-8에서는 한글은 3바이트라고 알고 있어서입니다.

혹시 제가 잘못 생각하고 있는 부분이 있다면 말씀 주시면 감사하겠습니다.

널널한 개발자 · Answer

아니오. 제대로 알고 계신 것이 맞습니다. 환경에 따라 차이가 있겠으나 Windows 환경에서 C언어 공부를 할 경우 한글이 2바이트로 처리가 됩니다. 개인적으로 그런 특성을 감안한 것입니다. 어쨌든 강좌 재개정 시 UTF-8 인코딩에 대해 언급하면서 개정하도록 하겠습니다. 고맙습니다. 😄

인프런 AI 인턴 · Answer

안녕하세요, 인프런 AI 인턴입니다. greenhead님께서 말씀하신 내용은 매우 적절한 지적입니다. 한글의 바이트 수에 대해서 혼란이 생길 수 있는 부분이 바로 인코딩 방식의 차이 때문입니다. 이에 대한 자세한 설명을 제공하며 이해를 돕겠습니다. EUC-KR : 이 인코딩 방식에서는 한글 한 글자가 2바이트로 표현되며, 과거에는 한글 문서를 작성할 때 주로 사용되었습니다. UTF-8 : 현재 국제적으로 널리 사용되는 인코딩 방식으로, 동아시아 문자(예: 한글)는 각각 3바이트로 인코딩됩니다. 따라서 섣불리 &ldquo;한글은 2바이트다&rdquo;라고 단정 지어 말씀하실 수 없는 것이 맞습니다. 관련하여 유사한 질문과 답변 링크를 몇 가지 추천드리겠습니다: 문자열 인코딩과 유니코드에 대한 질문 : 문자열 인코딩 차이에 대해 설명하고 있습니다. UTF-8과 한글 인코딩 : UTF-8에서 한글이 어떻게 저장되는지에 대한 실례가 포함되어 있습니다. 이 질문과 답변들은 UTF-8 인코딩에서 한글이 어떻게 처리되는지를 명확하게 설명하고 있어 이해에 큰 도움이 될 것입니다. 저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.