inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

모르면 야근하는 문자 인코딩 완전 정복

엔디안과 BOM

utf-8과 리틀 빅 엔디안은 관계없나요?

해결된 질문

125

김호균

작성한 질문수 4

0

utf-8에서 맨 앞에 1의 개수를 확인하고 이 데이터는 몇 바이트짜리구나. 라고 알 수 있다고 하셨잖아요.
그럼 빅엔디안에서는 시작하는 바이트의 값을 보고 확인 할 수 있는데, 리틀엔디안에서는 어디가 시작하는 바이트인지 명확하지 않게 되는거 같아요.
내가 사용하는 시스템(윈도우, 리눅스)?에 따라 내부적을 알아서 작동하는건가요?
10으로 시작하지 않는 바이트를 찾아서 이게 '시작바이트구나' 하고 여기서부터 거꾸로 읽어들이는 식인가요?

java utf-8 endian

답변 2

0

널널한 개발자

인프런 AI 답변을 참고하시면 되겠습니다. 😄

0

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다.

김호균님, UTF-8 인코딩과 엔디안(Endian)은 서로 다른 개념으로, UTF-8은 바이트 순서에 의존하지 않는 문자 인코딩 방식입니다. UTF-8은 가변 길이 인코딩 방식으로, 각 문자에 대해 첫 번째 바이트의 패턴을 통해 바이트 길이를 파악할 수 있습니다. 예를 들어, UTF-8에서 1바이트 문자는 0xxx xxxx 형태를 가지며, 다바이트 문자일수록 앞자리 1의 개수가 늘어납니다.

엔디안(Endian)은 주로 숫자 데이터를 저장하는 방식에서 사용하는 개념으로, 데이터의 바이트 순서에 영향을 미칩니다. 빅 엔디안은 가장 중요한 바이트를 앞에 두고, 리틀 엔디안은 가장 중요한 바이트를 뒤에 두는 방식입니다. 숫자 데이터 저장 시에 문제가 되는 것이지, UTF-8에서는 바이트의 순서를 따로 변경할 필요가 없습니다.

즉, UTF-8 인코딩에서는 특정한 바이트의 위치가 아닌 바이트의 패턴으로 문자의 시작을 판단하기 때문에, 엔디안 방식이 달라도 그런 식으로 처리할 필요가 없습니다.

추가로, 영어와 같은 아스키(ASCII) 문자는 UTF-8에서도 그대로 유지되며, 엔디안과 상관없이 해석이 가능합니다. 시스템(윈도우, 리눅스 등)도 UTF-8을 동일하게 처리하게 설계되어 있습니다.

관련된 더 자세한 설명과 예시는 다음 글을 참고하시면 도움이 될 것입니다:
- “무엇이 UTF-8을 대체할 수 없는가”

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

실무 내용 문의드려요

0

11

2

IO활용-회원관리예제1 샘플코드 문의

0

6

1

join에대해 질문드립니다.

0

11

1

pg사가 있다고 가정하면

0

18

1

중급 1편 학습 방향에 대해 조언 부탁드립니다

0

28

1

To-Do App

0

24

1

강의노트 접속 불가

0

20

2

Kafka Cluster 구성도 질문

0

19

1

26년 1회차 기출 강의

0

43

2

기출문제

0

52

1

정보처리기사 실기 zip

0

43

2

답을언제쯤받아볼수있나요

0

48

2

데이터베이스 노션

0

37

2

형 책 어떻게 받아?

1

58

1

PPT 자료 공유 받을 수 있을까요?

0

31

1

@JsonIgnore 이후 Internal Server Error가 발생하지 않습니다.

0

33

2

수업노선자료파일 다운

0

34

2

5~9까지 램덤숫자출력

0

31

1

프로젝트가 없어요..

0

56

2

C언어에서

0

55

1

writeUTF 메서드로 생성된 파일 읽기

0

60

2

코글 인코딩이 뭔가요?

0

92

2

질문입니다.

0

63

2

Modified UTF-8에서 문자열의 길이 제한이 있나요?

0

108

1