v3.x버전부터는 replica개념이 없어진건가요?

Question

클러스터(여러서버군, 여러노드들)에 분산처리하는 다수의 대량 중복 디스크를 가지기보다는 여러대의 디스크에 균형을 이루어 여러대의 디스크에 입출력을 작업하도록 이뤄지게 되어있다. 라고 말씀하셨는데 대량데이타를 나눠서 여러블록에 저장하고 또 중복으로 copy해서 가지고 있는게 2.x이라면 3.x 버전에는 erasure개념으로 replica개념이 없이 즉, 중복저장되지 않고 그냥 균형있게 각각 여러 그리드내 블럭에 분산저장된다고 보면 되는건가요? 그렇게 되면 네임노드로부터 메타데이타를 읽고 데이타 노드에 가서 읽고 쓰기할때 메카니즘또한 많이 바뀌게 되겠네요?

Billy Lee · Answer

odark 님에게 이는 복제 관리 메커니즘이라고 말을 합니다. 하둡 아키텍쳐 핵심요소 두번째인 복 제 관리 메커니즘 Replication management과 Rack Awareness 강의에 자세히 나와 있습니다. 렉과 블럭 개념을 설명하면서 렉은 하둡 클러스트 내에 여러 스토리지로 나누어 있으며 이들은 네임노드들이나 데이터노드들이 될 수 있죠. 그렇기에 그 렉들은 하나 하나 노드들을 가지고 있죠. 데이터 노느들은 파일 블럭 내용과 레프리카(Replica)들을 저장하고 있습니다. Replica 개념이 없는 것이 아니죠. 아래 그림처럼요. 이해가 되셨으면 합니다. 여러 그리드 내에 블럭에 분산처리된다는 의미는 맞구요. 네임노드로부터 메타데이터를 읽고 나서야 비로서 데이터 노드로 찾아서 관련 데이터를 찾거나 읽게 됩니다. 데이터노드를 찾을 때는 당연히 IP주소를 찾아서 읽거나 쓰게 됩니다. 답변이 되었으면 합니다. 토론토에서 빌리 올림