플럼 - 카프카 - 하둡 구조 질문입니다.

Question

안녕하세요. 좋은 강의 올려주셔서 감사합니다. 카프카 활용 방안 1을 보면서 문뜩 생각이 들어 질문 올립니다. 플럼 -> HBase 구조가 장애 발생 시 취약점이 있어 플럼 -> 카프카 -> HBase 구조를 쓰게 된다고 이해했습니다. 여기서 플럼과 카프카가 둘 다 수집 적재의 기능이 있다면 카프카->Hbase만 쓰면 될꺼같은데 굳이 플럼으로 수집하고 그걸 다시 카프카가 수집하는 구조로 만드는 이유가 궁금합니다.

Big.D · Answer

안녕하세요! 빅디 입니다. 처음에 관련 아키텍처로 많이들 궁금해 하십니다. ㅎㅎ 우선 각각의 역할을 단순화 해서 정의 하면 다음과 같습니다. * 플럼 : 데이터 수집기 * 카프카: 데이터 큐(토픽) 카프카는 수집 기능이 없다고 보시면 됩니다. 대신 원천에서 빠르게 발생 하는 대규모 메세지성 데이터가 최종 저장소(RDB or HBase 등)에 저장되는 과정에 데이터를 안전하게 처리 하기 위한 완충 장치가 필요하고, 이때 카푸카가 사용 됩니다. 카프카는 그냥 데이터가 들어오기만을 기다릴뿐 수집 기능은 없고, 데이터 특성에 따라 수집 단계 중간에 위치해 버퍼링 역할을 하게 됩니다. 다시말해 카프만 가지고는 데이터를 수집/적재 할 수 없습니다. 하지만 플럼만으로 가능합니다. 저는 카프카를 데이터의 휴게소 라고도 설명 하곤 합니다. 원천(출발지)에서 수집된 데이터가 최종 저장소(목적지)에 도착하기 전에 잠시 머물르는 휴게소에 비유 할 수 있기 때문 입니다. ^^ 수집/적재 파일럿 파트를 완료하면, 좀더 명확히 이해가 되실 겁니다. -빅디 드림

플럼 -> 카프카 -> 하둡 구조 질문입니다.