스플릿 bolt와 hbase bolt 구조에 대한 질문입니다.

Question

본 구조에서는 hbase bolt 와 스플릿 bolt를 두개로 나누어서 작업을 진행하셨는데, 한번에 처리하지 않으신 이유가 있으신가요? 만약에 특정한 이유로 job을 나누신거라면, 그렇게 나눌때의 기준은 어떻게 되는지 이런 시스템을 구성할 때에 어떤 단위로 job을 나누는 것이 가장 효율적인지 궁금합니다.

jmarple.kr · Answer

답변을 너무 늦게 확인했습니다. 친절한 답변 감사합니다 :)

Big.D · Answer

안녕하세요! 빅디 입니다. 아주 어려운 질문을 주셨네요...^^; "jmarple.kr" 님이 말대로..SplitBolt 와 HBaseBolt를 하나로 구성해도 괜찮습니다. 다만 파일럿 환경에선 스톰의 토폴로지가 여러 Bolt들의 조합으로 구성 됨을 보여준 것이고, 이를위해 들어온 메세지를 파싱하는 하는 볼트와 그 결과를 HBase로 저장하는 볼트로 나눈것뿐 입니다. 하지만..생각하신 것처럼, 스톰은 이런 단순 처리 이상으로 토폴로지를 구성 할 수 있습니다. 실시간으로 집계, 조인, 그룹핑, 필터링, 라우팅 등의 데이터 처리를 위한 기능을 제공하는 데요.. 예를들면, 차량번호 별로 실시간 집계가 필요하거나, 운행지역별로 저장소/테이블 등을 분리 구성 하거나, 역할별로 볼트의 크기(갯수)를 다르게 생성 한다거나, (연산이 많이 필요한 볼트는 병렬로 펼치고, 각 볼트의 결과는 하나의 볼트로 모은다거나..) 활용과 그에따른 아키텍처를 다양 하게 구성할 수 있습니다. 스톰의 핵심은 대규모 분산환경에서 위와같은 기능과 고가용성 등을 프레임워크로 제공하고, 엔지니어는 데이터 처리에 좀더 집중할 수 있도록 하는데 있습니다. 개인적으로 실시간 스트림 데이터 처리 기술은 아키텍처링과 구현에 있어 난이도가 있습니다. 대신 엔터프라이즈 환경에선 그 이상의 가치를 만들어 내는 핵심 시스템이 되기도 합니다. 관련해 Spark Streaming도 참고해 보시면 좋습니다. - 빅디 드림