스플릿 bolt와 hbase bolt 구조에 대한 질문입니다.
190
작성한 질문수 1
본 구조에서는 hbase bolt 와 스플릿 bolt를 두개로 나누어서 작업을 진행하셨는데, 한번에 처리하지 않으신 이유가 있으신가요?
만약에 특정한 이유로 job을 나누신거라면, 그렇게 나눌때의 기준은 어떻게 되는지
이런 시스템을 구성할 때에 어떤 단위로 job을 나누는 것이 가장 효율적인지 궁금합니다.
답변 2
0
안녕하세요! 빅디 입니다.
아주 어려운 질문을 주셨네요...^^;
"jmarple.kr" 님이 말대로..SplitBolt 와 HBaseBolt를 하나로 구성해도 괜찮습니다.
다만 파일럿 환경에선 스톰의 토폴로지가 여러 Bolt들의 조합으로 구성 됨을 보여준 것이고,
이를위해 들어온 메세지를 파싱하는 하는 볼트와 그 결과를 HBase로 저장하는 볼트로 나눈것뿐 입니다.
하지만..생각하신 것처럼, 스톰은 이런 단순 처리 이상으로 토폴로지를 구성 할 수 있습니다.
실시간으로 집계, 조인, 그룹핑, 필터링, 라우팅 등의 데이터 처리를 위한 기능을 제공하는 데요..
예를들면, 차량번호 별로 실시간 집계가 필요하거나,
운행지역별로 저장소/테이블 등을 분리 구성 하거나,
역할별로 볼트의 크기(갯수)를 다르게 생성 한다거나,
(연산이 많이 필요한 볼트는 병렬로 펼치고, 각 볼트의 결과는 하나의 볼트로 모은다거나..)
활용과 그에따른 아키텍처를 다양 하게 구성할 수 있습니다.
스톰의 핵심은 대규모 분산환경에서 위와같은 기능과 고가용성 등을 프레임워크로 제공하고,
엔지니어는 데이터 처리에 좀더 집중할 수 있도록 하는데 있습니다.
개인적으로 실시간 스트림 데이터 처리 기술은 아키텍처링과 구현에 있어 난이도가 있습니다.
대신 엔터프라이즈 환경에선 그 이상의 가치를 만들어 내는 핵심 시스템이 되기도 합니다.
관련해 Spark Streaming도 참고해 보시면 좋습니다. - 빅디 드림
주제영역3 데이타 조회 문의
0
57
2
환경 세팅 후 클라우데라매니저 삭제시
0
81
2
수강 기간 연장 부탁드립니다ㅠ
0
79
2
클라우데라 매니저 접속 불가 및 로그인 정보 문의
0
99
2
gcc 설치 에러
0
137
3
클러스터 설정 오류
0
107
2
클라우데라 클러스터 설치로 안넘어가짐
0
126
2
버추어박스 5.0 설치
0
155
2
워크플로우 예약 실행시 테이블은 생성되는데 데이터가 들어가지지 않습니다.
0
92
2
Hue 500 Error 어떻게 해결할 수 있나요?
0
162
3
환경세팅 질문있습니다.
0
114
2
버쥬얼박스
0
83
2
호스트 불량 문제에 관하여
0
113
2
하이브쿼리에서 에러가 나요...
0
184
3
하이브쿼리에서 에러
0
129
1
Hbase에 적재된 데이터 확인시 에러
0
159
2
파이썬 설치 시 에러
0
170
2
redis-cli 데이터 적재 확인
0
144
2
카프카 토픽 생성에서 에러
0
146
2
HDFS 명령어를 치는데 오류가 납니다
0
139
2
가상환경 내보내기
0
113
1
SpoolDIR 폴더로 옮기
0
113
2
cpu usage 에러
0
114
2
쿼리 실행시 10000 에러
0
129
2





