플럼 vs 카프카
376
작성한 질문수 1
강의를 보다가 궁금한게 생겨 여쭤봅니다!
플럼과 카프카의 개념이 매우 비슷하여, 파일럿 프로젝트에서는 카프카만 쓰는것으로도 모든 기능을 쓸 수 있을 것 같은데 플럼을 쓰신 특별한 이유가 있나요? 아니면 단순히 하둡관련환경에서 최대한 많은 구성요소들을 적용해보려고 쓰신건가요?
덧붙여서, 어느때에 카프카대신 풀럼을 쓰는건지도 궁금합니다.
답변 1
2
안녕하세요! 빅디 입니다.
플럼과 카프카는 서로 다른 용도로 사용 됩니다.
플럼은 데이터를 수집 하는 소프트웨어 이고,
카프카는 메시지 Queue 역할을 하는 소프트웨어 입니다.
진행중인 파일럿 프로젝트에서는 스마트카에서 발생한 데이터를 빅데이터에 저장한 후,
분석 하는 시스템을 구축 하게 됩니다.
이때 스마트카에서 두개 유형의 데이터가 발생 되는데요..
1. File 데이터 - 하루에 한번 생성되는 큰 파일의 데이터
2. 로그 데이터 - 실시간으로 발생하는 작은 메세지 데이터
플럼은 위 두개 유형의 데이터를, 특성에 따라 다른 방식으로 처리 합니다.
그중 뱀뱀님께서 궁금해 하신건 2번 로그 데이터 처리 과정에 플럼과 카프카의 역할 인데요..
(참고로, 1번 파일 데이터 처리 할때는 카프카를 사용하지 않습니다.)
스마트카에서 발생한 위 2번 유형의 데이터를 빅데이터 옮기는(전송) 역할을 플럼이 하게 됩니다.
즉 실제 스마트카라면, 플럼은 스마트카안에 설치 되어, 스마트카에서 생성 되는 데이터를 수집하고,
이를 빅데이터 시스템으로 전송하는 역할을 합니다.
이때 플럼이 수집/전송한 데이터를 빅데이터 시스템 어디에선가 받아줘야 하는데요,
카프카가 플럼이 전송한 데이터를 받아주는 역할을 하게 됩니다.
뱀뱀님께서 문의 하신 내용은 섹션 3,4 과정의 실습을 해보셔야 정확히 이해 하실 수 있는 내용입니다.
환경구성 단계에선 이정도만 이해 하시고 넘어 가셔도 좋을듯 싶습니다. - 빅디 올림
0
안녕하세요! 빅디 입니다.
1번 대용량 File 데이터를 처리할 때도 카프카를 사용할 수 있습니다.
반대로 2번 실시간성 로그 데이터를 처리할 때 카프카를 사용하지 않아도 됩니다.
하지만 수집/적재시 원천에서 발생 하는 데이터의 특성(크기, 속도)과 요구사항(처리/분석시간) 에 따라 효율성과 안정성등을 고려해 아키텍처를 최적화 해야 합니다.
1번 파일 데이터 처리 요건은요,
하루에 한번만 전송 하고, 전송 실패시 재전송하면 되고, 쌓았다가 한꺼번에 분석 하고..
요래서 코스트 높은 카프카까진 사용할 필요가 없습니다.
- 빅디 드림
주제영역3 데이타 조회 문의
0
30
2
환경 세팅 후 클라우데라매니저 삭제시
0
60
2
수강 기간 연장 부탁드립니다ㅠ
0
55
2
클라우데라 매니저 접속 불가 및 로그인 정보 문의
0
81
2
gcc 설치 에러
0
111
3
클러스터 설정 오류
0
83
2
클라우데라 클러스터 설치로 안넘어가짐
0
115
2
버추어박스 5.0 설치
0
135
2
워크플로우 예약 실행시 테이블은 생성되는데 데이터가 들어가지지 않습니다.
0
75
2
Hue 500 Error 어떻게 해결할 수 있나요?
0
145
3
환경세팅 질문있습니다.
0
102
2
버쥬얼박스
0
70
2
호스트 불량 문제에 관하여
0
104
2
하이브쿼리에서 에러가 나요...
0
163
3
하이브쿼리에서 에러
0
114
1
Hbase에 적재된 데이터 확인시 에러
0
145
2
파이썬 설치 시 에러
0
155
2
redis-cli 데이터 적재 확인
0
137
2
카프카 토픽 생성에서 에러
0
134
2
HDFS 명령어를 치는데 오류가 납니다
0
127
2
가상환경 내보내기
0
103
1
SpoolDIR 폴더로 옮기
0
96
2
cpu usage 에러
0
108
2
쿼리 실행시 10000 에러
0
116
2





