플럼 vs 카프카

Question

강의를 보다가 궁금한게 생겨 여쭤봅니다! 플럼과 카프카의 개념이 매우 비슷하여, 파일럿 프로젝트에서는 카프카만 쓰는것으로도 모든 기능을 쓸 수 있을 것 같은데 플럼을 쓰신 특별한 이유가 있나요? 아니면 단순히 하둡관련환경에서 최대한 많은 구성요소들을 적용해보려고 쓰신건가요? 덧붙여서, 어느때에 카프카대신 풀럼을 쓰는건지도 궁금합니다.

Big.D · Answer

안녕하세요! 빅디 입니다. 플럼과 카프카는 서로 다른 용도로 사용 됩니다. 플럼은 데이터를 수집 하는 소프트웨어 이고, 카프카는 메시지 Queue 역할을 하는 소프트웨어 입니다. 진행중인 파일럿 프로젝트에서는 스마트카에서 발생한 데이터를 빅데이터에 저장한 후, 분석 하는 시스템을 구축 하게 됩니다. 이때 스마트카에서 두개 유형의 데이터가 발생 되는데요.. 1. File 데이터 - 하루에 한번 생성되는 큰 파일의 데이터 2. 로그 데이터 - 실시간으로 발생하는 작은 메세지 데이터 플럼은 위 두개 유형의 데이터를, 특성에 따라 다른 방식으로 처리 합니다. 그중 뱀뱀님께서 궁금해 하신건 2번 로그 데이터 처리 과정에 플럼과 카프카의 역할 인데요.. (참고로, 1번 파일 데이터 처리 할때는 카프카를 사용하지 않습니다.) 스마트카에서 발생한 위 2번 유형의 데이터를 빅데이터 옮기는(전송) 역할을 플럼이 하게 됩니다. 즉 실제 스마트카라면, 플럼은 스마트카안에 설치 되어, 스마트카에서 생성 되는 데이터를 수집하고, 이를 빅데이터 시스템으로 전송하는 역할을 합니다. 이때 플럼이 수집/전송한 데이터를 빅데이터 시스템 어디에선가 받아줘야 하는데요, 카프카가 플럼이 전송한 데이터를 받아주는 역할을 하게 됩니다. 뱀뱀님께서 문의 하신 내용은 섹션 3,4 과정의 실습을 해보셔야 정확히 이해 하실 수 있는 내용입니다. 환경구성 단계에선 이정도만 이해 하시고 넘어 가셔도 좋을듯 싶습니다. - 빅디 올림