인프런 커뮤니티 질문&답변
플럼 vs 카프카
작성
·
374
답변 1
2
안녕하세요! 빅디 입니다.
플럼과 카프카는 서로 다른 용도로 사용 됩니다.
플럼은 데이터를 수집 하는 소프트웨어 이고,
카프카는 메시지 Queue 역할을 하는 소프트웨어 입니다.
진행중인 파일럿 프로젝트에서는 스마트카에서 발생한 데이터를 빅데이터에 저장한 후,
분석 하는 시스템을 구축 하게 됩니다.
이때 스마트카에서 두개 유형의 데이터가 발생 되는데요..
1. File 데이터 - 하루에 한번 생성되는 큰 파일의 데이터
2. 로그 데이터 - 실시간으로 발생하는 작은 메세지 데이터
플럼은 위 두개 유형의 데이터를, 특성에 따라 다른 방식으로 처리 합니다.
그중 뱀뱀님께서 궁금해 하신건 2번 로그 데이터 처리 과정에 플럼과 카프카의 역할 인데요..
(참고로, 1번 파일 데이터 처리 할때는 카프카를 사용하지 않습니다.)
스마트카에서 발생한 위 2번 유형의 데이터를 빅데이터 옮기는(전송) 역할을 플럼이 하게 됩니다.
즉 실제 스마트카라면, 플럼은 스마트카안에 설치 되어, 스마트카에서 생성 되는 데이터를 수집하고,
이를 빅데이터 시스템으로 전송하는 역할을 합니다.
이때 플럼이 수집/전송한 데이터를 빅데이터 시스템 어디에선가 받아줘야 하는데요,
카프카가 플럼이 전송한 데이터를 받아주는 역할을 하게 됩니다.
뱀뱀님께서 문의 하신 내용은 섹션 3,4 과정의 실습을 해보셔야 정확히 이해 하실 수 있는 내용입니다.
환경구성 단계에선 이정도만 이해 하시고 넘어 가셔도 좋을듯 싶습니다. - 빅디 올림
안녕하세요! 빅디 입니다.
1번 대용량 File 데이터를 처리할 때도 카프카를 사용할 수 있습니다.
반대로 2번 실시간성 로그 데이터를 처리할 때 카프카를 사용하지 않아도 됩니다.
하지만 수집/적재시 원천에서 발생 하는 데이터의 특성(크기, 속도)과 요구사항(처리/분석시간) 에 따라 효율성과 안정성등을 고려해 아키텍처를 최적화 해야 합니다.
1번 파일 데이터 처리 요건은요,
하루에 한번만 전송 하고, 전송 실패시 재전송하면 되고, 쌓았다가 한꺼번에 분석 하고..
요래서 코스트 높은 카프카까진 사용할 필요가 없습니다.
- 빅디 드림





제가 이전 강의들에서 놓친 걸수도 있는데요. 위 글에서 1번 파일 데이터 처리 할때 카프카를 사용하지 않는다고 하셨는데 왜 카프카를 사용하지 않는건지 알고싶습니다.