강의에서 multinode 환경에서 spark 를 이용하는 예가 포함이 되어있나요?

Question

안녕하세요, 자세한 강의 감사드려요. 현재 강의 초반을 수강중이고, databricks 환경에서 실습을 하고 있습니다. 저는 spark를 이용해 클러스터를 구성해서 singlenode보다 mulinode에서 연산을 진행해서 속도가 빨라지는걸 확인하고 싶은데 그 부분이 강의 뒷부분에 포함되어있는지, 혹시 안되어있다면 조언주실 수 있는지 문의드립니다. 감사합니다.

권 철민 · Answer

안녕하십니까, databricks community edition은 싱글 노드만 무상으로 지원합니다. 때문에 멀티 노드 테스트는 강의에 포함되어 있지 않습니다. 어떤 조언을 좀 더 상세히 말씀해 주시면 좋지만, 지금 드릴 수 있는 말씀은 멀티 노드로 하면 데이터 처리가 확실히 빨라집니다. 그런데 노드를 많이 늘린다고 데이터 처리가 선형적으로 늘어나지는 않습니다. 특히 조회하고자 하는 업무 데이터가 여러 노드에 확실하게 분산되어 있다면 모르지만, 모든 업무 테이블을 모두 병렬 분산 처리를 최적화 하면서 노드별로 분산하기는 어렵습니다. 왜냐하면 분산하려는 파티션키와 업무 테이블간의 조인 키, Group by키가 서로 다른 경우가 있기 때문에 조인이나 group by 시 데이터가 노드간에 이동해야 하기 때문입니다. 하지만 이러한 제약은 Spark와 같은 병렬 분산 시스템은 공통적으로 안고 있는 사항이고, 정리해서 말씀 드리면 멀티 노드로 하면 데이터 처리가 확실히 빨라집니다. 감사합니다.