강의에서 multinode 환경에서 spark 를 이용하는 예가 포함이 되어있나요?
답변 1
0
안녕하십니까,
databricks community edition은 싱글 노드만 무상으로 지원합니다. 때문에 멀티 노드 테스트는 강의에 포함되어 있지 않습니다.
어떤 조언을 좀 더 상세히 말씀해 주시면 좋지만, 지금 드릴 수 있는 말씀은 멀티 노드로 하면 데이터 처리가 확실히 빨라집니다. 그런데 노드를 많이 늘린다고 데이터 처리가 선형적으로 늘어나지는 않습니다. 특히 조회하고자 하는 업무 데이터가 여러 노드에 확실하게 분산되어 있다면 모르지만, 모든 업무 테이블을 모두 병렬 분산 처리를 최적화 하면서 노드별로 분산하기는 어렵습니다.
왜냐하면 분산하려는 파티션키와 업무 테이블간의 조인 키, Group by키가 서로 다른 경우가 있기 때문에 조인이나 group by 시 데이터가 노드간에 이동해야 하기 때문입니다.
하지만 이러한 제약은 Spark와 같은 병렬 분산 시스템은 공통적으로 안고 있는 사항이고, 정리해서 말씀 드리면 멀티 노드로 하면 데이터 처리가 확실히 빨라집니다.
감사합니다.
강사님 안녕하세요 ㅎdatabricks환경에 대한 설
0
63
3
데이터 브릭스 이슈
0
111
2
데이터 브릭스 가입
0
98
2
pyspark local 설치
0
101
2
community edition 가입 문의
0
113
2
데이터 로드 및 로딩 된 파일 데이터 목록 조회 방
0
171
2
클러스터 버전 설정
0
136
3
instacart market basket analysis
0
188
3
spark 추가 학습 관련 질문
0
235
2
MLOps 관련 MLFLow 및 Databricks 모델 서빙
0
404
1
train파일 업로드 중에 해당 경로가 없다고 뜹니다
0
376
2
강의가 재생되지 않음
0
266
2
후속 강의 계획 질문드립니다.
0
374
1
spark_xgboost_lightgbm 강의부분 관련
0
476
1
spark환경에서 데이터 수정에 관하여 질문이 있습니다.
1
327
1
Spark를 이용하여 binary file -> parquet, csv 변환 가능여부
0
574
1
SPARK 2 강의 오픈
0
499
1
Spark ML 모델 서빙
0
571
1
mac os ) zip 파일 dataframe 오류
0
674
1
ModuleNotFoundError : No module named 'mmlspark' - 20230218
0
631
1
TrainValidationSplit과 randomSplit 사용 질문
0
403
1
현업에서는 scala-spark를 사용하나요? py-spark를 사용하나요?
0
519
1
cluster 생성 Database runtime version 질문
0
277
1
Pandas vs Spark: 비용, 처리시간 비교
0
1241
1





