inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

스파크 머신러닝 완벽 가이드 - Part 1

강의에서 multinode 환경에서 spark 를 이용하는 예가 포함이 되어있나요?

해결된 질문

262

choiiohc1

작성한 질문수 20

0

안녕하세요,
자세한 강의 감사드려요.
현재 강의 초반을 수강중이고, databricks 환경에서 실습을 하고 있습니다.
 
저는 spark를 이용해 클러스터를 구성해서 singlenode보다 mulinode에서 연산을 진행해서 속도가 빨라지는걸 확인하고 싶은데 그 부분이 강의 뒷부분에 포함되어있는지, 혹시 안되어있다면 조언주실 수 있는지 문의드립니다.
감사합니다.
 
 
 

apache-spark 데이터 엔지니어링 머신러닝 배워볼래요? bigdata

답변 1

0

권 철민

안녕하십니까, 

databricks community edition은 싱글 노드만 무상으로 지원합니다.  때문에 멀티 노드 테스트는 강의에 포함되어 있지 않습니다. 

어떤 조언을 좀 더 상세히 말씀해 주시면 좋지만, 지금 드릴 수 있는 말씀은 멀티 노드로 하면 데이터 처리가 확실히 빨라집니다. 그런데 노드를 많이 늘린다고 데이터 처리가 선형적으로 늘어나지는 않습니다.  특히 조회하고자 하는 업무 데이터가 여러 노드에 확실하게 분산되어 있다면 모르지만,  모든 업무 테이블을 모두 병렬 분산 처리를 최적화 하면서 노드별로 분산하기는 어렵습니다. 

왜냐하면 분산하려는 파티션키와 업무 테이블간의 조인 키, Group by키가 서로 다른 경우가 있기 때문에 조인이나 group by 시 데이터가 노드간에 이동해야 하기 때문입니다. 

하지만 이러한 제약은 Spark와 같은 병렬 분산 시스템은 공통적으로 안고 있는 사항이고, 정리해서 말씀 드리면 멀티 노드로 하면 데이터 처리가 확실히 빨라집니다. 

감사합니다. 

강사님 안녕하세요 ㅎdatabricks환경에 대한 설

0

63

3

데이터 브릭스 이슈

0

111

2

데이터 브릭스 가입

0

98

2

pyspark local 설치

0

101

2

community edition 가입 문의

0

113

2

데이터 로드 및 로딩 된 파일 데이터 목록 조회 방

0

171

2

클러스터 버전 설정

0

136

3

instacart market basket analysis

0

188

3

spark 추가 학습 관련 질문

0

235

2

MLOps 관련 MLFLow 및 Databricks 모델 서빙

0

404

1

train파일 업로드 중에 해당 경로가 없다고 뜹니다

0

376

2

강의가 재생되지 않음

0

266

2

후속 강의 계획 질문드립니다.

0

374

1

spark_xgboost_lightgbm 강의부분 관련

0

476

1

spark환경에서 데이터 수정에 관하여 질문이 있습니다.

1

327

1

Spark를 이용하여 binary file -> parquet, csv 변환 가능여부

0

574

1

SPARK 2 강의 오픈

0

499

1

Spark ML 모델 서빙

0

571

1

mac os ) zip 파일 dataframe 오류

0

674

1

ModuleNotFoundError : No module named 'mmlspark' - 20230218

0

631

1

TrainValidationSplit과 randomSplit 사용 질문

0

403

1

현업에서는 scala-spark를 사용하나요? py-spark를 사용하나요?

0

519

1

cluster 생성 Database runtime version 질문

0

277

1

Pandas vs Spark: 비용, 처리시간 비교

0

1241

1