Learn Python Apache Spark from Silicon Valley Engineers

Let's explore all methods for Dataframe Join (data merging)

대용량 데이터 Join

2023-02-06T18:34:35.433Z

859

satelites90719

27 asked

안녕하세요

대용량 데이터 join 방법에 대해 질문드립니다.

source A,B,C가 있고 A와 B를 union 하고 C를 조인해야 하는 상황입니다. A, B, C 각각은 모두 대용량 데이터입니다.

하지만, 이 코드를 실행하면 spark 내부적으로 C를 2번 read해 A와 C를 조인하고, B와 C를 조인하는 DAG이 생성되는 것을 UI에서 확인했습니다.

이에, C를 1번만 read하게 만들기 위해서 cDF.persist(StorageLevel.DISK_ONLY)를 중간에 삽입해, 원래 의도대로 A와 B를 union하고 C를 조인하도록 DAG을 변경하였습니다.

이런 상황에서 persist를 사용하지 않고 해결할 방법이 있을까요?

머신러닝 빅데이터 bigdata 머신러닝 배워볼래요? apache-spark

Answer 1

altoformula

2023-02-06T19:30:21.257Z

안녕하세요,

우선 질문 주신 것 감사합니다. 우선 Cache나 Persist는 그런 경우를 대비해서 만들어 놓았습니다.

Persist를 사용하기 힘드시다면, A와 B를 조인하고 아웃풋한 후에 다시 읽어들여 조인하시는 방법도 있습니다만,

혹시 join 명령어를 사용하셨나요? sql 커멘드를 사용하셔서 쿼리를 돌려보시겠어요?

그리고 현재 문제는 Disk Space 때문에 그러신가요? MEMORY_AND_DISK_SER를 사용하시면 안되는 이유가 있나요?

아니면 통합시 Shuffle 속도 때문에 그러신가요? 조인하시기 전에 필요한 데이터만 필터 후 조인하시는 건가요?

데이터를 보지 않은 상태에서 도움이 될지 모르겠지만, 생각나는 대로 적어봤습니다.

satelites90719

2023-02-07T06:12:03.169Z

상세한 답변 정말 감사합니다.

1) join 함수를 사용하였습니다. sql을 사용하는 것과 join 을 사용하는 것에 차이가 있을 수가 있나요?? 방금 physhical plan을 비교해보았는데, 동일했습니다.

2) Disk Space가 아니라, 데이터가 크면 cache나 persist를 할 수 밖에 없는지 궁금했습니다.ㅎㅎ! 이렇게 쓰는게 맞는가 해서요

3) shuffle 속도를 높이는 튜닝도 있을까요???

4) 조인시 필요한 데이터만 필터 후 조인하고 있습니다.

altoformula

2023-02-07T07:02:03.096Z

1) 네 가끔식 쿼리에 따라 차이가 나는 경우가 있습니다.

2) 거의 80~90는 Persist를 사용하신다고 보시면 됩니다. 그리고 최대한 디스크에 흘리지 않는게 최대 관건입니다.(Disk Spill한다고 하죠)

3) 네 여러가지가 있는데, 그 중 하나가 최대한 좋은(메모리 많은) 인스턴스를 단시간 사용하시고, 그 인스턴스 개수를 줄이는게 셔플을 줄이는 좋은 방법입니다.

4) 굿입니다! ㅎㅎ

databricks에 cluster 메뉴가 없습니다.

2026-03-07T14:26:04.016Z

주피터 사용 및 도커 설치

2026-02-23T10:35:47.151Z

135

S3 폴더 구조에 따른 Static Partition Pruning, DPP 질문

2025-10-28T08:07:58.715Z

112

broadcast Join과 boradcast + UDF 차이

2025-10-20T11:20:08.128Z

append 모드 사용 시 집계

2025-09-27T11:59:52.088Z

CDC 기반 스파크 아키텍처 구현 방법이 궁금합니다.

2025-09-18T23:53:58.617Z

145

BroadCast 지원 가능 메모리 문의

2025-03-10T14:14:20.054Z

113

rdd, dataframe, spark sql 각각 언제 사용할까요?

2025-01-16T10:54:54.015Z

219

강의 후반부에 나온 실습 코드는 어디서 받을 수 있나요?

2025-01-01T08:30:38.103Z

245

cdc 기반의 스트리밍 데이터 처리

2024-12-17T07:13:47.238Z

268

broadcast 코드 예시 관련 질문

2024-12-17T06:18:51.298Z

158

재생에 문제가 생겼어요 라는 메세지가 자꾸 뜨네요

2024-12-13T02:10:28.994Z

137

스트리밍 예제 실행 시 py4j.protocol.Py4JNetworkError 발생

2024-10-07T15:16:42.595Z

248

Repartition과 Coalesce에 대해 궁금한 점이 있어요!

2024-08-15T05:26:31.253Z

180

pyspark 현업에서 로컬 개발 및 운영

2024-05-14T10:17:57.209Z

353

Spark Structured Streaming Gracefully shutdown 질문

2024-05-07T14:26:28.352Z

470

PySpark Runtime Architecture 내용 중 질문이 있습니다!

2024-04-16T12:58:26.496Z

235

docker 설치 이후에 터미널 여는 부분에서 막혔습니다

2024-03-20T05:58:52.085Z

484

app-<timestamp>-<executor_id> 폴더가 spark-events 내부에 생기게 하고 싶습니다.

2024-03-16T13:20:31.589Z

302

pyspark.SparkContext 실행 오류 관련 질문

2024-03-14T17:43:34.479Z

405

스파크 아키텍쳐 관련 문의 드립니다.

2024-01-24T23:40:40.803Z

365

3.0에서 추가된 shuffle_hash, shuffle_replicate_nl hint는 어떤 상황에서 쓰는게 좋을까요?

2024-01-02T04:05:41.481Z

330

데이터 엔지니터의 현 트렌드가 궁금합니다

2023-12-29T14:24:24.779Z

486

스칼라강의도 제작하신다고 하셨는데 계획하고 계실까요??

2023-12-23T03:34:26.572Z

309