inflearn logo
강의

講義

知識共有

シリコンバレーのエンジニアから学ぶPython Apache Spark

Repartition과 Coalesce에 대해 궁금한 점이 있어요!

166

hyunah7777900118

投稿した質問数 6

1

안녕하세요 선생님.

Repartition & Coalesce 에 강의를 보다가 궁금한 점이 있습니다.

 

현재 현업에서 Repartition을 수행하여 partition 한 데이터를 한 번 더 repartition 해주고 있는데요..

예를들어 파티션 개수가 1개이고 -> 파일 개수가 100개라고 가정할 때,

 

// count 가 100개 -> 1개로 줄이려고 함

(ex) hdfs dfs -count {path}/{partition_key}={partition_value}/

 

파일 개수를 1개로 줄이고자 할 때는, repartition을 수행하는 것 보단, coalesce 를 수행하여 1개로 줄이는 게 더 적합하다는 (왜냐하면 wide shffling을 진행하기 때문에..?) 이야기 이실까요? 이 부분을 잘 이해를 못 했습니다 ㅠㅠ.

 

감사합니다!

머신러닝 빅데이터 apache-spark

回答 1

0

altoformula

안녕하세요 울룰룰랄랑님,

간단히 기억하자면 이렇습니다.

Coalesce는 전체적으로 데이타를 분산해서 재계산하지 않고, 효율적으로 파티션을 줄일 때 사용합니다(예를들면 같은 노드에 파티션이 여러개 있었다면 그들을 재분산하지않고 바로 합칩니다). 그에 반해 Repartition은 전체적으로 데이타를 재분산시켜서 파티션을 줄이거나 늘릴때 사용하며, 또는 분산을 더 고르게하는 장점이 있습니다.

 

0

hyunah7777900118

아 그렇군요. 그럼 파티션을 줄인다고해서 꼭 coalesce 를 사용해야 하는건 아니겠군요.

알려주셔서 감사합니다~

databricks에 cluster 메뉴가 없습니다.

0

49

2

주피터 사용 및 도커 설치

0

94

2

S3 폴더 구조에 따른 Static Partition Pruning, DPP 질문

0

77

2

broadcast Join과 boradcast + UDF 차이

0

63

2

append 모드 사용 시 집계

0

67

2

CDC 기반 스파크 아키텍처 구현 방법이 궁금합니다.

0

108

2

BroadCast 지원 가능 메모리 문의

0

90

2

rdd, dataframe, spark sql 각각 언제 사용할까요?

0

189

2

강의 후반부에 나온 실습 코드는 어디서 받을 수 있나요?

0

203

3

cdc 기반의 스트리밍 데이터 처리

1

231

2

broadcast 코드 예시 관련 질문

0

129

2

재생에 문제가 생겼어요 라는 메세지가 자꾸 뜨네요

0

116

1

스트리밍 예제 실행 시 py4j.protocol.Py4JNetworkError 발생

0

215

2

pyspark 현업에서 로컬 개발 및 운영

1

338

1

Spark Structured Streaming Gracefully shutdown 질문

1

448

2

PySpark Runtime Architecture 내용 중 질문이 있습니다!

1

214

1

docker 설치 이후에 터미널 여는 부분에서 막혔습니다

1

460

2

app-<timestamp>-<executor_id> 폴더가 spark-events 내부에 생기게 하고 싶습니다.

1

277

1

pyspark.SparkContext 실행 오류 관련 질문

2

380

1

스파크 아키텍쳐 관련 문의 드립니다.

1

353

2

3.0에서 추가된 shuffle_hash, shuffle_replicate_nl hint는 어떤 상황에서 쓰는게 좋을까요?

1

320

1

데이터 엔지니터의 현 트렌드가 궁금합니다

1

473

1

스칼라강의도 제작하신다고 하셨는데 계획하고 계실까요??

1

297

2

pyspark / spark 차이점 질문드립니다.

1

1161

1