inflearn logo
강의

講義

知識共有

Kafka & Spark を活用したリアルタイムデータレイク

DataFrame パーティション

repartition 전후 persist 용량 차이가 나는 이유가 궁금합니다

23

hsju02020646

投稿した質問数 3

0

안녕하세요! 강의 너무 잘듣고 있습니다.


강의 실습 중 Spark UI에서 repartition(6) 전후로 persist 용량이 다르게 보여서 질문드립니다.

 

13:10 쯤 repartition 이전에는 디스크 사용량이 약 247.5 MiB로 보였는데,
14:47 쯤 repartition(6) 이후에는 Memory 401.5 MiB / Disk 43.1 MiB로 표시되었습니다.

 

같은 dataframe에 대한 persist를 수행했는데 repartition 전후로 용량 차이가 나는 이유가 궁금합니다.

kafka apache-spark pyspark data-lake

回答 1

0

hyunjinkim

안녕하세요 홍석주님!

 

강의 잘 듣고 계시다니 좋은 소식이네요 🙂

질문에 답을 드리자면 Spark이 생각보다 똑똑해서 그렇습니다.

첫 번째 persist() 후 사이즈를 봤을 때 247.5MB밖에 안 나온 것은 별다른 트랜스폼 명령 없이 show()만 수행하면 show() 로 출력되는 일부 영역만 읽어들이기 때문입니다. (기본적으로 show() 는 20줄만 출력하므로 그에 해당하는 일부 영역만 읽어들입니다)

그래서 첫 번째 persist()를 하고 바로 show()를 하지 않고 .filter() 를 통해 != '' 같은 구문을 넣고 show()를 해보시면 아마 사이즈가 전체가 나올거에요.

아니면 show() 대신 count()를 넣어도 전체가 나올 것 같습니다.

 

한번 해보시고 결과를 남겨주시면 제가 또 답변드릴께요 🙂

setting_python_env.yml 오류

0

39

2

섹션4 AWS NAT Instance생성하는 과정에서 오류가 지속해서 발생합니다.

0

34

1

파이참 25.3.4 버전에서 한폴더에 두개 프로젝트 생성하는 방법은?

0

44

2

consumer가 모든 파티션을 읽지 않는 이슈가 있습니다

0

98

3

람다 아키텍처에서 speed layer 관련 질문드립니다

0

64

1

아키텍처 관련 질문

0

74

1

code deploy 배포에러

0

88

4

/homework/ch10_3/dataframe_cache.py 과제 질문

0

79

2

ch4_3 apache zookeeper 설치파일 관련 질문

0

105

3

질문있습니다 섹션13. Spark streaming 부분

0

73

2

ot 자료

0

73

2

git action - code deploy단계

0

103

2

IDE - Pycharm / VSCode

0

98

1

UI For Apache Kafka 설치하기

0

157

2

kafka broker prompt 변경 확인

0

94

2

디스코드 만료

0

76

2

Zookeeper 설치 오류

1

93

3

github 레파지토리 생성 및 연결 관련 질문드립니다!

0

69

2

git action실행 안됨

0

189

1

터미널에서 NAT 인스턴스로 직접 로그인 안됨

0

77

1

AWS EC2 생성하기 2분55초 부분

0

64

2

git action에서 install_codedeploy-agent.yml

0

71

2

consumer 실행 오류 질문: connect ip 관련

0

103

2

Spark Programs 구조에서 막혔습니다.

0

74

2