inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

Kafka & Spark 활용한 Realtime Datalake

DataFrame 파티션

repartition 전후 persist 용량 차이가 나는 이유가 궁금합니다

1

홍석주

작성한 질문수 3

0

안녕하세요! 강의 너무 잘듣고 있습니다.


강의 실습 중 Spark UI에서 repartition(6) 전후로 persist 용량이 다르게 보여서 질문드립니다.

 

13:10 쯤 repartition 이전에는 디스크 사용량이 약 247.5 MiB로 보였는데,
14:47 쯤 repartition(6) 이후에는 Memory 401.5 MiB / Disk 43.1 MiB로 표시되었습니다.

 

같은 dataframe에 대한 persist를 수행했는데 repartition 전후로 용량 차이가 나는 이유가 궁금합니다.

kafka apache-spark pyspark data-lake

답변 0

setting_python_env.yml 오류

0

36

2

섹션4 AWS NAT Instance생성하는 과정에서 오류가 지속해서 발생합니다.

0

34

1

파이참 25.3.4 버전에서 한폴더에 두개 프로젝트 생성하는 방법은?

0

42

2

consumer가 모든 파티션을 읽지 않는 이슈가 있습니다

0

96

3

람다 아키텍처에서 speed layer 관련 질문드립니다

0

64

1

아키텍처 관련 질문

0

74

1

code deploy 배포에러

0

88

4

/homework/ch10_3/dataframe_cache.py 과제 질문

0

79

2

ch4_3 apache zookeeper 설치파일 관련 질문

0

103

3

질문있습니다 섹션13. Spark streaming 부분

0

73

2

ot 자료

0

73

2

git action - code deploy단계

0

103

2

IDE - Pycharm / VSCode

0

98

1

UI For Apache Kafka 설치하기

0

155

2

kafka broker prompt 변경 확인

0

94

2

디스코드 만료

0

76

2

Zookeeper 설치 오류

1

93

3

github 레파지토리 생성 및 연결 관련 질문드립니다!

0

67

2

git action실행 안됨

0

186

1

터미널에서 NAT 인스턴스로 직접 로그인 안됨

0

77

1

AWS EC2 생성하기 2분55초 부분

0

64

2

git action에서 install_codedeploy-agent.yml

0

71

2

consumer 실행 오류 질문: connect ip 관련

0

103

2

Spark Programs 구조에서 막혔습니다.

0

74

2