repartition 전후 persist 용량 차이가 나는 이유가 궁금합니다
23
投稿した質問数 3
안녕하세요! 강의 너무 잘듣고 있습니다.
강의 실습 중 Spark UI에서 repartition(6) 전후로 persist 용량이 다르게 보여서 질문드립니다.
13:10 쯤 repartition 이전에는 디스크 사용량이 약 247.5 MiB로 보였는데,
14:47 쯤 repartition(6) 이후에는 Memory 401.5 MiB / Disk 43.1 MiB로 표시되었습니다.
같은 dataframe에 대한 persist를 수행했는데 repartition 전후로 용량 차이가 나는 이유가 궁금합니다.
回答 1
0
안녕하세요 홍석주님!
강의 잘 듣고 계시다니 좋은 소식이네요 🙂
질문에 답을 드리자면 Spark이 생각보다 똑똑해서 그렇습니다.
첫 번째 persist() 후 사이즈를 봤을 때 247.5MB밖에 안 나온 것은 별다른 트랜스폼 명령 없이 show()만 수행하면 show() 로 출력되는 일부 영역만 읽어들이기 때문입니다. (기본적으로 show() 는 20줄만 출력하므로 그에 해당하는 일부 영역만 읽어들입니다)
그래서 첫 번째 persist()를 하고 바로 show()를 하지 않고 .filter() 를 통해 != '' 같은 구문을 넣고 show()를 해보시면 아마 사이즈가 전체가 나올거에요.
아니면 show() 대신 count()를 넣어도 전체가 나올 것 같습니다.
한번 해보시고 결과를 남겨주시면 제가 또 답변드릴께요 🙂
setting_python_env.yml 오류
0
39
2
섹션4 AWS NAT Instance생성하는 과정에서 오류가 지속해서 발생합니다.
0
34
1
파이참 25.3.4 버전에서 한폴더에 두개 프로젝트 생성하는 방법은?
0
44
2
consumer가 모든 파티션을 읽지 않는 이슈가 있습니다
0
98
3
람다 아키텍처에서 speed layer 관련 질문드립니다
0
64
1
아키텍처 관련 질문
0
74
1
code deploy 배포에러
0
88
4
/homework/ch10_3/dataframe_cache.py 과제 질문
0
79
2
ch4_3 apache zookeeper 설치파일 관련 질문
0
105
3
질문있습니다 섹션13. Spark streaming 부분
0
73
2
ot 자료
0
73
2
git action - code deploy단계
0
103
2
IDE - Pycharm / VSCode
0
98
1
UI For Apache Kafka 설치하기
0
157
2
kafka broker prompt 변경 확인
0
94
2
디스코드 만료
0
76
2
Zookeeper 설치 오류
1
93
3
github 레파지토리 생성 및 연결 관련 질문드립니다!
0
69
2
git action실행 안됨
0
189
1
터미널에서 NAT 인스턴스로 직접 로그인 안됨
0
77
1
AWS EC2 생성하기 2분55초 부분
0
64
2
git action에서 install_codedeploy-agent.yml
0
71
2
consumer 실행 오류 질문: connect ip 관련
0
103
2
Spark Programs 구조에서 막혔습니다.
0
74
2

