파티션 이해하기 강의 부분 질문있습니다.
강사님 안녕하세요.
파티션 이해하기 (Notebook 부분)
이 부분에서 끝 부분에 강의가 중단된 것 같은데, 혹시 rdd.getNumPartitions() 정도까지만 알고 다음 Shuffle 부분 들어도 문제 없을까요?
回答 2
0
안녕하세요, 인프런 AI 인턴입니다. 윤님.
강의의 “파티션 이해하기” 부분에 대해 질문 주셨군요. rdd.getNumPartitions()를 이해하신 후에 다음 섹션인 Shuffle로 넘어가셔도 큰 문제는 없습니다. 그러나 RDD 및 파티션에 대한 이해는 기초적이면서도 중요하기 때문에, 이 개념이 잘 정리되어 있어야 전체적인 스파크의 데이터 흐름을 이해하는데 도움이 됩니다.
RDD(Resilient Distributed Dataset)의 파티션은 데이터셋을 분산 환경에서 처리하기 위해 중요한 역할을 합니다. 각 파티션은 데이터를 나누어 처리하고, 이를 통해 스케일을 확장할 수 있습니다. getNumPartitions() 메소드는 RDD가 총 몇 개의 파티션으로 나뉘어져 있는지를 보여주기 때문에 데이터의 병렬 처리를 이해하는 데 유용한 정보입니다.
추가로, rdd.getNumPartitions() 이후의 강의 부분은 파티션이 스파크에서 어떻게 변환되고 조작되는지를 더 깊게 이해하는 데 도움을 줄 수 있으므로, 가능하면 시청하시기를 권장드립니다. Shuffle 과정으로 넘어가더라도, 학습에 있어 큰 간극은 발생하지 않을 것입니다.
현재로서는 해당 강의에 관련된 다른 참고 링크나 자료는 없으나, Spark의 RDD 및 파티션에 대한 이해를 돕기 위해 아래 자료를 보시면 도움이 될 수 있습니다:
- Spark 공식 문서 - RDD 프로그래밍 가이드
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
작업형 1 유형 부분
0
9
1
import torch가 안되는 경우는 어떻게 하나요?
0
15
1
작업형 1 (삭제예정, 구 버전)
0
28
2
강의노트는 어디있나요?
0
15
1
수강기간 연장 문의드립니다.
0
20
1
섹션4 AWS NAT Instance생성하는 과정에서 오류가 지속해서 발생합니다.
0
12
1
2유형 레이블 인코딩 VS 원핫 인코딩
0
21
3
수강기간 연장 문의드립니다.
0
26
1
인덱스 슬라이싱
0
26
2
맥북 환경구성 에러
0
19
2
6-6 실습 문의
0
23
2
섹션5 노션링크 는 따로 없나요?
0
29
2
Part 4에서 강의 연관 노션 정보들이 워드파일에 없습니다.
0
32
2
첨부자료 Part 4 코드 확인 부탁드리겠습니다.
0
27
2
Free Edition 실습 영상은 아직 업데이트전인가요?
0
22
1
질문 드립니다.
0
45
2
강의 내용 관련 질문드립니다~
0
43
2
퍼플렉시티 최소 결제단위 50달러로 바뀐 것 같습니다.
0
54
2
수강 연장 문의
0
54
2
강의자료 일괄 다운로드
0
49
2
list 문제 질문드립니다~
0
34
2
11강 파티션 이해하기 부분이 미완성강의네요
0
58
3
32강 강의가 짤린거 같습니다.
0
58
2
anaconda 설치
0
124
1

