실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
실리콘밸리 소프트웨어 엔지니어에게 배우는 빅데이터를 처리하는 방법 & 파이썬을 이용해 아파치 스파크로 빅데이터 코드를 개발하는 법을 가르쳐 드립니다. 현재 14년차 소프트웨어 개발자로 웹 어플리케이션, 빅데이타 그리고 SRE & 데브옵스까지 파이썬으로 다 처리하고 있습니다. 파이썬을 이용해, 빅데이터 직군에서 꼭 알아야하는 아파치 스파크에 대해서 쉽고 깊게 배울 수 있는 기회를 절대 놓치지 마세요!

- 해결
databricks에 cluster 메뉴가 없습니다.
Databricks 플랫폼에서 아무리 찾아봐도 cluster생성하는 메뉴가 없네요 ㅡㅡ;
머신러닝빅데이터apache-sparkicebergsimian
・
2달 전
0
48
2
- 해결
주피터 사용 및 도커 설치
혼자 해결해보려고 했는데 잘 하고 있는건지 모르겠어서요.. 강사님이 터미널에 docker run -it --rm -p 8888:8888 -v /Users/seungjoonlee/git/pyspark:/ho
머신러닝빅데이터apache-sparkiceberg아연
・
2달 전
0
93
2
- 해결
S3 폴더 구조에 따른 Static Partition Pruning, DPP 질문
안녕하세요.Static Partition Pruning이 가능한 폴더 구조에 대해서 궁금한 점이 있습니다.Hive-Style(/year=2024
머신러닝빅데이터apache-sparkicebergsgjeong1108
・
6달 전
0
77
2
- 해결
broadcast Join과 boradcast + UDF 차이
안녕하세요!좋은 강의 잘 듣고 있습니다!강의를 듣던 중 궁금한게 생겨서 질문 남깁니다UDF + broadcast 대신에 아래
빅데이터apache-sparksgjeong1108
・
6달 전
0
63
2
- 해결
append 모드 사용 시 집계
writeStream 에서 append 모드 사용 시 지원되지 않는 오류가 발생한다고 하셨는데 그럼 데이터를 추가하면서 집계를 하고 싶은 경우에는 어떻게 해야 하나요?
apache-spark권지혁
・
7달 전
0
67
2
- 해결
CDC 기반 스파크 아키텍처 구현 방법이 궁금합니다.
현재 RDS에 저장된 데이터를 AWS DMS를 활용해 Parquet 포맷으로 변환하여 S3에 저장한 뒤, EMR(Apache Spark)에서 해당 데이터를 분석/처리하는 구조를 고려하고 있습니다.<
머신러닝빅데이터apache-sparkicebergowen4
・
7달 전
0
108
2
- 해결
BroadCast 지원 가능 메모리 문의
안녕하세요.최근부터 Spark 강의를 듣고있는데 이해하기 쉽게 설명 해주셔서 감사합니다. Broadcast에 대해서 설명을 해주셨는데 Join 대상이 큰 빅데이터 이거나, meta에 큰 데이터를 담을 경우에는 Bro
머신러닝빅데이터apache-sparkiceberg민수
・
0
90
2
- 해결
rdd, dataframe, spark sql 각각 언제 사용할까요?
제목 그대로입니다. spark로 처리를 할때 rdd, dataframe, spark sql.. 3가지 방식이 있어보이는데 각각 언제 사용하는게 좋을까요..? 방법이 많다보니까 언제 무엇을 사용해야 할 지 해깔리네요
머신러닝빅데이터apache-sparkkm9311
・
0
188
2
- 해결
강의 후반부에 나온 실습 코드는 어디서 받을 수 있나요?
강의 후반부에 나온 lecture25에 대한 코드가 강의 자료에 없는 것 같습니다. 혹시 있다면 어디서 받을 수 있나요?
머신러닝빅데이터apache-sparkseonghyeock
・
0
201
3
- 해결
cdc 기반의 스트리밍 데이터 처리
안녕하세요. 강의 잘듣고 있는 도중에 질문이 있어 글을 작성하게 되었습니다. 현재 cdc 기반으로 iceberg 테이블에 operation(insert, update, delete) 정보들을 적용해서 데이터를 적재하고 있습니다.
머신러닝빅데이터apache-spark데이터레이크하우스leeceo97
・
1
231
2
- 해결
broadcast 코드 예시 관련 질문
안녕하세요.broadcast 예제코드에서는 이미 aggregation된 dataframe(코드에서 interviwer_count)<span style="color: #
머신러닝빅데이터apache-spark워농
・
0
129
2
- 미해결
재생에 문제가 생겼어요 라는 메세지가 자꾸 뜨네요
질문은 많으시면 많을수록 좋습니다. 가능한 빠른 답변 드리겠습니다.원활한 답변을 위해, 자세한 질문 사항 부탁드려요 :D
머신러닝빅데이터apache-spark오세택
・
0
116
1
- 미해결
스트리밍 예제 실행 시 py4j.protocol.Py4JNetworkError 발생
<img src="https://cdn.inflearn.com/public/files/posts/6f16bb2a-341c-4265-a9ab-407ca9c8b21f/d50a3f57-b653-4e65-b405-49427bebe0a2.png" media-type="img"
머신러닝빅데이터apache-sparknespola414
・
0
215
2
- 미해결
Repartition과 Coalesce에 대해 궁금한 점이 있어요!
안녕하세요 선생님.Repartition & Coalesce 에 강의를 보다가 궁금한 점이 있습니다. 현재 현업에서 Repartition을 수행하여 partition 한 데이터를 한 번 더 repartition
머신러닝빅데이터apache-spark울룰룰랄랑
・
1
166
1
- 미해결
pyspark 현업에서 로컬 개발 및 운영
안녕하세요. 좋은 강의 감사합니다.scala를 이용하여 spark streaming을 배포할 때, 주로 shadow jar 파일을 생성하고 해당 파일을 이용하여 배포하는 걸로 알고 있는데, pyspark 같은 경우는 현업에서 어
머신러닝빅데이터apache-spark장원용
・
1
338
1
- 미해결
Spark Structured Streaming Gracefully shutdown 질문
안녕하세요. 좋은 강의 재밌게 수강하고 있습니다.Spark Structured Streaming Fault Tolerance 강의에서 아래와 같이 gracefully 하게 스트리밍을 종료할 수 있다고 말씀 주신 부분에서 질문이 있습
머신러닝빅데이터apache-spark장원용
・
1
448
2
- 미해결
PySpark Runtime Architecture 내용 중 질문이 있습니다!
Spark Architecture(스파크 아키텍처) 소개 강의 내용 중 뒷 단에 있는 node에도 JVM이 있는 걸로 보이는데 Application Master(in Worker Node) 안에 있는 JVM과 오른쪽 노드들 안에 있는 JVM간의 차이점과 역할이 궁
머신러닝빅데이터apache-spark유혜승
・
1
214
1
- 미해결
docker 설치 이후에 터미널 여는 부분에서 막혔습니다
1:40 쯤 터미널 열어서 하시는데터미널 탭이 안보입니다.<img src="https://cdn.inflearn.com/public/files/posts/87966ae0-1ec6-4cea-a8e2-126c8cbcafcc/image.png"
머신러닝빅데이터apache-spark남 재혁
・
1
459
2
- 미해결
app-<timestamp>-<executor_id> 폴더가 spark-events 내부에 생기게 하고 싶습니다.
안녕하세요? 강의 자료로 주신 docker-compose 파일을 바탕으로 실습을 하고 있습니다. 프로그램을 실행할 때 마다 app-- 형식의 폴더가 docker-compose.yml가 위치한
머신러닝빅데이터apache-spark성범강
・
1
277
1
- 미해결
pyspark.SparkContext 실행 오류 관련 질문
<img src="https://cdn.inflearn.com/public/files/posts/45c9b09e-6519-4422-8f2f-7cc3afddafb8/스크린샷2024-03-1502.10.13.png" alt="스크린샷 2024-0
apache-spark덕배
・
2
379
1






