Tìm hiểu Python, Apache Spark và hơn thế nữa từ các kỹ sư ở Thung lũng Silicon
Cách xử lý dữ liệu lớn và học hỏi từ các kỹ sư phần mềm ở Thung lũng Silicon Chúng tôi hướng dẫn bạn cách phát triển mã dữ liệu lớn với Apache Spark bằng Python. Hiện là nhà phát triển phần mềm 14 năm có chuyên môn về ứng dụng web, dữ liệu lớn và SRE & Ngay cả DevOps cũng đang được xử lý bằng Python. Đừng bao giờ bỏ lỡ cơ hội tìm hiểu sâu và dễ dàng về Apache Spark, điều cần thiết đối với các chuyên gia dữ liệu lớn khi sử dụng Python!
844 học viên
Độ khó Trung cấp trở lên
Thời gian Không giới hạn

- Đã giải quyết
databricks에 cluster 메뉴가 없습니다.
Databricks 플랫폼에서 아무리 찾아봐도 cluster생성하는 메뉴가 없네요 ㅡㅡ;
머신러닝빅데이터apache-sparkiceberg286mfzjhqc1084
・
6 ngày trước
0
26
2
- Đã giải quyết
주피터 사용 및 도커 설치
혼자 해결해보려고 했는데 잘 하고 있는건지 모르겠어서요.. 강사님이 터미널에 docker run -it --rm -p 8888:8888 -v /Users/seungjoonlee/git/pyspark:/ho
머신러닝빅데이터apache-sparkicebergjay39168273
・
18 ngày trước
0
62
2
- Đã giải quyết
S3 폴더 구조에 따른 Static Partition Pruning, DPP 질문
안녕하세요.Static Partition Pruning이 가능한 폴더 구조에 대해서 궁금한 점이 있습니다.Hive-Style(/year=2024
머신러닝빅데이터apache-sparkicebergsgjeong1108
・
4 tháng trước
0
68
2
- Đã giải quyết
broadcast Join과 boradcast + UDF 차이
안녕하세요!좋은 강의 잘 듣고 있습니다!강의를 듣던 중 궁금한게 생겨서 질문 남깁니다UDF + broadcast 대신에 아래
빅데이터apache-sparksgjeong1108
・
5 tháng trước
0
53
2
- Đã giải quyết
append 모드 사용 시 집계
writeStream 에서 append 모드 사용 시 지원되지 않는 오류가 발생한다고 하셨는데 그럼 데이터를 추가하면서 집계를 하고 싶은 경우에는 어떻게 해야 하나요?
apache-sparkkwon379547769
・
5 tháng trước
0
56
2
- Đã giải quyết
CDC 기반 스파크 아키텍처 구현 방법이 궁금합니다.
현재 RDS에 저장된 데이터를 AWS DMS를 활용해 Parquet 포맷으로 변환하여 S3에 저장한 뒤, EMR(Apache Spark)에서 해당 데이터를 분석/처리하는 구조를 고려하고 있습니다.<
머신러닝빅데이터apache-sparkicebergowen43220
・
6 tháng trước
0
91
2
- Đã giải quyết
BroadCast 지원 가능 메모리 문의
안녕하세요.최근부터 Spark 강의를 듣고있는데 이해하기 쉽게 설명 해주셔서 감사합니다. Broadcast에 대해서 설명을 해주셨는데 Join 대상이 큰 빅데이터 이거나, meta에 큰 데이터를 담을 경우에는 Bro
머신러닝빅데이터apache-sparkicebergkim83298822
・
0
84
2
- Đã giải quyết
rdd, dataframe, spark sql 각각 언제 사용할까요?
제목 그대로입니다. spark로 처리를 할때 rdd, dataframe, spark sql.. 3가지 방식이 있어보이는데 각각 언제 사용하는게 좋을까요..? 방법이 많다보니까 언제 무엇을 사용해야 할 지 해깔리네요
머신러닝빅데이터apache-sparkkm93113354
・
0
175
2
- Đã giải quyết
강의 후반부에 나온 실습 코드는 어디서 받을 수 있나요?
강의 후반부에 나온 lecture25에 대한 코드가 강의 자료에 없는 것 같습니다. 혹시 있다면 어디서 받을 수 있나요?
머신러닝빅데이터apache-sparkseonghyeock
・
0
184
3
- Đã giải quyết
cdc 기반의 스트리밍 데이터 처리
안녕하세요. 강의 잘듣고 있는 도중에 질문이 있어 글을 작성하게 되었습니다. 현재 cdc 기반으로 iceberg 테이블에 operation(insert, update, delete) 정보들을 적용해서 데이터를 적재하고 있습니다.
머신러닝빅데이터apache-spark데이터레이크하우스leeceo975305
・
1
216
2
- Đã giải quyết
broadcast 코드 예시 관련 질문
안녕하세요.broadcast 예제코드에서는 이미 aggregation된 dataframe(코드에서 interviwer_count)<span style="color: #
머신러닝빅데이터apache-sparkone0
・
0
114
2
- Chưa giải quyết
재생에 문제가 생겼어요 라는 메세지가 자꾸 뜨네요
질문은 많으시면 많을수록 좋습니다. 가능한 빠른 답변 드리겠습니다.원활한 답변을 위해, 자세한 질문 사항 부탁드려요 :D
머신러닝빅데이터apache-sparksaetekoh8585
・
0
106
1
- Chưa giải quyết
스트리밍 예제 실행 시 py4j.protocol.Py4JNetworkError 발생
<img src="https://cdn.inflearn.com/public/files/posts/6f16bb2a-341c-4265-a9ab-407ca9c8b21f/d50a3f57-b653-4e65-b405-49427bebe0a2.png" media-type="img"
머신러닝빅데이터apache-sparknespola414
・
0
205
2
- Chưa giải quyết
Repartition과 Coalesce에 대해 궁금한 점이 있어요!
안녕하세요 선생님.Repartition & Coalesce 에 강의를 보다가 궁금한 점이 있습니다. 현재 현업에서 Repartition을 수행하여 partition 한 데이터를 한 번 더 repartition
머신러닝빅데이터apache-sparkhyunah7777900118
・
1
159
1
- Chưa giải quyết
pyspark 현업에서 로컬 개발 및 운영
안녕하세요. 좋은 강의 감사합니다.scala를 이용하여 spark streaming을 배포할 때, 주로 shadow jar 파일을 생성하고 해당 파일을 이용하여 배포하는 걸로 알고 있는데, pyspark 같은 경우는 현업에서 어
머신러닝빅데이터apache-sparkzcx62634177
・
1
318
1
- Chưa giải quyết
Spark Structured Streaming Gracefully shutdown 질문
안녕하세요. 좋은 강의 재밌게 수강하고 있습니다.Spark Structured Streaming Fault Tolerance 강의에서 아래와 같이 gracefully 하게 스트리밍을 종료할 수 있다고 말씀 주신 부분에서 질문이 있습
머신러닝빅데이터apache-sparkzcx62634177
・
1
423
2
- Chưa giải quyết
PySpark Runtime Architecture 내용 중 질문이 있습니다!
Spark Architecture(스파크 아키텍처) 소개 강의 내용 중 뒷 단에 있는 node에도 JVM이 있는 걸로 보이는데 Application Master(in Worker Node) 안에 있는 JVM과 오른쪽 노드들 안에 있는 JVM간의 차이점과 역할이 궁
머신러닝빅데이터apache-sparkhazelu
・
1
204
1
- Chưa giải quyết
docker 설치 이후에 터미널 여는 부분에서 막혔습니다
1:40 쯤 터미널 열어서 하시는데터미널 탭이 안보입니다.<img src="https://cdn.inflearn.com/public/files/posts/87966ae0-1ec6-4cea-a8e2-126c8cbcafcc/image.png"
머신러닝빅데이터apache-sparkhappyrod97956
・
1
442
2
- Chưa giải quyết
app-<timestamp>-<executor_id> 폴더가 spark-events 내부에 생기게 하고 싶습니다.
안녕하세요? 강의 자료로 주신 docker-compose 파일을 바탕으로 실습을 하고 있습니다. 프로그램을 실행할 때 마다 app-- 형식의 폴더가 docker-compose.yml가 위치한
머신러닝빅데이터apache-sparkqkfka90457512
・
1
264
1
- Chưa giải quyết
pyspark.SparkContext 실행 오류 관련 질문
<img src="https://cdn.inflearn.com/public/files/posts/45c9b09e-6519-4422-8f2f-7cc3afddafb8/스크린샷2024-03-1502.10.13.png" alt="스크린샷 2024-0
apache-sparkkimdoboy0753
・
2
367
1

