Tìm hiểu Python, Apache Spark và hơn thế nữa từ các kỹ sư ở Thung lũng Silicon
Cách xử lý dữ liệu lớn và học hỏi từ các kỹ sư phần mềm ở Thung lũng Silicon Chúng tôi hướng dẫn bạn cách phát triển mã dữ liệu lớn với Apache Spark bằng Python. Hiện là nhà phát triển phần mềm 14 năm có chuyên môn về ứng dụng web, dữ liệu lớn và SRE & Ngay cả DevOps cũng đang được xử lý bằng Python. Đừng bao giờ bỏ lỡ cơ hội tìm hiểu sâu và dễ dàng về Apache Spark, điều cần thiết đối với các chuyên gia dữ liệu lớn khi sử dụng Python!
Học trực tiếp từ các kỹ sư ở Thung lũng Silicon Bạn có muốn tham gia một bài giảng về dữ liệu lớn không? 🤗
Bí quyết của các nhà phát triển Thung lũng Silicon Trong phòng của tôi! 🖥️
Bạn có thể dễ dàng học cách phát triển dữ liệu lớn với bí quyết của các nhà phát triển ở Thung lũng Silicon.
Nhiều tập đoàn và tổ chức tài chính lớn trên thế giới, bao gồm cả Thung lũng Silicon, đang sử dụng Apache Spark để phân tích lượng lớn dữ liệu và tạo ra các mô hình học máy. Làm việc với dữ liệu lớn là một kỹ năng cần thiết đối với các kỹ sư dữ liệu và nhà khoa học dữ liệu. Và khả năng của Spark hiện rất cần thiết để thu thập và phân tích dữ liệu lớn.
Spark được xây dựng ngay từ đầu dựa trên khung xử lý dữ liệu phân tán nên có thể xử lý dữ liệu lớn theo thời gian thực và biến nó thành mô hình machine learning đồng thời mở rộng công suất từ ít máy chủ lên tới hàng trăm máy chủ. Hiện tại, tôi quản lý hơn một petabyte (PB) dữ liệu và vận hành trên 100TB bộ nhớ.
Sau khi tham gia bài giảng này, bạn sẽ hiểu khung cốt lõi của Apache Spark , có thể dễ dàng thu thập và xử lý dữ liệu lớn cũng như tạo các mô hình học máy đơn giản bằng nhiều máy chủ. Nếu bạn biết cú pháp cơ bản của Python, bạn có thể học tốt.
Khả năng sử dụng RDD và Dataframe của Spark để phân tích dữ liệu lớn
Hiểu các yếu tố kỹ thuật khác nhau tạo nên khung học máy
Hiểu Spark Streaming để phân tích dữ liệu thời gian thực
Tôi giới thiệu nó cho những người này 🙋
Cần xử lý lượng lớn dữ liệu nhà phát triển phụ trợ
Trường dữ liệu lớn Nhà phát triển tôi muốn học
Tìm hiểu kiến thức chuyên sâu về Spark Muốn trở thành kỹ sư dữ liệu
Hãy học những điều như thế này 📚
1. Giới thiệu về Apache Spark
Giới thiệu về Apache Spark
Phương pháp cài đặt bằng Docker
Cách đăng ký và sử dụng Databricks Community Edition
2. Các tính năng và ví dụ cơ bản về Apache Spark RDD
Các tính năng cơ bản và phương pháp sử dụng RDD của Apache Spark (Bộ dữ liệu phân tán có khả năng phục hồi)
Giới thiệu về các ví dụ về Apache Spark RDD
3. Apache Spark SQL và khung dữ liệu
Giới thiệu và ứng dụng Apache Spark SQL và Dataframe
Apache Spark SQL, ví dụ về khung dữ liệu
4. Tìm hiểu sâu về Apache Spark Engine
Kiến thức về động cơ Apache Spark mà ngay cả những người trong lĩnh vực này cũng chưa quen
5. Thư viện máy học Apache Spark, MLlib
Thuật toán học máy đơn giản
Cách tạo mô hình machine learning với Apache Spark
6. Apache Spark Streaming, thư viện xử lý dữ liệu thời gian thực
Cách xử lý dữ liệu thời gian thực với Apache Spark
Câu hỏi dự kiến Hỏi đáp 💬
Q. Đây có phải là khóa học mà những người không chuyên cũng có thể tham gia không?
Có, nhưng sẽ dễ hiểu hơn nếu bạn có kỹ năng Python cơ bản và kinh nghiệm xử lý dữ liệu.
Nếu bạn chưa quen với Python, hãy tìm hiểu những điều cơ bản về Python thông qua YouTube hoặc xem bài giảng bên dưới trước! Ngay cả khi bạn chỉ xem những điều cơ bản, bạn sẽ không gặp khó khăn gì khi theo dõi toàn bộ bài giảng.
Q. Nội dung khóa học được đề cập ở cấp độ nào?
Nó bao gồm mọi thứ từ những điều cơ bản về Spark đến thông tin nâng cao cần thiết cho doanh nghiệp.
Q. Tại sao tôi nên học Spark?
Spark đang xử lý dữ liệu lớn không chỉ ở Hàn Quốc mà còn ở hầu hết các công ty ở Thung lũng Silicon. Nếu biết xử lý dữ liệu bằng Spark thì việc xin việc sẽ dễ dàng hơn.
Hệ điều hành và phiên bản (OS) : MacOS, Linux, Ubuntu
Công cụ được sử dụng: Sử dụng Docker phổ biến nhất (sử dụng hình ảnh Docker có sẵn công khai), Databricks Community Edition
Bài giảng thực hành này được thiết lập bằng Docker. Nếu bạn muốn tìm hiểu thêm về Docker, tôi khuyên bạn nên xem khóa học Docker miễn phí của tôi. Link bài giảng: [ https://inf.run/8eFCL ]
tài liệu học tập
Mã nguồn và tài liệu đính kèm được cung cấp
Khuyến nghị cho những người này
Khóa học này dành cho ai?
Bất cứ ai biết cú pháp cơ bản của Python
Những người muốn chuyển sang sự nghiệp dữ liệu lớn
상대적으로 안 định ổn định hơn trở thành kỹ sư hậu trường
Bất cứ ai muốn chuyển sang vị trí kỹ sư back-end
Apache Spark có thông tin và chi tiết mới nhất mà bạn muốn biết
Cần biết trước khi bắt đầu?
trăn
Docker
Xin chào Đây là
10,546
Học viên
716
Đánh giá
307
Trả lời
4.8
Xếp hạng
25
Các khóa học
한국에서 끝낼 거야? 영어로 세계 시장을 뚫어라!🌍🚀
안녕하세요. UC Berkeley에서 💻 컴퓨터 공학(EECS)을 전공하고, 실리콘 밸리에서 15년 이상을 소프트웨어 엔지니어로 일해왔으며, 현재는 실리콘밸리 빅테크 본사에서 빅데이터와 DevOps를 다루는 Staff Software Engineer로 있습니다.
🧭 실리콘 밸리의 혁신 현장에서 직접 배운 기술과 노하우를 온라인 강의를 통해 이제 여러분과 함께 나누고자 합니다.
🚀 기술 혁신의 최전선에서 배우고 성장해 온 저와 함께, 여러분도 글로벌 무대에서 경쟁할 수 있는 역량을 키워보세요!
🫡 똑똑하지는 않지만, 포기하지 않고 꾸준히 하면 뭐든지 이룰수 있다는 점을 꼭 말씀드리고 싶습니다. 항상 좋은 자료로 옆에서 도움을 드리겠습니다
I enjoyed the lecture. I took it to do Spark-related work in practice. It was very helpful because it covered the theoretical parts and practical exercises with only the essential content.
Although I'm still taking the course, I'm satisfied with the overall outline, lecture structure, and explanation method. It doesn't explain the code syntax in detail one by one, but it explains the execution flow and operating principles while looking at the code, so I think it's a suitable lecture for those with some coding experience to understand and learn.
I've been working as a Data Engineer in the US for about a year after a career change, and this has been a great help in reviewing Spark concepts and learning new things!