Thumbnail
데이터 사이언스 데이터 분석

실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크 대시보드

(4.5)
13개의 수강평 ∙  346명의 수강생
70,400원

월 14,080원

5개월 할부 시
지식공유자: 미쿡엔지니어
총 56개 수업 (6시간 48분)
수강기한: 
무제한
수료증: 발급
난이도: 
입문
-
초급
-
중급이상
지식공유자 답변이 제공되는 강의입니다
폴더에 추가 공유

중급자를 위해 준비한
[데이터 분석, 인공지능] 강의입니다.

실리콘밸리 소프트웨어 엔지니어에게 배우는 빅데이터를 처리하는 방법 & 파이썬을 이용해 아파치 스파크로 빅데이터 코드를 개발하는 법을 가르쳐 드립니다. 현재 12년차 소프트웨어 개발자로 웹 어플리케이션, 빅데이타 그리고 SRE & 데브옵스까지 파이썬으로 다 처리하고 있습니다. 파이썬을 이용해, 빅데이터 직군에서 꼭 알아야하는 아파치 스파크에 대해서 쉽고 깊게 배울 수 있는 기회를 절대 놓치지 마세요!

✍️
이런 걸
배워요!
파이스파크
아파치 스파크
빅데이터
빅데이터 머신 러닝
실시간 빅데이터 처리
Cassandra

실리콘밸리 엔지니어에게 직접 배우는
빅데이터 강의 들어보실래요? 🤗

실리콘밸리 개발자의 노하우를
내 방에서! 🖥️

빅데이터 개발을 실리콘밸리 개발자의 노하우와 함께 쉽게 배울 수 있습니다.

실리콘 밸리를 포함한 전 세계의 많은 대기업과 금융기관에서는 Apache Spark를 활용하여 대용량 데이터를 분석하고 머신 러닝 모델을 만들고 있습니다. 빅데이터를 다루는 일은 데이터 엔지니어와 데이터 사이언티스트의 필수 능력입니다. 그리고 빅데이터를 수집하고 분석하기 위해서는 이제 Spark의 능력은 필수입니다.

Spark는 처음부터 분산 데이터 처리 프레임을 기반으로 만들어졌기 때문에 적게는 한 대부터 많게는 수백 대의 서버에서 용량을 확장해 가면서 실시간으로 빅데이터를 처리하고 또한 이를 머신러닝 모델로 만들 수 있습니다. 현재 저는 페타바이트(PB) 이상의 데이터를 관리하며, 100TB 이상의 메모리를 운용하고 있습니다.

본 강의를 들은 후에는 아파치 스파크(Apache Spark)의 핵심 Framework에 대해 이해하고, 빅데이터를 쉽게 수집 및 가공할 수 있으며, 간단한 머신러닝 모델을 여러 대의 서버에 이용해서 만들 수 있을 겁니다. 파이썬 기본 문법을 알고 있다면 충분히 공부할 수 있어요.

빅데이터 분석을 위한 Spark의 RDD 및 Dataframe 활용 능력

머신러닝 Framework을 구성하는 다양한 기술 요소에 대한 이해 

실시간 데이터를 분석하기 위한 Spark Streaming에 대한 이해 


이런 분들께 추천해요 🙋

많은 양의 데이터를 다뤄야 하는
백엔드 개발자

빅데이터 분야를
공부해보고 싶은 개발자

스파크의 깊은 지식을 배우고
싶은 데이터 엔지니어


이런 걸 배워요 📚

1. 아파치 스파크 소개

  • 아파치 스파크에 대한 소개
  • 도커(Docker)를 이용한 설치 방법
  • 데이터브릭스 커뮤니티 에디션 가입 및 이용 방법

2. 아파치 스파크 RDD의 기본적인 특징과 예제

  • 아파치 스파크의 RDD(Resilient Distributed Dataset)의 기본적인 특징과 이용 방법
  • 아파치 스파크 RDD 예제 소개

3. 아파치 스파크 SQL과 Dataframe(데이터 프레임)

  • 아파치 스파크 SQL과 Dataframe의 소개와 응용 방법
  • 아파치 스파크 SQL, 데이터 프레임 예제

4. 아파치 스파크 엔진 Deep dive

  • 현업 종사자도 잘 모르는 아파치 스파크 엔진 지식


5. 아파치 스파크 Machine Learning(머신러닝) 라이브러리, MLlib

  • 간단한 머신러닝의 알고리즘
  • 아파치 스파크로 머신러닝 모델을 만드는 방법

6. 아파치 스파크 Streaming, 실시간 데이터 처리 라이브러리

  • 아파치 스파크로 실시간 데이터를 다루는 방법 


예상 질문 Q&A 💬

Q. 비전공자도 들을 수 있는 강의인가요?

네, 하지만 파이썬의 기본 능력과 데이터를 다루었던 경험이 있으셔야 이해가 쉬울 수 있습니다.

파이썬이 처음이시라면 유튜브를 통해 파이썬 기초를 학습하거나 아래 강의를 먼저 수강해주세요! 기초 부분만 보셔도 전체 강의를 따라오는 데 어려움은 없을 것입니다.

Q. 수업 내용을 어느 수준까지 다루나요?

스파크의 기초부터, 현업에 필요한 고급 정보까지 다룹니다.

Q. 왜 스파크를 배워야 하나요?

국내뿐만 아니라 실리콘 밸리 대부분의 회사에 스파크로 빅데이터를 처리하고 있습니다. 그만큼 스파크로 데이터를 처리하시는 방법을 아신다면, 취업하시기도 한결 쉬우실 겁니다.


지식공유자 소개 ✒️

이력 사항

포트폴리오/개인 영상


수강 전 참고 사항 📢

실습 환경

  • 운영 체제 및 버전(OS): MacOS, Linux, Ubuntu
  • 사용 도구: 가장 인기 있는 Docker를 사용(공개된 도커 이미지 사용), 데이타브릭스 커뮤니티 에디션

학습 자료

  • 소스 코드 및 첨부 자료 제공

이런 분들께 추천드려요!

🎓
학습 대상은
누구일까요?
파이썬의 기본적인 문법을 아시는 분
빅데이터 직군으로 이직하시고 싶은 분
상대적으로 안정적인 벡엔드 엔지니어가 되고 싶은 분
백엔드 엔지니어로 이직하시고 싶은 분
아파치 스파크의 최신 정보와 세부사항을 아시고 싶으신 분
📚
선수 지식,
필요할까요?
파이썬
Docker(다커)

안녕하세요
미쿡엔지니어 입니다.
미쿡엔지니어의 썸네일

실리콘 밸리에서 13년 이상 소프트웨어 엔지니어를 하고 있습니다.

현재는 실리콘 밸리 대기업 본사에서 빅데이터와 DevOps 관련일을 하는 엔지니어입니다.

커리큘럼 총 56 개 ˙ 6시간 48분의 수업
이 강의는 영상, 수업 노트, 첨부 파일이 제공됩니다. 미리보기를 통해 콘텐츠를 확인해보세요.
섹션 0. Apache Spark Introduction: 아파치 스파크 소개
아파치 스파크 소개 미리보기 08:50
(Optional) Docker란 무엇이고 왜 필요한가 04:47
아파치 스파크를 Docker를 이용해 설치 미리보기 07:10 Databricks 플랫폼 community edition 사용하기 미리보기 06:22
Spark Architecture(스파크 아키텍쳐) 소개 07:32
강의 자료 깃헙
섹션 1. 아파치 스파크 RDD의 기본적인 특징과 예제
Word Count 예제를 통해 기본 문법을 알아보기 미리보기 09:26
Key Value Pair / Average Example 평균값 구하기 08:12
Filter와 Min/Max를 이용해 데이타를 필터하고 최대값과 최소값 구하기 06:07
Map vs. Flatmap 맵과 플랫맵의 차이점에 대해서 알아보기 06:33
잠깐의 공지사항! 00:36
섹션 2. 아파치 스파크 SQL과 Dataframe(데이타 프레임)
아파치 스파크 SQL과 데이타프레임(Dataframe) 기본에 대해서 알기 07:48
Dataframe을 예제로 알아보기 08:08
CSV 파일을 Dataframe으로 읽어오기 07:53
Dataframe으로 단어 세어보기 07:00
Dataframe StructType에 대해 알아보기 04:48
Dataframe으로 데이터 총합 구하기 03:53
Broadcast(브로드캐스트)의 소개와 브로드캐스트 조인 방법 알아보기 09:09
Dataframe Graph 알아보기 13:11
Dataframe missing data(빈 데이타)와 date(시간 포맷) 다루는 방법 알아보기 11:09
Dataframe Join(데이타 병합)하는 모든 방법 07:14
섹션 3. 아파치 스파크 엔진 Deep dive 첫번째
Spark Submit 명령어 대한 이해 04:21
RDD와 Dataframe의 API 카테고리에 대해 알아보기 04:09
Logical Plan과 Physical Plan에 대해 알아보기 07:26
스파크의 Memory Allocation과 Memory Management 08:52
Adaptive Query Execution(AQE)에 대해서 보다 자세히 알아보기 08:54
스파크의 Dynamic Partition Pruning(DPP) 장점 알아보기 09:18
섹션 4. 아파치 스파크 엔진 Deep Dive 두번째
스파크 Cache(캐시)에 대해 알아보기 03:18
Repartition과 Coalesce에 대해 알아보기 03:23
SQL Hint에 대해 알아보기 02:04
자료 카운트를 세는 Accumulator에 대해 알아보기 02:15
Speculative execution에 대해 알아보기 02:41
Job Scheduling에 대해 알아보기 05:09
섹션 5. 아파치 스파크 Streaming, 실시간 데이타 처리 라이브러리
Streaming(스트리밍) 소개 08:14
Streaming(스트리밍) 예제로 알아보기 05:42
Structured Streaming(구조화된 스트리밍) 예제로 알아보기 03:01
Structured Streaming Output Mode(아웃풋 모드)에 대해 자세히 알아보기 03:12
Streaming Input sources, Processing Model and Trigger settings에 대해 이해하기 09:29
Streaming Fault Tolerance(결함 감내)에 대해서 알아보기 06:02
섹션 6. Spark Streaming with Kafka, 카프카로 실시간 데이타 처리
Apache Kafka(아파치 카프카) 5분만에 이해하기 미리보기 05:01
Docker compose를 이용해 Apache Spark cluster& Apache Kafka 설치하기 11:55
Streaming에서 Kafka 데이타 추출하기 10:41
Streaming에서 Kafka로 JSON 데이타 보내기 10:39
Sink to multiple streams(두개 이상의 스트림 아웃풋) 예제로 알아보기 04:49
Stateful vs. Stateless Transformation 08:44
Window Aggregation(ft. Tumbling vs. Sliding)에 대해 알아보기 11:33
Watermark 이해하기 11:14
Streaming to Static Data Join(ft. Apache Cassandra) 카산드라를 활용한 스트리밍 조인 13:33
Streaming to Streaming Data Join 두개의 스트리밍 조인해 보기 07:43
Outer join limitations 아우터 조인의 한계에 대해 알아보자 05:06
섹션 7. 아파치 스파크 Machine Learning(머신러닝) 라이브러리, MLlib
Machine Learning Library(MLlib) 머신러닝 라이브러리 소개 12:13
Linear Regression(선형 회귀) 모델에 대해 기본적인 이해하기 09:45
Linear Regression(선형 회귀) 모델을 실전 예제 데이타로 만들어 보기 07:00
ALS Collaborative Filtering에 대해 기본적인 이해하기 08:56
ALS Collaborative Filtering 영화 추천 알고리즘 실전 예제로 알아보기 14:16
섹션 8. Apache Spark on Cloud(아파치 스파크 온 클라우드)
아마존 웹 서비스 Elastic MapReduce(EMR) 클러스터 만들어보기 11:45
강의 게시일 : 2023년 01월 11일 (마지막 업데이트일 : 2024년 01월 02일)
수강평 총 13개
수강생분들이 직접 작성하신 수강평입니다.
4.5
13개의 수강평
5점
4점
3점
2점
1점
VIEW 추천 순 최신 순 높은 평점 순 낮은 평점 순 평점 순 높은 평점 순 낮은 평점 순
Hyun Suk Lee thumbnail
5
초보 에게 굉장히 도움이 됩니다.
2023-12-05
지식공유자 미쿡엔지니어
안녕하세요 Hyun Suk Lee님, 도움이 되셨다니 정말 기쁩니다! 질문이 있으시면 언제든지 남겨주세요
2023-12-06
Hyun Suk Lee
Discord같은 소통채널을 개설해주시면 조금 더 도움이 되지 않을까 싶습니다!
2023-12-06
지식공유자 미쿡엔지니어
안녕하세요 Hyun Suk Lee님, 현재 페북 비즈니스 페이지 업데이트 중이라 2024년도에는 열 수 있을 듯 합니다 ㅎㅎㅎ 좋은 조언 감사합니다!
2023-12-07
communication thumbnail
5
차근차근 설명해주셔서 이해가 잘갑니다. 그리고 설명을 영어로 해주시는데 듣다보니 제 귀도 트이는 것 같아요 ㅎㅋㅋㅎ spark로 실제 프로젝트? 구성하는 강의 있으면 듣고 싶습니다 ㅎㅎ! 감사합니다.
2023-04-14
지식공유자 미쿡엔지니어
안녕하세요. 커뮤니케이션님! 좋은 리뷰 남겨주셔서 참 감사합니다. 시간이 되면 어떤 식으로 데이타를 처리하는지 실전예제 한번 올려보도록 하겠습니다.
2023-04-14
준혁 thumbnail
5
de 에서 백엔드 개발자로 이직했었는데 다시 de 일을 하고싶어서 복습하는 과정에서 좋네요 spark UI 랑 코드랑 매핑해서 설명하는것도 있었으면 좋았을것 같았어요 완강후 후기 spark UI 랑 코드랑 매핑해서 설명하는것도 있었네요 스트리밍 개념이 좀더 필요해서 강의를 들은 것도 있었는데 좋았아요 추후 스파크사용법은 배웠지만 어떻게 데이터 파이프라이닝을 구축하고 어떤식으로 구축을 해야하는지에 대한 강의도 나왔으면 좋겠네요
2023-12-23
지식공유자 미쿡엔지니어
안녕하세요 준혁님! 좋은 리뷰 정말 감사드립니다! 말씀하신대로 강의는 데이터 엔지니어를 처음 시작하시는 분뿐 아니라 다시 한번 리뷰하시기 위한 분들을 위한 강의이기도 합니다. 저도 데이터 한 분야만 하는 경우가 아니라 제가 만든 강의라도 가끔씩 돌려보곤 합니다. 좋은 리뷰 감사드립니다!
2023-12-25
Hyunwoo Park thumbnail
5
Spark를 실전에서 사용하기에 좋은 강의 구성입니다. 항상 개발 환경 구축이 복잡하고 시간이 많이 걸려서, 배우기 시작하기도 전에 에너지가 소모되곤 했는데, docker-compose로 한 번에 공부할수 있는 환경 구축 방법도 알려주셔서 배우는데 집중하기 좋았습니다. 몇 년 동안 Spark를 사용해서 개발해 왔지만, 개념을 전반적으로 돌아보면서 제가 몰랐던 기능들을 더욱 자세하게 알게 되어 좋았습니다. 초보자나 중급자 모두에게 적합한 Spark 강의라고 생각됩니다. 감사합니다!
2023-11-04
지식공유자 미쿡엔지니어
안녕하세요 Hyunwoo Park님, 좋은 리뷰 감사합니다. 원래 클러스터 만드는 것이 가장 귀찮은 부분이기도 하고 내가 알아야 하는건가라는 의심이 가장 많이 드는 점이죠. 아마 대부분의 데이타 엔지니어가 그럴 듯 합니다. 다시 한번 도움이 되었다는 거에 기쁘고, 좋은 리뷰 감사드립니다.
2023-11-04
yunjunghun thumbnail
5
아주 좋은 강의 감사드립니다. 한 과정 한 과정 필수적인 내용을 구성하셨고 많은 도움을 얻게 되었습니다. 이 시간에 이 정도 분량의 지식을 전달하는 것 자체가 대단합니다. 저는 개인적으로 Apache Flink관련 강의를 약간 하고 있는 입장에서 Apache Spark 강의를 통해 큰 인사이트를 받아 갑니다 다른 과정도 큰 기대를 하고 있습니다.
2023-10-29
지식공유자 미쿡엔지니어
안녕하세요 Yunjunghun님, 좋은 강의가 되셨다니 정말 기분 좋습니다. 앞으로도 열심히 더 업데이트 해서 많은 정보 전해드리겠습니다.
2023-10-30