데이터 사이언스

/

데이터 엔지니어링

빅데이터 클러스터 구축 패키지; 성공을 향한 로드맵

High Availability가 보장되는 빅데이터 시스템 또는 분산처리 시스템 클러스터 (HDFS, Zookeeper, Spark, Zeppelin) 를 직접 구축해보는 코드랩 위주의 수업입니다.

(4.7) 수강평 16개

수강생 86명

Thumbnail

초급자를 위해 준비한
[데이터 엔지니어링] 강의입니다.

이런 걸
배워요!

  • Big Data Cluster Setup

  • Distributed File OR Processing System

  • High Availability

  • Hadoop

  • HDFS

  • Apache Spark

  • Apache Zeppelin

  • Apache Zookeeper

  • AWS (EC2, AMI, Security Group)

빅데이터 분산 클러스터를 코드랩을 통해 실제 구축해보는,
빅데이터 클러스터 구축 패키지 
👨🏻‍🎓

안녕하세요 J.PHIL 입니다 🍏

한 학기가 흐르고 좋은 기회를 맞이하여, 이번 시즌에는 빅데이터 분산 클러스터를 직접 여러분이 구축해보는 '빅데이터 클러스터 구축 패키지' 강의를 진행하려고 합니다 📚

여러분들의 성원에 힘입어, 지난 '빅데이터 파이프라인 마스터' 수업의 영감을 바탕으로 '다소 챌린지할 수 있으나 다른 방향으로 유의미한 강의가 있지 않을까?' 고민끝에 한 땀 한 땀 정성들여 해당 강의를 제작하였습니다.

Keyword: Big Data Cluster, Distributed System, High Availability, Hadoop, HDFS, Apache Spark, Zookeeper, Zeppelin, AWS EC2 & AMI

 

우리는 강의를 들어야 할까요 🙇🏻

약 10년이 넘는 시간동안 급진적인 기술 발전으로 다양한 플랫폼 및 서비스가 우후죽순으로 생겨나고, 이를 통해 생활에서 파생되는 무수한 데이터들이 활용 및 분석되면서 저희는 질 높은 삶을 영위하고 있습니다.

아래 figure1. 처럼 국내 거대 대기업들 뿐만이 아니라 세계 거인 기업들은 Big Data Storage 및 Big Data Processing 에 대한 중요성은 공공연하게 강조하며, 많은 엔지니어들에게 이와 비슷한 분석 및 구축 스킬셋을 요구하고 있습니다.

 
001.png

<F1. 전세계 수많은 기업들이 데이터 처리에 집중>

 
002.png

<F2. 수많은 분야에서 빅데이터 클러스터 구축>

하지만 저희가 실제 해당 INDUSTRY에 진입하기전까지는 사전에 BIG DATA CLUSTER 를 직접 구축해보거나 다룰 수 있는 경험을 얻기는 쉽지 않습니다. 그래서 막상 유의미한 가치를 얻을 수 있는 기회가 왔을때, 이에 대한 경험 부족으로 아쉬운 결과를 맞이할 수도 있습니다.

저 또한 연구원 시절 'DATA TOPTIER CONFERENCE' 논문을 쓸때 50대 빅데이터 클러스트를 직접 구축을 했어야 했었고, 멤버들에게 솔선수범해야하는 부담감과 과금에 대한 큰 스트레스를 견디며 보름동안 밤낮을 지새우며 오로지 클러스터를 구축에 전념했었습니다.

물론 그 때의 소중한 경험으로 많이 배우고 앞으로 나아가는데 좋은 자양분이 되었지만, 저는 여러분이 이렇게 시간을 다소 비효율적으로 쓰길 원치 않습니다. , 여러분의 값진 약 200시간을 클러스터를 구축하는데만 쓰지 않고, 효율적으로 클러스터 위에 실험이나 고객 데이터 분석을 하는데 전념하길 기대하며 해당 강의를 제작하였습니다 📝

무엇보다도 여러분이 현재 강의를 듣고 클러스터 구축 경험을 쌓으신 후, 저처럼 직접 현업이나 대학원에서 빅데이터 클러스터를 구축시 큰 도움이 되길 바라며, 해당 강의는 무제한 으로 풀었으니 참고해주세요 💓

 

저희는 무엇을 배우게 되나요 📚

📝

Data Top-Tier Conference 논문을 땀흘려 쓴 경험

👨🏻‍💼

현업에서 얻은 값진 빅데이터 시스템 구축 및 분석 경험

🧑🏻‍🏫

오랫동안 대학교에서 좋은 제자들을 양성한 경험

이처럼 값진 경험 바탕으로, 해당 분야에서 여러분이 ⚔️ 강력한 무기를 만들 수 있도록

1. 고가용성이 보장되는 분산파일시스템 HDFS 위에 (아래 Daemon 예시 참고)

2. 빅데이터 시스템계 Masterpiece, Apache Spark 및 빅데이터 전용 노트북 Zeppelin

클러스터 패키지를 이론 및 탄탄한 코드랩을 통해 직접 구축해볼 예정입니다.

 

image.png

위에 고가용성 파일시스템 데몬 구성들이 다소 어렵게 보이시나요? 원래 항상 처음 보는 아키텍처 및 시스템 구성도들은 부담스럽기 마련입니다.

하지만

약 6년동안 훌륭한 제자들의 소중한 피드백을 회고하여, 지난 인프런 2개 강의를 런칭한 경험으로 바탕으로, 수강생분들의 눈높이에 맞춰 차근차근 하나씩 용이하게 최대한 쉽고 질 좋은 컨텐츠로 구성하였으니 부담없이 follow up 해주셔도 괜찮습니다.

special thanks to my lovely students 👨🏻‍🎓

 

커리큘럼에 대해서 알려주세요 🧑🏻‍🏫

바로 CODELAB 부터 시작하지 않고, 고가용성 클러스터를 구축할 때 필요한 이론 부터 학습합니다. 그리고 AWS 환경이나 리눅스 환경에 익숙하지 않는 수강생분들을 위해서 가이드 영상 및 백그라운드 지식을 공부하고 본격적으로 심층적인 코드랩을 진행할 예정입니다 😎

curri-1.jpg

 

빅데이터 OR 분산처리에 관심있는 누구나 수강 가능합니다 🧑🏻‍🎓

 

 

실습 환경은 어떻게 되나요? 💻

아래와 같이 부담없는 환경을 준비하셔도 충분히 수업을 따라오실 수 있습니다.

  • OS: Ubuntu 20.04 LTS

  • Editor: Vim (up to your preference)

  • Machine 사양

    • AWS EC2 / c5.large (2 Core 4GB) 4대 또는 5대

자세한 사항들은 Course Curriculum 시청 부탁드립니다 😊

 

J.PHIL 소개 👨‍👨‍👧‍👦

image.png

 

 

이런 분들께
추천드려요!

학습 대상은
누구일까요?

  • 빅데이터 처리 시스템 클러스터 구축을 직접 경험하고 싶은 수강생

  • 데이터 분석 및 시스템에 관심있고 직무를 희망하는 학생

  • 고가용성 클러스터 실습을 직접 경험하고 싶은 개발자

  • 빅데이터 분석 및 구축 분야에서 강점을 만들고 싶은 취준생

선수 지식,
필요할까요?

  • 파이썬 기초 코딩

  • 리눅스 명령어 기초 지식

  • 데이터베이스 기초 지식

안녕하세요
J.PHIL입니다.

안녕하세요 J.PHIL 입니다 🧑🏻‍🎓

첫번째 강의로 [ 빅데이터 시스템 구축 및 분석에 관심있는 입문자 ] 를 위해
"Mastering Big Data Processing: Tools and Techniques for Success" 강의를 오픈 하였습니다.

'수업 및 프로필' 자세한 사항들은 수업 상세 페이지에 잘 작성했으니 참고 부탁드립니다  🙏🏻

커리큘럼

전체

36개 ∙ (4시간 51분)

수업 자료

가 제공되는 강의입니다.

강의 게시일: 2023년 10월 30일
마지막 업데이트일: 2024년 03월 15일

수강평

아직 충분한 평가를 받지 못한 강의입니다.
모두에게 도움이 되는 수강평의 주인공이 되어주세요!