강의

멘토링

로드맵

Inflearn brand logo image
데이터 사이언스

/

데이터 엔지니어링

빅데이터 클러스터 구축 패키지; 성공을 향한 로드맵

High Availability가 보장되는 빅데이터 시스템 또는 분산처리 시스템 클러스터 (HDFS, Zookeeper, Spark, Zeppelin) 를 직접 구축해보는 코드랩 위주의 수업입니다.

(4.8) 수강평 20개

수강생 112명

  • J.PHIL

먼저 경험한 수강생들의 후기

이런 걸 배울 수 있어요

  • Big Data Cluster Setup

  • Distributed File OR Processing System

  • High Availability

  • Hadoop

  • HDFS

  • Apache Spark

  • Apache Zeppelin

  • Apache Zookeeper

  • AWS (EC2, AMI, Security Group)

빅데이터 분산 클러스터를 코드랩을 통해 실제 구축해보는,
빅데이터 클러스터 구축 패키지 
👨🏻‍🎓

안녕하세요 J.PHIL 입니다 🍏

한 학기가 흐르고 좋은 기회를 맞이하여, 이번 시즌에는 빅데이터 분산 클러스터를 직접 여러분이 구축해보는 '빅데이터 클러스터 구축 패키지' 강의를 진행하려고 합니다 📚

여러분들의 성원에 힘입어, 지난 '빅데이터 파이프라인 마스터' 수업의 영감을 바탕으로 '다소 챌린지할 수 있으나 다른 방향으로 유의미한 강의가 있지 않을까?' 고민끝에 한 땀 한 땀 정성들여 해당 강의를 제작하였습니다.

Keyword: Big Data Cluster, Distributed System, High Availability, Hadoop, HDFS, Apache Spark, Zookeeper, Zeppelin, AWS EC2 & AMI

 

우리는 강의를 들어야 할까요 🙇🏻

약 10년이 넘는 시간동안 급진적인 기술 발전으로 다양한 플랫폼 및 서비스가 우후죽순으로 생겨나고, 이를 통해 생활에서 파생되는 무수한 데이터들이 활용 및 분석되면서 저희는 질 높은 삶을 영위하고 있습니다.

아래 figure1. 처럼 국내 거대 대기업들 뿐만이 아니라 세계 거인 기업들은 Big Data Storage 및 Big Data Processing 에 대한 중요성은 공공연하게 강조하며, 많은 엔지니어들에게 이와 비슷한 분석 및 구축 스킬셋을 요구하고 있습니다.

 
001.png

<F1. 전세계 수많은 기업들이 데이터 처리에 집중>

 
002.png

<F2. 수많은 분야에서 빅데이터 클러스터 구축>

하지만 저희가 실제 해당 INDUSTRY에 진입하기전까지는 사전에 BIG DATA CLUSTER 를 직접 구축해보거나 다룰 수 있는 경험을 얻기는 쉽지 않습니다. 그래서 막상 유의미한 가치를 얻을 수 있는 기회가 왔을때, 이에 대한 경험 부족으로 아쉬운 결과를 맞이할 수도 있습니다.

저 또한 연구원 시절 'DATA TOPTIER CONFERENCE' 논문을 쓸때 50대 빅데이터 클러스트를 직접 구축을 했어야 했었고, 멤버들에게 솔선수범해야하는 부담감과 과금에 대한 큰 스트레스를 견디며 보름동안 밤낮을 지새우며 오로지 클러스터를 구축에 전념했었습니다.

물론 그 때의 소중한 경험으로 많이 배우고 앞으로 나아가는데 좋은 자양분이 되었지만, 저는 여러분이 이렇게 시간을 다소 비효율적으로 쓰길 원치 않습니다. , 여러분의 값진 약 200시간을 클러스터를 구축하는데만 쓰지 않고, 효율적으로 클러스터 위에 실험이나 고객 데이터 분석을 하는데 전념하길 기대하며 해당 강의를 제작하였습니다 📝

무엇보다도 여러분이 현재 강의를 듣고 클러스터 구축 경험을 쌓으신 후, 저처럼 직접 현업이나 대학원에서 빅데이터 클러스터를 구축시 큰 도움이 되길 바라며, 해당 강의는 무제한 으로 풀었으니 참고해주세요 💓

 

저희는 무엇을 배우게 되나요 📚

📝

Data Top-Tier Conference 논문을 땀흘려 쓴 경험

👨🏻‍💼

현업에서 얻은 값진 빅데이터 시스템 구축 및 분석 경험

🧑🏻‍🏫

오랫동안 대학교에서 좋은 제자들을 양성한 경험

이처럼 값진 경험 바탕으로, 해당 분야에서 여러분이 ⚔️ 강력한 무기를 만들 수 있도록

1. 고가용성이 보장되는 분산파일시스템 HDFS 위에 (아래 Daemon 예시 참고)

2. 빅데이터 시스템계 Masterpiece, Apache Spark 및 빅데이터 전용 노트북 Zeppelin

클러스터 패키지를 이론 및 탄탄한 코드랩을 통해 직접 구축해볼 예정입니다.

 

image.png

위에 고가용성 파일시스템 데몬 구성들이 다소 어렵게 보이시나요? 원래 항상 처음 보는 아키텍처 및 시스템 구성도들은 부담스럽기 마련입니다.

하지만

약 6년동안 훌륭한 제자들의 소중한 피드백을 회고하여, 지난 인프런 2개 강의를 런칭한 경험으로 바탕으로, 수강생분들의 눈높이에 맞춰 차근차근 하나씩 용이하게 최대한 쉽고 질 좋은 컨텐츠로 구성하였으니 부담없이 follow up 해주셔도 괜찮습니다.

special thanks to my lovely students 👨🏻‍🎓

 

커리큘럼에 대해서 알려주세요 🧑🏻‍🏫

바로 CODELAB 부터 시작하지 않고, 고가용성 클러스터를 구축할 때 필요한 이론 부터 학습합니다. 그리고 AWS 환경이나 리눅스 환경에 익숙하지 않는 수강생분들을 위해서 가이드 영상 및 백그라운드 지식을 공부하고 본격적으로 심층적인 코드랩을 진행할 예정입니다 😎

curri-1.jpg

 

빅데이터 OR 분산처리에 관심있는 누구나 수강 가능합니다 🧑🏻‍🎓

 

 

실습 환경은 어떻게 되나요? 💻

아래와 같이 부담없는 환경을 준비하셔도 충분히 수업을 따라오실 수 있습니다.

  • OS: Ubuntu 20.04 LTS

  • Editor: Vim (up to your preference)

  • Machine 사양

    • AWS EC2 / c5.large (2 Core 4GB) 4대 또는 5대

자세한 사항들은 Course Curriculum 시청 부탁드립니다 😊

 

J.PHIL 소개 👨‍👨‍👧‍👦

image.png

 

 

이런 분들께
추천드려요

학습 대상은
누구일까요?

  • 빅데이터 처리 시스템 클러스터 구축을 직접 경험하고 싶은 수강생

  • 데이터 분석 및 시스템에 관심있고 직무를 희망하는 학생

  • 고가용성 클러스터 실습을 직접 경험하고 싶은 개발자

  • 빅데이터 분석 및 구축 분야에서 강점을 만들고 싶은 취준생

선수 지식,
필요할까요?

  • 파이썬 기초 코딩

  • 리눅스 명령어 기초 지식

  • 데이터베이스 기초 지식

안녕하세요
입니다.

449

수강생

40

수강평

50

답변

4.9

강의 평점

2

강의

안녕하세요 J.PHIL 입니다 🧑🏻‍🎓

첫번째 강의로 [ 빅데이터 시스템 구축 및 분석에 관심있는 입문자 ] 를 위해
"Mastering Big Data Processing: Tools and Techniques for Success" 강의를 오픈 하였습니다.

'수업 및 프로필' 자세한 사항들은 수업 상세 페이지에 잘 작성했으니 참고 부탁드립니다  🙏🏻

커리큘럼

전체

36개 ∙ (4시간 51분)

해당 강의에서 제공:

수업자료
강의 게시일: 
마지막 업데이트일: 

수강평

전체

20개

4.8

20개의 수강평

  • 귤껍데기님의 프로필 이미지
    귤껍데기

    수강평 3

    평균 평점 4.3

    5

    44% 수강 후 작성

    I think this is a great course with a lot of content and is a good place to start. Thank you for preparing this course.

    • won831님의 프로필 이미지
      won831

      수강평 1

      평균 평점 5.0

      5

      19% 수강 후 작성

      I am a computer science student who is about to graduate and is aspiring to become a data engineer. While creating a portfolio related to employment, I had many concerns about how to configure pipelines and architectures for processing big data, and how to set up an AWS environment to use it efficiently at the lowest cost possible. Through this lecture, I gained tremendous insight and know-how. In particular, I am glad that I gained a lot of knowledge about various frameworks that handle big data, and that I was inspired to delve into which direction I can go in the future. It was like a shower after a drought. I recommend this course to students who are aspiring to this field like me.

      • jphil
        지식공유자

        Hello one831, Thank you for your valuable review. I hope you have good results in the future. Fighting!

    • youngmikwon님의 프로필 이미지
      youngmikwon

      수강평 3

      평균 평점 5.0

      5

      100% 수강 후 작성

      thank you!

      • jphil
        지식공유자

        Hello, Kwon Young-mi, Thank you for your valuable course review! Fighting!

    • jasonking님의 프로필 이미지
      jasonking

      수강평 2

      평균 평점 5.0

      5

      36% 수강 후 작성

      I'm listening to this lecture after listening to the previous pipeline lecture, and I like it because it's easy to understand~ Thank you for the compact and practical lecture~ I think I'll listen to this lecture quickly, but I'm looking forward to other lectures.

      • It took 2 days. Since it was in lab format, it progressed quickly, and it was difficult because the namenode did not start (I think it was because of a mistake somewhere) Later, I saw that the trouble shoot guide section organized the startup procedure script and log viewing section. If I had seen this, I would have recovered from the mistake a bit faster ㅜㅜ For those who are going to do it, it would be better to read it once and follow it rather than just following along~ Instructor. Thank you for the great lecture every time~

      • jphil
        지식공유자

        Hello Jason.King, Thank you for taking my lecture diligently :) Sometimes, it will be helpful to experience bugs or troubleshooting yourself, think about them, and review them, so I think this experience will be of great help in the future. If you build a large open source yourself, you will be able to build a cluster, so if another open source comes out, you will be able to build it well in a short time. Fighting in the future.

    • upgleman8112423674님의 프로필 이미지
      upgleman8112423674

      수강평 4

      평균 평점 5.0

      5

      31% 수강 후 작성

      This is a lecture that I highly recommend to beginners, from theory to code lab!! I highly recommend taking this as a mandatory lecture on building a big data cluster!!

      • jphil
        지식공유자

        Hello Yeonwoo Jung, Thank you for your valuable review. I hope you will invest a day or two when you have the chance to practice with AWS and achieve good results. Happy New Year :)

    ₩99,000

    J.PHIL님의 다른 강의

    지식공유자님의 다른 강의를 만나보세요!

    비슷한 강의

    같은 분야의 다른 강의를 만나보세요!