강의

멘토링

커뮤니티

로드맵 썸네일

실리콘밸리 엔지니어에게 직접 배우는 데이터 엔지니어링

작성자 프로필 이미지

미쿡엔지니어

Python
빅데이터
데이터 엔지니어링

입문 대상

로드맵 참여중인 유저 프로필 사진
로드맵 참여중인 유저 프로필 사진

57명 참여중

조회수

2,742

로드맵 코스

데이터를 흐르게 하는 기술: Python → SQL → Spark → Airflow → Flink → Streamlit → Superset → System Design 🌎


데이터 엔지니어링이란?📈

데이터 엔지니어링은 데이터를 수집, 저장, 처리하여 분석이나 비즈니스 활용이 가능하도록 하는 기술과 프로세스를 다룹니다. 데이터를 효율적으로 이동하고 변환하며, 대규모 데이터 시스템을 설계하고 최적화하는 것이 핵심입니다. 이를 통해 기업은 데이터 기반 의사결정을 내리고, AI와 머신러닝 등 고급 기술을 활용할 수 있습니다.


왜 이 코스가 당신의 선택이어야 할까요? 🧭

실제 회사에서 데이터가 흐르는 방식을 이해하고 구축할 수 있는 수준을 목표로 합니다.

  • Python(파이썬)

    • 데이터 처리와 자동화를 위한 가장 유연하고 강력한 프로그래밍 언어.

  • SQL (데이터 질의 언어)

    • 데이터 엔지니어에게는 가장 기본이자, 가장 강력한 도구입니다.
      SQL을 잘하는 순간, 데이터 분석·모델링·파이프라인 설계가 모두 한 단계 올라갑니다.

      • 데이터 필터링, 집계, 조인 등 분석의 근본

      • 데이터 모델링(Fact / Dimension)을 이해하는 핵심 언어

      • 실무에서는 Spark, Flink, dbt, Superset, Snowflake 등 모든 데이터 플랫폼의 공통 언어

      • SQL을 모르면 어떤 도구를 써도 반쪽짜리…
        그래서 데이터 엔지니어의 절대 기본기로 꼽힙니다.

  • Apache Spark(PySpark)

    • 대규모 데이터를 배치(batch) 방식으로 처리하는 데 최적화된 빅데이터 엔진.

    • 분산 처리, 병렬 처리의 핵심 개념을 익힐 수 있습니다.

  • Apache Airflow(에어플로우)

    • 데이터 파이프라인의 Scheduling / Workflow / Dependency 관리를 자동화하는 오케스트레이션 도구.

    • Spark가 데이터를 처리한다면, Airflow는 Spark가 언제, 어떤 순서로 동작할지 지휘합니다.

  • Apache Flink (실시간 Dataflow 엔진)

    • Apache Spark가 배치 처리에 강하다면, Flink는 실시간 스트리밍 처리에 최적화된 엔진입니다.

      • Kafka → Flink → Data Warehouse 패턴

      • 실시간 대시보드 / 알림 시스템 구축 가능

      • 이벤트 기반 스트리밍 파이프라인의 핵심

      요즘 데이터 플랫폼의 방향은 실시간(streaming) 입니다. Flink는 그 중심에 있습니다.

  • Streamlit (데이터 시각화 & 내부 도구 개발)

    • 데이터 결과를 즉시 웹앱으로 시각화하고, 데이터 파이프라인의 output을 전달하는 UI를 만들 수 있습니다.

      • 분석 결과를 빠르게 공유

      • ML 모델 / 데이터 품질 모니터링 대시보드 제작

      • 노코드 느낌으로 빠르게 웹앱 제작

      엔지니어가 만든 데이터를 비즈니스가 활용할 수 있게 만드는 도구.


  • Apache Superset (데이터 시각화 & 대시보드)

    • 데이터 웨어하우스에 쌓인 결과물을 비즈니스가 바로 활용할 수 있게 도와주는 오픈소스 BI 도구입니다.
      엔지니어가 만든 데이터 파이프라인의 “마지막 결과물”을 시각적으로 전달하는 도구이기도 합니다.

      • SQL만 알면 누구나 바로 시각화 가능

      • 차트/대시보드를 빠르게 공유 → 팀 전체의 데이터 활용도 ↑

      • Airflow → Spark/Flink → Warehouse → Superset 으로 이어지는 엔드투엔드 데이터 파이프라인 구성의 마지막 단계

      • 실시간/배치 데이터를 모두 시각화 가능

      • 스타트업부터 빅테크까지 널리 사용하는 오픈소스

      특히 Superset을 잘 다루면
      “데이터 엔지니어가 만든 파이프라인의 가치를 눈에 보이게 만드는 능력”
      을 갖추게 됩니다. 회사가 제일 좋아하는 역량 중 하나입니다.

  • 모르면 승진 안되는 데이터 아키텍처의 정석

    • 단순히 코드로 데이터를 처리하는 것이 아니라,
      데이터가 시스템 전체에서 어떻게 흘러가는지를 설계할 수 있어야 합니다.

      • Batch vs Streaming 설계

      • Kafka / Data Lake / Warehouse 구조

      • CDC, ETL, ELT 전략

      실무에서 요구하는 것은 "Spark를 할 줄 아는 사람"이 아니라
      "데이터 플로우를 설계할 줄 아는 사람" 입니다.

  • Software System Design (대규모 시스템 설계)

    • 데이터 엔지니어링은 결국 소프트웨어 엔지니어링의 한 영역입니다.

      • 모듈화 / 확장성 / 장애 대응

      • API와 서비스 설계

      • 대규모 시스템에서 비용 최적화

      개발자 관점에서 데이터 시스템을 설계할 수 있는 능력 을 갖게 됩니다.


🔥 왜 Python + PySpark + Airflow + Flink 조합인가?

데이터 엔지니어링은 대규모 데이터를 효율적으로 수집, 처리, 저장, 그리고 전달하는 데 초점을 맞추기 때문에 강력한 도구와 기술이 필요합니다.
Python과 PySpark는 데이터 처리와 분석에서 필수적인 유연성과 성능을 제공하며, Flink는 실시간 스트리밍 처리를 가능하게 합니다.
Airflow는 이를 자동화하고 안정적으로 운영할 수 있도록 지원합니다.

이 조합은 데이터 기반 의사결정과 AI/ML 파이프라인을 구축하는 데 필수적인 기반을 제공합니다. 💪

Streamlit은 이 모든 결과를 비즈니스가 활용할 수 있는 형태로 전달할 수 있게 해줍니다.

로드맵 상세보기

9개 코스

로드맵에 포함된 강의 썸네일
인프런
실리콘밸리 엔지니어가 가르치는 파이썬 기초부터 고급까지
실리콘밸리 소프트웨어 엔지니어에게 배우는 파이썬의 모든 것. 현재 14년차 소프트웨어 개발자로 웹 어플리케이션, 빅데이타 그리고 SRE & 데브옵스까지 파이썬으로 다 처리하고 있습니다. 파이썬의 기초부터 고급 기술까지, 실리콘 밸리 실무에서 파이썬을 사용하는 모든 스킬과 노하우를 배울 수 있는 기회를 절대 놓치지 마세요!

99,000

로드맵에 포함된 강의 썸네일
SQL을 처음 배우는 분들도 가볍게 시작해서 바로 써먹을 수 있게 만드는 실전 중심 강의입니다. ✨
SELECT로 데이터 꺼내보고, JOIN으로 연결하고, GROUP BY로 정리하는 등
실무에서 가장 자주 쓰는 기능만 쉽고 재미있게 배워봐요! 📊

복잡한 설명은 최소화하고,
“아, 이래서 SQL이 중요하구나!” 바로 이해되는 현실적인 예제 중심으로 진행됩니다. 💡

데이터 분석가, 개발자, 데이터 엔지니어…
어떤 길을 선택하든 SQL은 필수 스킬입니다. 🚀
이 강의 하나로 기본기를 확실하게 잡고,
실전에서도 스스로 문제를 해결할 수 있는 데이터 감각을 만들어 드릴게요! 🔥

지금 바로 시작하세요.
데이터 세계로 들어가는 가장 쉬운 첫걸음입니다! 🌍💙

2,200

22,000

로드맵에 포함된 강의 썸네일
실리콘밸리 소프트웨어 엔지니어에게 배우는 빅데이터를 처리하는 방법 & 파이썬을 이용해 아파치 스파크로 빅데이터 코드를 개발하는 법을 가르쳐 드립니다. 현재 14년차 소프트웨어 개발자로 웹 어플리케이션, 빅데이타 그리고 SRE & 데브옵스까지 파이썬으로 다 처리하고 있습니다. 파이썬을 이용해, 빅데이터 직군에서 꼭 알아야하는 아파치 스파크에 대해서 쉽고 깊게 배울 수 있는 기회를 절대 놓치지 마세요!

99,000

로드맵에 포함된 강의 썸네일
실시간 데이터 처리, 이제는 선택이 아닌 필수!
Apache Flink로 실시간 스트리밍을 똑똑하게 다뤄봅니다.
배치? 스트리밍? 복잡한 개념도 쉽게, 빠르게 이해할 수 있어요.
Kafka, DB 연동까지 직접 해보며 감 잡는 실습 위주 구성!
데이터로 움직이는 세상, Flink로 먼저 시작해보세요.

44,000

로드맵에 포함된 강의 썸네일
🔥 바이브코딩 with Streamlit 🔥
코드 한 줄로 나만의 웹서비스를 바로 만들어보는 실시간 코딩 경험!
MZ 감성에 맞춘 비주얼 중심의 실습형 강의, 복잡한 백엔드 지식은 필요 없어요.
Streamlit에 대한 기초를 배우고 실질적인 앱까지 직접 구현하면서 개발 감각을 깨웁니다.
지금 바로 “나만의 서비스”를 코드로 vibe 있게 완성해보세요 😎💻

44,000

로드맵에 포함된 강의 썸네일
Apache Superset은 여러 데이터베이스를 연결해서 차트·대시보드를 뚝딱 만들 수 있는 오픈소스 BI 툴입니다. 코드 몰라도 시각화 가능하고, SQL Lab에서는 직접 쿼리도 날릴 수 있어 초보부터 프로까지 모두 유용합니다. 만든 대시보드는 바로 공유하고 권한 설정까지 할 수 있어 협업에도 완벽합니다. Superset을 배우면 데이터 기반 의사결정을 빠르게 만들고, 회사에서 바로 써먹는 실전 대시보드를 만드는 역량을 갖출 수 있습니다. 한마디로, 데이터를 “말하게” 만들고 싶은 사람에게 딱입니다. 🚀

33,000

로드맵에 포함된 강의 썸네일
데이터 시대, 진정한 가치를 발견하라! 📊
데이터에 집중된 어플리케이션 설계는 이제 필수가 되었습니다.
최신 트렌드와 실무 중심의 사례로 회사가 원하는 인사이트와 실력을 키워보세요.
효율적인 데이터 처리와 설계 비법, 지금 바로 시작하세요!
당신의 다음 스텝, 데이터 중심의 세계로 도약하세요!

132,000

로드맵에 포함된 강의 썸네일
실리콘 밸리 엔지니어 아저씨들이 가르치는 소프트웨어 시스템 디자인 강의에서는 대규모 시스템의 설계 원칙과 아키텍처 패턴을 학습하며, 안정적이고 확장 가능한 소프트웨어 솔루션을 구축하는 방법을 배웁니다. 또한, 실무 사례를 통해 성능 최적화 및 장애 대응 전략을 다룹니다.

165,000

로드맵 코스 9