진짜 현장에서 통하는 OCR, 이렇게 만듭니다.
데이비드최
현업에서 진짜 쓰이는 OCR 기술, 제대로 배워보고 싶다면 이 강의 하나로 끝! 비정형 문서와 복잡한 레이아웃에서도 98% 이상의 정확도를 목표로, 최신 SOTA 모델과 실전 노하우를 바탕으로 기업 수준의 OCR 프로젝트를 함께 만들어갑니다.
초급
Python, 인공지능(AI), openai
스파크 기반 핵심 명령 사용법
스파크 기반 데이터 사이언스
"따라하는 실전 Spark Part 1"은 데이터 사이언스를 처음 접하는 학습자부터 Spark를 활용한 실무 프로젝트를 준비하는 실무자까지 모두를 대상으로 설계된 실전 중심의 강의입니다. 이 강의는 Spark의 기본 개념부터 실무 활용법까지 체계적으로 학습할 수 있도록 구성되어 있으며, 특히 Spark 프로젝트 수행에 필수적인 명령어와 데이터 처리 방법을 중점적으로 다룹니다.
@Apache Spark, @빅데이터, @머신러닝, @데이터 엔지니어링, @데이터 트랜스포메이션
Spark의 기본 원리와 환경 설정: Spark의 동작 원리와 환경 구성 방법을 익혀 로컬 및 Docker 환경에서 효율적으로 활용할 수 있습니다.
분산 데이터 처리와 최적화: Spark의 분산 처리 개념과 데이터 파티션, 셔플, 클러스터 리소스 구성 등을 실습하며, 대규모 데이터 처리의 기초를 다집니다.
실무 중심 데이터 처리 기술 습득: 다양한 Spark 명령어를 통해 데이터를 로드, 변환, 필터링, 조합하며, 고급 데이터 처리 기법을 학습합니다.
데이터 분석과 시각화 능력 배양: Spark의 데이터 프레임과 SQL 명령을 활용해 데이터를 분석하고, 결과를 시각화합니다.
오리엔테이션
Spark의 개념과 실무 활용 가능성을 소개하고, 학습 방향을 제시합니다.
Spark 환경 구성
로컬 환경 및 Docker를 활용한 Spark 설치와 설정 방법을 익혀 실습 환경을 구성합니다.
분산 처리 개념
Spark가 대규모 데이터를 처리하는 방식과 분산 처리의 기본 원리를 학습합니다.
Spark 동작 이해
Lazy Operation, 파티션, 셔플 등의 핵심 동작 원리를 Jupyter Notebook과 Spark UI를 통해 시각적으로 이해합니다.
실전 Spark 필수 명령어
데이터 로딩, 날짜 필터링, join, aggregation, UDF 활용, 데이터 저장 등 실무에서 자주 사용되는 명령어를 익힙니다.
SQL 명령을 효율적으로 활용하는 방법도 포함됩니다.
고급 데이터 처리
문자열 데이터 처리, null 값 처리, JSON 데이터 다루기, 파티션 최적화 등 실무에서 흔히 접하는 문제를 다루는 고급 기술을 학습합니다.
Spark의 기본부터 실전 활용법까지 배우고자 하는 초보 학습자
Spark를 활용한 데이터 분석 및 엔지니어링 기술을 익히고자 하는 데이터 엔지니어
기업의 Spark 프로젝트를 수행하거나 확장 가능한 데이터 파이프라인을 구축하고자 하는 실무 전문가
Spark를 활용한 데이터 처리와 분석 능력을 갖추고, 기업에서의 Spark 프로젝트 수행 역량을 확보할 수 있습니다.
실무에서 데이터를 로드, 변환, 저장하며 대규모 데이터를 효율적으로 처리하는 노하우를 습득합니다.
Part 2에서 다룰 클라우드 환경의 Spark 프로젝트에 대한 기초를 확실히 다질 수 있습니다.
Spark를 처음 시작하거나, 데이터 처리의 실무적인 스킬을 익히고자 한다면 "따라하는 실전 Spark Part 1"은 완벽한 출발점이 될 것입니다. 데이터 사이언스의 세계로 함께 나아가세요! 🎓✨
학습 대상은
누구일까요?
스파크를 처음 접하는 사람
스파크 기업 프로젝트를 수행하고 싶은 사람
선수 지식,
필요할까요?
파이썬 기초(아주 낮은 수준)
122
명
수강생
11
개
수강평
24
개
답변
4.9
점
강의 평점
3
개
강의
현재 대기업 중심으로 아래와 같은 프로젝트의 개발책임 및 컨설팅을 맡고 있습니다. 현역^^입니다.
더불어, 고려대 대학원에서 인공지능 관련 겸임교수로도 활동하고 있습니다.
저의 목표는 실전에 바로 써먹을 수 있는 현장감 있는 프로그래밍 기술입니다. 앞으로 많은 여러분과 함께 재미난 수업 만들어 나가고 싶습니다.
엔터프라이즈 인공지능 구조 및 서비스 설계
머신러닝 서비스 구현
벡엔드 서비스 개발
클라우드(Azure) Databricks, ETL, Fabric 등 각종 클라우드 환경에서의 데이터베이스 구축 및 서비스 개발
전체
48개 ∙ (10시간 1분)
1. 오리엔테이션
02:54
2. 스파크 환경구성(소개)
00:51
3. 스파크 환경구성(로컬 환경)
15:24
4. 스파크 환경구성(도커 환경)
12:44
5. 분산 처리
20:11
6. 스파크 동작의 원리 이해
06:23
10. 파티션 이해하기(개념)
02:52
12. 셔플(개념이해)
06:51
15. 데이터프레임 part1
13:25
16. 데이터프레임 part2
11:55
17. 데이터프레임 part3
08:15
18. 가상 데이터 만들기
23:31
19. 데이터 로딩과 날짜 필터링
13:56
20. join의 동작
09:11
21. aggregation
13:06
22. 칼럼명 변경
03:33
23. 데이터 타입 변경
06:28
24. 중복값 제거
05:19
25. 시각화
13:56
27. 스키마
25:10
28. udf
20:33
29. 데이타프레임 저장 part1
18:07
30. 데이터프레임 저장 part2
08:33
31. window part1
27:48
32. window part2
03:44
36. 문자열 데이터 처리 part1
11:50
37. 문자열 데이터 처리 part2
14:24
38. 문자열 데이터 처리 part3
07:03
39. null 값 처리 part1
17:25
40. null 값 처리 part2
14:23
41. null 값 처리 part3
11:12
42. null 값 처리 part4
13:16
43. JSON 데이터 다루기
23:14
44. 파티션 최적화 part1
02:35
45. 파티션 최적화 part2
26:06
46. 파티션 최적화 part3
04:06
47. 파티션 최적화_part4
09:09
48. 실전 스파크 파트1을 마치며
01:26
월 ₩19,800
5개월 할부 시
₩99,000
지식공유자님의 다른 강의를 만나보세요!
같은 분야의 다른 강의를 만나보세요!