Thumbnail
BEST
데이터 사이언스 데이터 분석

단 두 장의 문서로 데이터 분석과 시각화 뽀개기 대시보드

(4.8)
164개의 수강평 ∙  2389명의 수강생

45,100원

지식공유자: 박조은
총 63개 수업 (11시간 10분)
수강기한: 무제한
수료증: 발급
난이도: 
입문
-
초급
-
중급이상
지식공유자 답변이 제공되는 강의입니다
폴더에 추가 공유
초급자를 위해 준비한
[데이터 분석, 데이터 사이언스] 강의입니다.

Pandas로 데이터 분석, 전처리, 머신러닝, 딥러닝에 활용하다 보면 늘 사용하는 기능 위주로 사용하게 됩니다. 이런 핵심적인 내용만을 모아 정리해 놓은 Pandas Cheat Sheet가 있습니다. 두꺼운 책으로 Pandas를 배우다 지치신 분들께 단 두 장의 문서로 Python Pandas를 알려드립니다. Pandas 공식 튜토리얼에서 제공하는 cheat sheet로 Pandas의 핵심 기능을 익혀봅니다.

✍️
이런 걸
배워요!
판다스 치트 시트에서 전하는 핵심 기능
파이썬 데이터 분석
머신러닝, 딥러닝을 위한 데이터 전처리
데이터 시각화
서울시 코로나19 사이트를 판다스로 크롤링, 전처리, 분석, 시각화 하기

파이썬 판다스 데이터 분석, 핵심만 한번에! 

단 두 장의 문서로 
판다스 데이터 분석을 
해결할 수 있다구요?

Python에서 엑셀과 유사한 기능을 사용할 수 있는 라이브러리로 Pandas(판다스)가 있습니다.

엑셀로 감당 안 되는 
대규모 데이터 처리도 OK.

판다스는 데이터 분석, 전처리를 위한
파이썬 데이터 분석 라이브러리입니다.

파이썬 판다스로 데이터 분석이나 전처리, 시각화를 하다 보면 주로 사용하는 기능들 위주로 사용하게 됩니다. 그리고 바로 이런 핵심적인 기능을 단 두 장에 정리해 둔 치트 시트(Cheet Sheets)가 있습니다. 

그런데, 이런 핵심적인 내용만 정리되어 있는 치트 시트를 혼자 보려면 어떤 내용을 어떻게 실습해야 할지 막막할 수 있습니다. 이 강의에서는 치트 시트의 핵심 내용만을 뽑아서 설명한 뒤, 복잡한 Matplotlib을 Pandas로 쉽게 사용할 수 있는 방법을 안내해드립니다. 함께 도전해보실까요?


누가 배우면 좋을까요?

데이터 분석, 
ML/DL에 필요한 
전처리를 하고자 
하시는 분 

큰 용량의 데이터를 
엑셀로 열다가 
파일이 열리지 않아 
당황하셨던 분 

엑셀을 사용해 
데이터 분석을 하다 
복잡한 수식에 
지치신 분 

엑셀에서 다양한 
수식을 구현했지만 
속도가 느려 
야근을 해야 했던 분 

📣 선수 지식을 확인해주세요!

  • 파이썬 및 주피터 노트북, 아나콘다(Anaconda), 엑셀의 행/열 개념에 대한 선수 지식이 필요합니다.

공식문서 중심으로 
쉽고 빠르고 정확하게.

하나, 주피터 노트북에서 
docstring 활용하기 

많은 메소드를 다 외울 필요 없습니다. 쓰이는 기능은 정해져 있으니까요. 이 강의에서는 도움말과 다큐멘트를 보고 스스로 학습하실 수 있도록 주피터 노트북에서 공식 문서를 찾아보며 실습하는 방법을 알려드립니다.

둘, 판다스 데이터 시각화 
2배로 잘 하는 법! 

어떤 데이터에 어떤 그래프를 사용하는 게 적절할지 잘 알고 계신가요? 이 강의에서는 막대그래프, 도수분포표, 히스토그램, 정규분포의 차이와 사용법에 대해서도 살펴봅니다. 뿐만 아니라 다양한 파이썬 시각화 방법 및 옵션 사용법에 대해서도 판다스 공식 문서를 통해 설명합니다.

보너스, Series와 DataFrame 데이터 시각화까지!

파이썬 판다스 시각화 예제

파이썬 판다스 시각화 예제
파이썬 판다스 시각화 예제
파이썬 판다스 시각화 예제

추가 업데이트! 
실무에 딱 맞는
데이터 분석 프로젝트.

서울시 코로나-19 발생현황 사이트를 데이터 크롤링부터 전처리, 분석, 시각화까지 판다스를 활용해 분석해 봅니다. 단 두 장의 문서로 익혀본 내용을 현업과 유사한 프로젝트로 분석해 볼 수 있습니다. (섹션 13)

하나, 뉴스를 통해 일상에서 자주 접하는 데이터를 직접 분석해 봅니다.

  • 확진자가 가장 많이 나온 구는 어디일까요?
  • 어느 병원에서 확진자를 가장 많이 치료했을까요? 
  • 구별로 많이 이송되는 병원이 있을까요?
  • 해외유입 확진자가 가장 많이 나온 구는 어디일까요?
  • 여러 국가를 유럽, 남미 등으로 텍스트 전처리를 하기 위해서는 어떻게 해야 될까요?
  • 해외유입 확진은 월별로 어떤 어느 정도 차이가 날까요?

둘, 판다스를 통한 데이터 전처리 방법을 이해하고 실습해 봅니다.

  • 텍스트로 된 날짜에서 연, 월, 일, 요일, 주는 어떻게 구할까요?
  • 확진자 현황 데이터로 누적 확진수는 어떻게 구할까요?
  • groupby, crosstab, pivot, pivot_table의 차이는 어떻고, 어떤 기능을 사용하는 게 적합할까요?

셋, 데이터프레임과 시리즈의 데이터 구조를 이해하고 분석에 적합한 형태로 가공해 봅니다.

  • Pandas의 plot으로 그래프를 그리기 위한 데이터프레임의 형태는 어떻게 만들어야 할까요?
  • 그래프에서 범주형 값에 따라 다른 색상으로 값을 표현하고 싶다면 데이터프레임을 어떻게 변경해야 할까요?
  • 시리즈를 데이터프레임으로 바꾸는 방법은 어떤 방법이 있을까요?

파이썬 시각화 & 분석 예제,
강의에서 직접 확인해보세요!


이 강의를 만든
지식공유자가 궁금하다면? 👩‍💻

지식공유자 박조은 X 인프런 인터뷰

이런 분들께 추천드려요!

🎓
학습 대상은
누구일까요?
파이썬으로 데이터 분석, 머신러닝, 딥러닝에 필요한 전처리를 하고자 하시는 분
큰 용량의 데이터를 엑셀로 열다가 파일이 로드되지 않아 당황하셨던 분
엑셀의 복잡한 수식에 지치신 분
엑셀에서 다양한 수식을 구현했지만 속도가 느려 야근을 해야 했던 분
📚
선수 지식,
필요할까요?
파이썬
주피터 노트북
아나콘다
엑셀의 행과 열 개념

안녕하세요
박조은 입니다.
박조은의 썸네일

* [“모두가 데이터에 친숙해지는 날이 오길”…오늘코드 박조은님 – 마이크로소프트웨어](https://www.imaso.co.kr/archives/5390)

* 오늘코드 YouTube 📺 https://youtube.com/todaycode

* 네이버 커넥트 재단 부스트코스 데이터사이언스 강의 설계 및 교수자

* 서울대 평생교육원 강의

* 다수의 교육기관 및 기업 강의

* 다양한 도메인(제약, 통신, 자동차, 커머스, 교육, 정부기관 등)의 기업 데이터 분석 및 데이터셋 생산

* 10년이상 게임과 광고분야에서 웹 및 백엔드 개발자로 근무

커리큘럼 총 63 개 ˙ 11시간 10분의 수업
이 강의는 영상, 수업 노트, 첨부 파일이 제공됩니다. 미리보기를 통해 콘텐츠를 확인해보세요.
섹션 0. 판다스 강좌 소개
판다스 강좌 소개 02:14
섹션 2. Subset Observations (Rows)
3) 판다스 데이터프레임 비교연산자로 색인하기, drop_duplicates() 미리보기 06:35
4) Logic in Python (and pandas) - and, or, not, xor, any, all 연산 이해하기 09:45
5) head, tail로 데이터 미리보기 df.sample(frac=0.5), df.sample(n=10), df.nlargest, df.nsmallest 09:36
섹션 5. Handling Missing Data
9) fillna, dropna로 결측치 다루기 08:17
섹션 7. Reshaping Data
섹션 8. Combine Data Sets
14) merge로 데이터프레임 합치기 left, right, inner, outer 옵션 사용하기 13:59
섹션 9. Group Data
15) groupby 활용하여 다양한 데이터 집계를 활용하기 12:25
섹션 11. 데이터 시각화 Plotting 기능 활용하기
17) 파이썬 판다스로 Series 와 DataFrame 데이터 시각화 하기 소개 11:41
18) 파이썬 데이터 시각화 판다스로 bar plot 막대그래프 그리기 미리보기 08:17 19) 파이썬 데이터 시각화 히스토그램과 도수분포표 이해하기, 막대그래프 vs 히스토그램 차이점 이해하기 미리보기 09:05
20) 파이썬 판다스로 차분 diff 값을 구하고 히스토그램으로 표현하기 06:32
21) 파이썬 시각화 상자 수염 그림(box plot) 그리기 10:26
22) 파이썬 데이터 시각화 Area plot, Grid 옵션으로 그래프 격자 만들기 03:19
23) 파이썬 데이터 시각화 scatter plot, 산점도 그리기 04:46
24) 파이썬 데이터 시각화 히스토그램과 산점도를 보완한 Hexbin plot 그리기 미리보기 06:22
25) Pandas pie plot, 원 그래프, 왜 seaborn 에는 파이차트가 없을까? 07:10
26) Scatter Matrix Plot 산점도와 커널밀도함수를 함께 표현해 보도록 합니다. 02:47
27) 파이썬 시각화 분포도 그리기, Kernel Density Estimate plot 커널밀도함수, 밀도함수 10:48
섹션 12. 실습안내와 함께보면 좋을 자료들
28) 소스코드 위치 안내와 다운로드 방법, 추가로 참고하면 좋을 자료들 04:27
29) colab(google colaboratory) 에서 github 에 있는 파이썬 판다스 실습코드를 실행해 보는 방법 03:50
섹션 13. 판다스로 서울 코로나19 발생동향 분석하기
[0/25] 소스코드와 파일 다운로드 위치
[1/25] 판다스 단 한 줄로 서울시 코로나19 발생동향 수집하기(사이트 변경으로 부록을 참고해 주세요!) 미리보기 17:14 [2/25] 판다스로 분석해볼 내용 소개 미리보기 13:09 [3/25] 판다스로 수집해 온 CSV 파일 로드하기 미리보기 08:13 [4/25] 시각화를 위한 한글 폰트 설정 미리보기 05:00
[5/25] 시계열 데이터 전처리 09:33
[6/25] 확진일자별 빈도 선그래프 그리기 - Pandas plot에 스타일 적용하기 06:42
[7/25] 엑셀에서는 쉽게 되는 그래프에 값 표시하기 pandas plot 에서는 어떻게 해야될까? 11:58
[8/25] 일부 데이터만 잘라서 시각화 하고 싶을때 슬라이싱 기능 사용하기 13:42
[9/25] 월단위로 확진자 추이는 어떻게 될까? 05:57
[10/25] 여러 변수의 빈도수를 구하려면? 10:30
[11/25] 확진자가 없는 날은 데이터프레임에 어떻게 만들까? 16:17
[12/25] 그래프에서 누적확진자수가 너무 커서 일별 확진자 수를 알아보기 어렵다면? 16:21
[13/25] 월별, 요일별 확진자수는 어떻게 달라졌을까? 15:44
[14/25] 거주지(구)별 확진자는 어떻게 될까? 27:27
[15/25] 빈도수가 가장 많은 감염경로는? 19:16
[16/25] 감염경로를 모르는 확진수는 월과 주별로 어느정도 차이가 있을까? 13:26
[17/25] 텍스트 안에 있는 접촉번호는 어떻게 추출해야 될까? 10:28
[18/25] 조치사항에서 퇴원여부의 빈도수 구하기 13:05
[19/25] 어느 병원에서 확진자를 가장 많이 치료했을까요? 18:17
[20/25] 해외유입은 어느 지역이 많을까요? 구별로 해외 유입 국가에 대한 차이가 있을까요? 23:50
[21/25] 일자별 해외유입 누적확진자수 구하기 12:54
[22/25] 전체 확진자중 해외 유입 비율은 구마다 얼마나 차이가 있을까요? 19:27
[23/25] 월별 해외 확진자 수 추이는? 07:26
[24/25] groupby vs crosstab vs pivot vs pivot_table 의 차이는? 21:33
[25/25] 국가별, 구별 해외 유입은 얼마나 차이가 있을까요? 12:28
강의 게시일 : 2019년 05월 27일 (마지막 업데이트일 : 2020년 07월 10일)
수강평 총 164개
수강생분들이 직접 작성하신 수강평입니다.
4.8
164개의 수강평
5점
4점
3점
2점
1점
VIEW 좋아요 순 최신 순 높은 평점 순 낮은 평점 순 평점 순 높은 평점 순 낮은 평점 순
세바스찬 주니어 3세 thumbnail
초급자로서 판다스에 대한 개념을 전반적으로 익히고, 실제 분석에 어떻게 활용할 수 있을지 꼼꼼하게 배울 수 있는 명강의라고 생각합니다. 판다스 관련 강의들을 몇 가지 들어봤는데 세심한 부분들까지 하나하나 퀄리티있게 알려주는 강의는 이 강의 밖에는 없는 것 같아요. 다시 한 번 더 복습을 한 뒤에 실제 업무용 데이터로도 적용해서 분석해보려고 합니다. 좋은 강의 만들어주셔서 진심으로 감사드립니다!!
2020-09-30
휴식중인 숭어 thumbnail
강사님의 분석 방법을 내것으로 만들고 싶어요. 감사합니다.
2020-09-18
세바스찬 주니어 3세
욕심쟁이 입니까?
2020-10-09
jsm9358 thumbnail
생각보다 사람들 평이 좋은 글 밖에 없어서 놀랐습니다. 저는 개인적으로 코드설명이 부족해서 애매하다고 생각되는 강의가 계속되어서 별로였습니다. 애매한게 뭐냐면 강의자가 판다스 전문가임에도 데이터를 만지작거리는 느낌이 전혀 없이 아주 간단한 치트시트를 그대로 불러와서는 더 자세히 설명해 응용해서 이렇게 저렇게 보여주거나 실제로 어떻게 많이 사용되거나 왜 이 코드가 이렇게 돌아가는 지 추가적 설명은 커녕 짧은 시간에 맞춰서 치트시트 딱 그 정도만 설명하고 끝내더군요. 필수인데라고 생각되는 것들에 있어서 부가적인 설명이 전혀 없습니다. 저는 여기 나오는 강의내용을 알면서도 복습하려고 진지하게 다 봤습니다. 근데 초보 입장에서 생각했을 때 그래서 저 기능이 정확히 뭐지?? 많이 쓰이나?? 라고 생각이 들만한 부분이 한 두번도 아니고 전 강의에 걸쳐 그런 부분에 있어서 답답했습니다. 코드 그냥 가져와서 대강 그정도만 설명하는 그런 강의입니다.
2020-03-06
지식공유자 박조은
안녕하세요. 이미 여기에 있는 내용을 다 알고계신 상태라 별 도움이 되지 못했다니 아쉽습니다. 이 강좌는 판다스를 처음 접하는 사람입장에서 두꺼운 책보다는 두 장의 치트시트로 기능을 배우는데 중점을 두고 있어서, 데이터를 만진다는 느낌이 들지 않으셨을거 같아요. 이 강의를 만들게 된 계기가 제가 초보자분들께 치트시트를 추천해 드렸는데 이 시트를 어떻게 봐야될지 모르겠다는 의견을 많이 받아서였어요. 남겨주신 의견대로 기능적인 부분에 주로 집중이 되어 있는데요. 실제 데이터를 통해 분석해 보는 과정은 다른 강좌에서 다루기 때문에 이 강좌에서는 다루지 않았어요. 그래서 어떤게 중요하고 주로 쓰이는지에 대한 내용이 부족하다고 느끼셨을거 같아요. 이 강좌도 업데이트된 판다스 버전에 맞춰 일부 내용을 개편 할 예정인데 주신 의견은 개편 때 반영해 볼 예정이에요.
2020-03-08
지식공유자 박조은
강의에 서울시 코로나 데이터 분석이 추가되었습니다. 남겨주신 피드백에서 부족하다고 생각했던 부분들을 보완했습니다. 비슷한 메소드의 차이점이라든지 왜 해당 메소드를 쓰는지에 대한 내용을 실제 공개된 데이터를 가져와 분석합니다. 앞으로도 해당 강좌를 꾸준히 업데이트 할 예정입니다.
2020-08-03
휴식중인 타조 thumbnail
전체적으로 좋은 강좌였습니다. 저의 경의 판다스를 혼자 책으로 공부하고 이 강좌를 판다스 반복 학습 및 응용을 목적으로 신청하여 듣게 되었습니다. 판다스 치트시트 강좌는 사실 별로였습니다. 판다스를 처음 보시거나 파이썬을 처음, 아님 아주 기초분이신분들은 별로 도움이 안되실겁니다. 유튜브영상으론 괜찮은데 돈을받고 강의로썬 좀 안타까운 부분이 있습니다. 서울시 코로나 분석 강의는 좋았습니다. 판다스를 응용하여 데이터를 어떤게 가공하여 자신이 원하는 형태, 결과를 얻을수 있는가를 연습할수 있어서, 판다스 기초를 공부한 저로썬 아주 유용한 파트가 되었습니다. 그리고 중간중간에 알려주시는 팁도 엄청 도움이 많이 되었습니다. shift-tab이라던가, 함수뒤 ? 을 사용하여 돗스트링을 볼수 있다던가... 아마 이런게 꿀팁이겠죠... 한줄 요약 : 판다스 처음 시작하시는 분들껜 비추, 판다스좀 아시는 분들께 강추합니다.
2021-06-28
박태렬 thumbnail
통계학과를 졸업 후 데이터 분석직으로 일하다가 퇴사하고 박조은님 강의 통해서 파이썬을 이용한 데이터 분석 공부중입니다. 뻔한 예제 데이터가 아니라 시기적절한 데이터 활용해서 쉽게 알려주셔서 흥미있게 강의 따라갈 수 있었습니다. 유튜브도 잘 보고 있습니다. 감사합니다!
2022-04-22