공공데이터로 파이썬 데이터 분석 시작하기
공공데이터로 파이썬 데이터 분석 시작하기
수강정보
(59개의 수강평)
2643명의 수강생
박조은 프로필
서울시 코로나19 발생현황 분석 강좌 일부를 "단 두 장의 문서로 데이터 분석과 시각화 뽀개기" 에 공개하며, 수강하지 않더라도 전체 분석 내용을 보실 수 있습니다.
박조은 2달 전

안녕하세요.

"단 두 장의 문서로 데이터 분석과 시각화 뽀개기" 강좌를 운영한지 일년이 넘었습니다.

"공공데이터로 파이썬 데이터 분석 시작하기" 강좌처럼 해당 강좌도 꾸준히 업데이트를 할 예정입니다.

"단 두 장의 문서로 데이터 분석과 시각화 뽀개기" 강좌에 서울시 코로나19 발생현황 분석 콘텐츠가 추가되었습니다.

그리고 업데이트 기념으로 7월 24일까지 20%할인을 진행합니다.

해당 강좌를 수강하지 않더라도 일부 강좌를 "단 두 장의 문서로 데이터 분석과 시각화 뽀개기"  에서 보실 수 있으며 전체 소스코드도 강좌에서 다운로드가 가능합니다.

6월까지 서울시에서 공개하고 있는 확진자 현황 데이터(https://www.seoul.go.kr/coronaV/coronaStatus.do)를 판다스로 크롤링, 전처리, 분석 시각화합니다.

단 두장의 문서로 익혀본 내용을 현업과 유사한 프로젝트로 분석해 보기

서울시 코로나 19 발생현황 사이트를 크롤링부터 전처리, 분석, 시각화까지 판다스를 활용해서 분석해 봅니다.

뉴스기사와 일상을 통해 자주 접하는 데이터를 직접 분석해 봅니다.

  • 확진자가 가장 많이 나온 구는 어디일까요?
  • 어느 병원에서 확진자를 가장 많이 치료했을까요? 
  • 구별로 많이 이송되는 병원이 있을까요?
  • 해외유입 확진자가 가장 많이 나온 구는 어디일까요?
  • 여러 국가를 유럽, 남미 등으로 텍스트 전처리를 하기 위해서는 어떻게 해야 될까요?
  • 해외유입 확진은 월별로 어느정도 차이가 날까요?

판다스를 통한 데이터 전처리 방법을 이해하고 실습해 봅니다.

  • 텍스트로된 날짜에서 연, 월, 일, 요일, 주는 어떻게 구할까요?
  • 확진자 현황 데이터로 누적 확진수는 어떻게 구할까요?
  • groupby, crosstab, pivot, pivot_table의 차이는 어떻게 되고 어떤 기능을 사용하는게 적합할까요?

 

데이터프레임과 시리즈의 데이터 구조를 이해하고 분석에 적합한 형태로 가공해 봅니다.

  • Pandas 의 plot으로 그래프를 그리기 위한 데이터프레임의 형태는 어떻게 만들어야 할까요?
  • 그래프에서 범주형 값에 따라 다른 색상으로 값을 표현하고 싶다면 데이터프레임을 어떻게 변경해야 할까요?
  • 시리즈를 데이터프레임으로 바꾸는 방법은 어떤 방법이 있을까요?

강좌에서 직접 확인해 보세요!

 

 

지난 일년동안 많은 질문과 좋은 수강평을 남겨주신 덕분에 강의를 업데이트 할 수 있었습니다.

앞으로도 꾸준히 강좌를 개선하고 업데이트 할 예정입니다.

좋은 수강평을 남겨주시면 꾸준한 콘텐츠 개선에 큰 힘이 됩니다

 

코로나19에서 벗어나 다시 일상으로 돌아갈 수 있기를 기원합니다!

감사합니다.

박조은 프로필
[개편안내] 공공데이터로 파이썬 데이터 분석 시작하기의 모든 콘텐츠가 완전히 새롭게 바뀌었습니다. (기존 5시간 33분=>13시간 52분)
박조은 5달 전

안녕하세요.

📊 공공데이터로 파이썬 데이터 분석 시작하기 강의가 전면 리뉴얼 되었습니다.

챕터 1~4에 이어 [챕터5 도시공원 표준 데이터 분석]에서는 데이터 전처리에 집중해서 강좌를 개편 했습니다. 

✍🏻코드와 영상을 모두 새로 작성하였습니다.

📈[챕터5] 기존 55분 => 217분으로 데이터 전처리에 대한 콘텐츠가 대폭 추가되었습니다.

# 도시공원 표준 데이터는 결측치, 이상치, 오류값, 날짜 등 다양한 데이터 전처리를 필요로 하는 데이터라 전처리를 실 데이터를 통해 익혀보고자 하시는 분들께 적합할 것 같아요.

# 다양한 라이브러리를 사용한 기술통계 분석을 쉽고 강력하게 할 수 있는 Pandas Profiling 으로 리포트를 생성하는 방법이 추가되었습니다.

# 정규표현식을 통한 텍스트 데이터 전처리 방법이 추가되었습니다. 또, 텍스트 데이터를 다양한 방법으로 시각화 합니다.

# 개인정보보호 등에 꼭 필요한 정보 마스킹 기법이 추가되었습니다.

기존 도시공원의 분포를 분석해 보는 강의에서 전처리 업무에서 자주 마주칠 수 있는 다양한 기법에 대한 내용을 대폭 보완했습니다. 

특히 정규표현식을 통한 텍스트 전처리와 분석에 대한 내용도 함께 학습하실 수 있도록 신규로 추가되었습니다.

# crosstab을 통한 범주형 vs 범주형 데이터 교차표 만드는 방법이 추가 되었습니다. 

또, 판다스의 스타일 기능을 통해 시각화 없이 데이터프레임에 색상을 표현해 봅니다.

# 시각화 기법에 대해 좀 더 다양한 응용을 해봅니다.

주요 업데이트 내용 정리

# Pandas Profiling 

- 코드 한 줄로 데이터 전체에 대한 다양한 기술통계 리포트 생성하기

# 실무에 필요한 다양한 데이터 전처리

- 파생변수 만들기

- 결측치 대체하기

- 이상치, 오류값 찾기와 다루기

- 데이터 타입 변경하기

# 정규표현식으로 텍스트 데이터 다루기

- 원하는 데이터만 가져오기

- 다른형태의 텍스트에서 키워드만 추출해서 빈도수 세기

- 워드클라우드 그리기

- 코드 재사용을 위한 텍스트 데이터 전처리 함수 만들기

- 정보 마스킹 하기 : 개인정보 혹은 전화번호, 이메일, 자동차 등록번호의 패턴을 찾고 마스킹 하기

# 수치형 vs 범주형 변수

- 데이터 타입으로 수치형, 범주형 변수 찾기

- pivot_table vs crosstab 사용하기

# 내 주변의 공원을 찾고 지도에 표현해 보기

- 데이터 전처리와 folium 을 통한 시각화

좋은 수강평을 남겨주시면 강의를 개편하고 보완하는데 큰 힘이 됩니다!

감사합니다.

다른 댓글 보기(3)
박조은 프로필
상가(상권)정보 분석이 훨씬 자세해 졌습니다. 챕터1 리뉴얼에 이어 챕터2~4까지 개편 되었습니다.
박조은 6달 전

상가(상권)정보 분석이 훨씬 자세해 졌습니다.

챕터1 리뉴얼에 이어 챕터2~4까지 리뉴얼이 되었습니다.  모든 영상과 소스코드를 새로 작성하였습니다.

<리뉴얼 전>

<리뉴얼 후>

챕터2 29분=>167분

챕터3 37분=>101분

챕터4 91분=>113분

지난 일년 동안 받았던 소중한 질문과 피드백을 통해 내용을 보완하고 설명을 훨씬 자세하게 추가했습니다.

또, 실습을 할 수 있는 파일과 결과 파일을 함께 제공하며 Google Colaboratory에서 바로 실습을 할 수 있는 링크도 제공합니다.

<챕터2 상가(상권)정보로 기술통계 익히기> 

missingno를 통해 좀 더 다양한 결측치 시각화를 합니다.

또, 결측치를 제거했을 때 메모리 사용량이 달라지는 점을 보고 메모리 사용량을 줄일 수 있는 방법에 대해 다룹니다.

구별 음식점 분석과 대치동과 목동에 입시학원이 많은지 가설을 세우고 분석을 해보는 내용이 추가되었습니다.

그리고 기술통계 내용을 대폭 보완했습니다.

describe를 통해 수치형, 범주형 데이터를 요약해 볼 때 각각의 값에 대한 의미와 개별 값들을 따로 계산을 해보는 과정이 추가되었습니다.

상관계수를 구하고 회귀선을 그려서 상관분석을 하는 내용도 추가되었습니다.

<챕터3 프랜차이즈 입점 분석>

다양한 변수를 시각화 하며 jointplot을 통해 2개의 수치형 변수를 시각화 하는 방법을 좀 더 자세히 다룹니다.

Folium의 CircleMarker 외에 MarkerCluster, Heatmap 으로 위치별 매장의 밀집도를 표현합니다.

<챕터4 스타벅스, 이디야 매장위치 비교하기>

CircleMarker를 구별로 그리기 위해 위경도의 평균을 구하는 과정을 for 문을 사용하지 않고 pivot_table을 통해 연산하고 merge를 통해 연산 결과를 합치를 과정을 다룹니다. 또, 설명이 훨씬 자세해졌습니다.

<챕터5> 도 곧 리뉴얼 될 예정입니다!

앞으로도 질문 혹은 수강평을 통해 의견을 남겨주시면 더 좋은 강의를 만드는데  도움이 될 것 같아요!

수강평과 피드백을 기다립니다 :)

다른 댓글 보기(1)
박조은 프로필
"챕터1 전국 신규 민간아파트 분양가격 동향"이 완전히 새롭게 리뉴얼 되었습니다.
박조은 6달 전

1년동안 운영하며 받은 소중한 피드백을 모아 2020년 3월

기존 "챕터1 전국 신규 민간아파트 분양가격 동향"이 완전히 새롭게 리뉴얼 되었습니다.

챕터1 기준 기존 영상 9개(1시간 41분)에서 20개(3시간 25분)으로 설명과 시각화가 훨씬 자세해 졌습니다.

기존보다 훨씬 다양한 그래프를 다루며(히트맵, 히스토그램, 분포도, 산점도, 회귀 그래프 등) 서브플롯을 쉽게 그려볼 수 있는 내용이 추가되었습니다.

또 실습 코드와 결과코드를 함께 제공합니다. 

영상을 보며 코드를 따라해 보실 수 있도록 간단한 가이드가 제시된 실습파일(01-apt-price-input.ipynb) 과 결과가 함께 표시된 (01-apt-price-output.ipynb) 파일을 활용해 보세요.

코드 위치와 google colaboratory 경로는 영상 소개란을 참고해 주세요!

2020년 3월 다른 챕터의 튜토리얼도 리뉴얼 예정입니다!

감사합니다.

지식공유자 되기
많은 사람들에게 배움의 기회를 주고,
경제적 보상을 받아보세요.
지식공유참여
기업 교육을 위한 인프런
“인프런 비즈니스” 를 통해 모든 팀원이 인프런의 강의들을
자유롭게 학습하는 환경을 제공하세요.
인프런 비즈니스