공공데이터로 파이썬 Python 데이터 분석 시작하기

공공데이터로 파이썬 Python 데이터 분석 시작하기

(12개의 수강평)

1812명의 수강생

공공데이터로 파이썬 데이터 분석 시작하기

이디야는 스타벅스 근처에 입점한다는 설이 있었습니다. 과연 이디야와 스타벅스의 매장입지는 얼마나 차이가 날까요? 관련 기사를 읽고 구별로 이디야와 스타벅스의 매장을 기사와 유사하게 분석하고 시각화 해보면서 Python, Pandas, ggplot(plotnine), Numpy, Folium에 익숙해져 봅니다.

2013년부터 2018년까지 부동산 가격 변동 추세가 아파트 분양가에도 반영될까요? 공공데이터 포털에 있는 데이터를 Pandas 의 melt, concat, pivot, transpose 과 같은 reshape 기능을 활용해 분석해 봅니다. 그리고 groupby, pivot_table, info, describe, value_counts 등을 통한 데이터 요약과 분석을 해봅니다.

전국에는 많은 도시공원이 있습니다. 우리 동네에는 어떤 공원이 있을까요? 지역별로 어떤 공원이 어디에 분포되어 있는지 Folium을 통해 시각화 해봅니다.

공공데이터 포털에 있는 데이터를 어떻게 활용하면 좋을까요? 또 공공데이터 포털에는 어떤 데이터가 있을까요? 공공데이터를 통해 여러 형태의 데이터를 다뤄보며 Python과 여러 데이터분석 라이브러리에 익숙해 지는 것을 목표로 합니다.

학습 목표

  • 공공데이터포털에 있는 데이터를 통해 파이썬 데이터 분석에 입문해 봅니다.
  • 파이썬으로 데이터 분석을 하기 위해 어떤 도구가 필요하고 어떻게 사용해야 하는지에 대해 알아봅니다.
  • 원하는 데이터를 얻거나 가공하기 위해서 필요한 여러 전처리 기법을 알아보고 직접 실습해 봅니다.
  • 파이썬 표준라이브러리와 Numpy, Pandas를 주로 사용할 예정입니다.
  • 이렇게 얻은 데이터를 통해 파이썬으로 ggplot문법을 사용할 수 있는 plotnine이라는 시각화 도구를 통해 시각화 해봅니다.

배우는 것들

  • Pandas - 데이터 로드하기, 인코딩 지정하기
    - melt, concat, pivot, transpose 과 같은 reshape 기능
    - groupby, pivot_table, info, describe, value_counts 등을 통한 데이터 요약과 분석

  • Numpy - 데이터 타입에 대한 이해
    - 기본적인 수치계산 활용

  • Seaborn, ggplot(Plotnine) - Python으로 Data Visualization 하기
    - grammar of graphics 문법에 대한 기본적인 이해
    - barplot, pointplot, boxplot, scatterplot 등 기본적인 시각화 방법에 대한 이해

  • Folium - OpenStreetMap을 통해 지도 데이터 활용하기
    - 위경도 정보로 Marker, CircleMarker, GeoJSON을 활용하여 choropleth 그리기

 도움이 되는 분들

  • 업무에 데이터 분석을 활용하고자 하는 분
  • 데이터를 통해 의미를 찾고자 하는 분
  • 데이터 저널리즘에 관심 있는 분
  • 공공데이터를 활용하고자 하는 분
  • Pandas, NumPy 등의 파이썬 라이브러리의 기본을 익히고 싶은 분
  • Folium, GeoJSON을 활용해 위도, 경도, 주소정보 등의 지리 정보를 데이터 분석에 활용하고자 하는 분
  • 파이썬으로 데이터 시각화를 익히고자 하는 분
  • 데이터 분석가

참고 사항

지식공유자 소개

박조은
주로 게임과 광고회사에서 10년 이상 웹과 서버개발자로 일해 왔습니다. 다양한 데이터를 다루고 분석하는 것을 좋아합니다.

교육과정

모두 펼치기 34 강의 5시간 33분
섹션 0. Chapter1. 전국 신규 민간 아파트 분양가 분석
10 강의 111 : 32
[소개] 전국 신규 민간 아파트 분양가 분석
[1/9] 신규 민간 아파트 분양가격 데이터셋 소개
13 : 00
[2/9] Pandas로 데이터 불러오고 요약하기
18 : 00
[3/9] Pandas의 groupby, pivot_table 사용하기
11 : 42
[4/9] 파이썬에서 pandas와 seaborn 으로 시각화 하기
15 : 57
[5/9] 전용면적별 데이터 시각화 barplot과 신뢰구간 95%
12 : 15
[6/9] Pandas로 전용면적 별 데이터 보기, 상자수염그림 Box and Whisker Plot, 박스플롯 그리기
12 : 11
[7/9] 2015년 이전 데이터를 가져와서 최근 데이터와 병합(concat)하기 위한 준비를 합니다.
12 : 25
[8/9] pandas 의 replace 기능을 활용하여 지역명을 전처리해서 데이터를 일관되게 만듭니다.
10 : 49
[9/9] 2013년 12월 부터 2018년까지의 데이터를 시각화 합니다.
05 : 13
섹션 1. Chapter2. 상가(상권)정보로 위경도 정보 활용하기
4 강의 29 : 06
[소개] 상가 업소 정보 2018로 위경도 정보 활용하기
판다스로 데이터 로드하기 미리보기
10 : 00
판다스로 결측치 분석하기, ggplot 문법으로 시각화하기
11 : 00
대분류, 중분류별 요약하기
08 : 06
섹션 2. Chapter3. 프랜차이즈 입점 분석
5 강의 37 : 48
[소개] 프랜차이즈 입점 분석
read_csv로 파일 불러오기, shape로 요약보기, str.contains 로 특정 상호가져오기
10 : 00
Pandas로 요약하고 ggplot 문법으로 시각화하여 업종 분석하기
06 : 27
배스킨라빈스와 던킨도너츠 위치분석
12 : 00
뚜레쥬르, 파리바게뜨 매장 위치 분석
09 : 21
섹션 3. Chapter4. 스타벅스, 이디야 매장위치 비교
8 강의 91 : 36
[소개] 구별 스타벅스, 이디야 입점 분석
Python, Pandas, folium으로 스타벅스, 이디야 매장 위치 분석하기
17 : 00
Pandas의 groupby를 활용해 구별 스타벅스, 이디야 매장수 비교
10 : 00
choropleth로 행정구역별 스타벅스, 이디야 매장 합계를 표현하기
17 : 17
서울 구별 스타벅스 매장 분포와 밀집도 표현하기
11 : 00
서울 구별 이디야 매장 분포와 밀집도 표현하기
08 : 54
Pandas의 reshaping data 활용하여 스타벅스, 이디야 매장수 비교하기, 구별 위도/경도 평균 구하기
11 : 25
Pandas의 pivot_table로 구한 데이터를 Folium의 CircleMaker로 매장수 크기를 반영해 그리기
16 : 00
섹션 4. Chapter5. 전국 도시공원 표준데이터 분석
6 강의 55 : 45
[소개] 전국 도시공원 표준데이터 분석
전국 도시 공원 표준 데이터 불러오기, 요약하기
11 : 00
주소 및 사용하지 않는 컬럼 결측치 처리
11 : 00
ggplot(plotnine)시각화 지역별, 공원구분별 시각화
08 : 52
경기도 도시공원 Folium 으로 보기
09 : 35
서울, 제주 도시공원 결측치, 이상치, 오류값 분석, Folium 으로 시각화
15 : 18

공개 일자

2019년 2월 11일 (마지막 업데이트 일자 : 2019년 2월 19일)

수강 후기

4.7
12개의 수강평
led789zxpp 3달 전
Python이 데이터 분석에 유용하다고는 많이 들었지만 실제로 해본적은 없었는데 이 강의를 통해 이렇게 실질적인 예제와 함께 다양한 라이브러리를 사용하면서 실제 분석을 해볼 수 있어서 아주 좋았습니다!!!
박조은 프로필

박조은 3달 전
감사합니다 :)

강민석 9달 전
good
지식공유자 되기
많은 사람들에게 배움의 기회를 주고,
경제적 보상을 받아보세요.
지식공유참여
기업 교육을 위한 인프런
“인프런 비즈니스” 를 통해 모든 팀원이 인프런의 강좌들을
자유롭게 학습하는 환경을 제공하세요.
인프런 비즈니스