BEST
데이터 사이언스

/

데이터 분석

공공데이터로 파이썬 데이터 분석 시작하기

이디야는 스타벅스 근처에 입점한다는 설이 있었습니다. 과연 이디야와 스타벅스의 매장입지는 얼마나 차이가 날까요? 2013년부터 2019년까지 부동산 가격 변동 추세가 아파트 분양가에도 반영될까요? 우리 동네에는 어떤 공원이 있을까요? 공공데이터 포털에 있는 데이터를 어떻게 활용하면 좋을까요? 공공데이터를 통해 여러 형태의 데이터를 다뤄보며 Python과 여러 데이터분석 라이브러리에 익숙해 지는 것을 목표로 합니다.

(4.9) 수강평 317개

수강생 6,109명

Thumbnail

[개편안내] 공공데이터로 파이썬 데이터 분석 시작하기의 모든 콘텐츠가 완전히 새롭게 바뀌었습니다. (기존 5시간 33분=>13시간 52분)

안녕하세요.

📊 공공데이터로 파이썬 데이터 분석 시작하기 강의가 전면 리뉴얼 되었습니다.

챕터 1~4에 이어 [챕터5 도시공원 표준 데이터 분석]에서는 데이터 전처리에 집중해서 강좌를 개편 했습니다. 

✍🏻코드와 영상을 모두 새로 작성하였습니다.

📈[챕터5] 기존 55분 => 217분으로 데이터 전처리에 대한 콘텐츠가 대폭 추가되었습니다.

# 도시공원 표준 데이터는 결측치, 이상치, 오류값, 날짜 등 다양한 데이터 전처리를 필요로 하는 데이터라 전처리를 실 데이터를 통해 익혀보고자 하시는 분들께 적합할 것 같아요.

# 다양한 라이브러리를 사용한 기술통계 분석을 쉽고 강력하게 할 수 있는 Pandas Profiling 으로 리포트를 생성하는 방법이 추가되었습니다.

# 정규표현식을 통한 텍스트 데이터 전처리 방법이 추가되었습니다. 또, 텍스트 데이터를 다양한 방법으로 시각화 합니다.

# 개인정보보호 등에 꼭 필요한 정보 마스킹 기법이 추가되었습니다.

기존 도시공원의 분포를 분석해 보는 강의에서 전처리 업무에서 자주 마주칠 수 있는 다양한 기법에 대한 내용을 대폭 보완했습니다. 

특히 정규표현식을 통한 텍스트 전처리와 분석에 대한 내용도 함께 학습하실 수 있도록 신규로 추가되었습니다.

# crosstab을 통한 범주형 vs 범주형 데이터 교차표 만드는 방법이 추가 되었습니다. 

또, 판다스의 스타일 기능을 통해 시각화 없이 데이터프레임에 색상을 표현해 봅니다.

# 시각화 기법에 대해 좀 더 다양한 응용을 해봅니다.

주요 업데이트 내용 정리

# Pandas Profiling 

- 코드 한 줄로 데이터 전체에 대한 다양한 기술통계 리포트 생성하기

# 실무에 필요한 다양한 데이터 전처리

- 파생변수 만들기

- 결측치 대체하기

- 이상치, 오류값 찾기와 다루기

- 데이터 타입 변경하기

# 정규표현식으로 텍스트 데이터 다루기

- 원하는 데이터만 가져오기

- 다른형태의 텍스트에서 키워드만 추출해서 빈도수 세기

- 워드클라우드 그리기

- 코드 재사용을 위한 텍스트 데이터 전처리 함수 만들기

- 정보 마스킹 하기 : 개인정보 혹은 전화번호, 이메일, 자동차 등록번호의 패턴을 찾고 마스킹 하기

# 수치형 vs 범주형 변수

- 데이터 타입으로 수치형, 범주형 변수 찾기

- pivot_table vs crosstab 사용하기

# 내 주변의 공원을 찾고 지도에 표현해 보기

- 데이터 전처리와 folium 을 통한 시각화

좋은 수강평을 남겨주시면 강의를 개편하고 보완하는데 큰 힘이 됩니다!

감사합니다.

댓글