안녕하세요.
📊 공공데이터로 파이썬 데이터 분석 시작하기 강의가 전면 리뉴얼 되었습니다.
챕터 1~4에 이어 [챕터5 도시공원 표준 데이터 분석]에서는 데이터 전처리에 집중해서 강좌를 개편 했습니다.
✍🏻코드와 영상을 모두 새로 작성하였습니다.
📈[챕터5] 기존 55분 => 217분으로 데이터 전처리에 대한 콘텐츠가 대폭 추가되었습니다.
# 도시공원 표준 데이터는 결측치, 이상치, 오류값, 날짜 등 다양한 데이터 전처리를 필요로 하는 데이터라 전처리를 실 데이터를 통해 익혀보고자 하시는 분들께 적합할 것 같아요.
# 다양한 라이브러리를 사용한 기술통계 분석을 쉽고 강력하게 할 수 있는 Pandas Profiling 으로 리포트를 생성하는 방법이 추가되었습니다.
# 정규표현식을 통한 텍스트 데이터 전처리 방법이 추가되었습니다. 또, 텍스트 데이터를 다양한 방법으로 시각화 합니다.
# 개인정보보호 등에 꼭 필요한 정보 마스킹 기법이 추가되었습니다.
기존 도시공원의 분포를 분석해 보는 강의에서 전처리 업무에서 자주 마주칠 수 있는 다양한 기법에 대한 내용을 대폭 보완했습니다.
특히 정규표현식을 통한 텍스트 전처리와 분석에 대한 내용도 함께 학습하실 수 있도록 신규로 추가되었습니다.
# crosstab을 통한 범주형 vs 범주형 데이터 교차표 만드는 방법이 추가 되었습니다.
또, 판다스의 스타일 기능을 통해 시각화 없이 데이터프레임에 색상을 표현해 봅니다.
# 시각화 기법에 대해 좀 더 다양한 응용을 해봅니다.
주요 업데이트 내용 정리
# Pandas Profiling
- 코드 한 줄로 데이터 전체에 대한 다양한 기술통계 리포트 생성하기
# 실무에 필요한 다양한 데이터 전처리
- 파생변수 만들기
- 결측치 대체하기
- 이상치, 오류값 찾기와 다루기
- 데이터 타입 변경하기
# 정규표현식으로 텍스트 데이터 다루기
- 원하는 데이터만 가져오기
- 다른형태의 텍스트에서 키워드만 추출해서 빈도수 세기
- 워드클라우드 그리기
- 코드 재사용을 위한 텍스트 데이터 전처리 함수 만들기
- 정보 마스킹 하기 : 개인정보 혹은 전화번호, 이메일, 자동차 등록번호의 패턴을 찾고 마스킹 하기
# 수치형 vs 범주형 변수
- 데이터 타입으로 수치형, 범주형 변수 찾기
- pivot_table vs crosstab 사용하기
# 내 주변의 공원을 찾고 지도에 표현해 보기
- 데이터 전처리와 folium 을 통한 시각화
좋은 수강평을 남겨주시면 강의를 개편하고 보완하는데 큰 힘이 됩니다!
감사합니다.