• 카테고리

    질문 & 답변
  • 세부 분야

    데이터 분석

  • 해결 여부

    미해결

섹션7 pandas 라이브러리로 실제 데이터 전처리하기2 질문

20.07.12 21:49 작성 조회수 107

0

안녕하세요. 강의 잘 듣고있습니다.

예제 파일처럼 Country_Region에서 동일해야 할  값들이 다른 경우 (China, Mainland China 등등) country_convert라는 json파일을 따로 만들고 여기서 불러와서 해결하셨는데요,

country_convert라는 파일안에는 key와 value들이 모두 정리가 되어서 실습할 때는 편하게 활용했는데, 실전에서도 잘못된? key들을 모두 찾아서 value정리를 쉽고 빠르게 하는 방법이 따로 있을까요? 강의에서는 country_convert파일 처럼 정리? 하는 내용은 따로 없는 것 같아서요!

혹시 질문이 모호하다면 다시 정리해서 질문 드리겠습니다!

감사합니다.

답변 2

·

답변을 작성해보세요.

0

신동엽님의 프로필

신동엽

질문자

2020.07.12

아하! 빠른 답변 고맙습니다! 

0

안녕하세요.

country_convert.json 파일을 만들때, 저도 프로그래밍으로 간편하게 만드는 방법을 생각은 했었는데요. 워낙 국가명이 다양하고, 알지 못하는 국가, 사실 다른 큰 나라가 관리하고 있어서 큰 나라명으로 처리가 되는 경우도 있고, 자체 국가명으로 하는 경우도 있고, 도시명으로 하는 경우, 심지어 크루즈선 이름까지 섞여있어서, 프로그래밍으로 이를 만들 수 있는 방법은 없었습니다. 이 과제를 저도 그냥 무턱대고 작성을 해서, 중간에 이 문제를 만나고, 이 파일을 만들며, 다소 당황스럽기도 하고, 재미도 있었습니다. ㅎㅎ

보통 현업에서도 매뉴얼하게 작업해야 하는 부분들이 있고요. 이 때는 물론 자동화하는 방법을 생각하겠지만, 굳이 한번 작성하면 크게 업데이트할 필요가 없고, 자동화하는데 배보다 배꼽이 더 크다면, 시간/리소스가 중요한 요소이기 때문에 매뉴얼하게 작성합니다.

자동화하는 방법은 각 케이스마다 다 달라서 일반적인 방법이 있는 것은 아니겠지만, 

주로 이런 데이터가 웹에 있을 가능성이 높으니까 필요한 데이터를 가져오는 크롤링, 그리고 이를 전처리하는데 파이썬 문자열 기능들을 사용할 수 있을 것 같습니다.

감사합니다.