섹션7 pandas 라이브러리로 실제 데이터 전처리하기2 질문
195
작성한 질문수 1
안녕하세요. 강의 잘 듣고있습니다.
예제 파일처럼 Country_Region에서 동일해야 할 값들이 다른 경우 (China, Mainland China 등등) country_convert라는 json파일을 따로 만들고 여기서 불러와서 해결하셨는데요,
country_convert라는 파일안에는 key와 value들이 모두 정리가 되어서 실습할 때는 편하게 활용했는데, 실전에서도 잘못된? key들을 모두 찾아서 value정리를 쉽고 빠르게 하는 방법이 따로 있을까요? 강의에서는 country_convert파일 처럼 정리? 하는 내용은 따로 없는 것 같아서요!
혹시 질문이 모호하다면 다시 정리해서 질문 드리겠습니다!
감사합니다.
답변 2
0
안녕하세요.
country_convert.json 파일을 만들때, 저도 프로그래밍으로 간편하게 만드는 방법을 생각은 했었는데요. 워낙 국가명이 다양하고, 알지 못하는 국가, 사실 다른 큰 나라가 관리하고 있어서 큰 나라명으로 처리가 되는 경우도 있고, 자체 국가명으로 하는 경우도 있고, 도시명으로 하는 경우, 심지어 크루즈선 이름까지 섞여있어서, 프로그래밍으로 이를 만들 수 있는 방법은 없었습니다. 이 과제를 저도 그냥 무턱대고 작성을 해서, 중간에 이 문제를 만나고, 이 파일을 만들며, 다소 당황스럽기도 하고, 재미도 있었습니다. ㅎㅎ
보통 현업에서도 매뉴얼하게 작업해야 하는 부분들이 있고요. 이 때는 물론 자동화하는 방법을 생각하겠지만, 굳이 한번 작성하면 크게 업데이트할 필요가 없고, 자동화하는데 배보다 배꼽이 더 크다면, 시간/리소스가 중요한 요소이기 때문에 매뉴얼하게 작성합니다.
자동화하는 방법은 각 케이스마다 다 달라서 일반적인 방법이 있는 것은 아니겠지만,
주로 이런 데이터가 웹에 있을 가능성이 높으니까 필요한 데이터를 가져오는 크롤링, 그리고 이를 전처리하는데 파이썬 문자열 기능들을 사용할 수 있을 것 같습니다.
감사합니다.
Python 3 표시 없습니다.
0
54
1
강의실습 말고 강의에 대한 자료(pdf)가 없을까요?
0
66
1
구글 코랩과 아나콘다
0
80
1
강의와 다르게 오류가 뜨는 이유가 뭘까요?
0
97
1
COVID-19-master 관련 등 자료 누락
0
82
1
수업자료에 python_core_summary.ipynb 파일이 포함되어 있지 않습니다!
1
95
1
json.dumps관련된 질문
0
71
1
빅분기대비
0
112
1
파이썬으로 Plain Text 포멧 파일 다루기 연습문제 질문
0
93
1
강의자료 어디서 다운로드받나요?
0
138
1
pandas 라이브러리의 quotechar 인자에 대해 질문드립니다
0
98
1
iplot 에러 문제
1
200
1
플래그
0
75
1
플래그 라이브러리
0
83
1
CSV 파일 쓰기 다른 기법(사전 타입으로 쓰기) 관련
0
179
1
CSV 파일 읽을 때 오류
0
191
1
read() 함수 사용할 때 3번째 줄에 data로 출력 또는 print(data)로 출력 차이
0
136
1
강의 교재 및 실습 파일 제공되나요?
0
180
1
deep_data_and_visual 파일에서 에러가 납니다.
0
181
1
apply()함수
0
201
1
pandas groupby sum 질문
1
271
1
pandas_eda 자료 맨아래 heatmap 숫자가 안나옵니다
0
350
2
pandas_eda 힛맵에서 숫자가 안떠요
0
254
1
수업 자료에 pandas_basic 파일이 없습니다..!
0
276
1





