코로나 데이터 전처리 파트 질문 드립니다.
197
작성한 질문수 1
안녕하세요,
복습 중 궁금한 점 질문 드립니다.
1 json 파일 다루는 함수에서 json.load와 json.loads 둘 사이 차이점이 뭔가요?
json 파일을 딕셔너리 형태로 사용할 수 있게 만들어 준다는 점은 이해했는데 둘 차이잠 이해가 잘 안되어 질문 남깁니다.
2. 코로나 데이터 전처리 복습 중 궁금한 점입니다.
보통 실제로 현업에서 이 데이터를 다룬다고 했을 때 어떤 순서로 접근하게 되는지 궁금합니다.
강의에서는 플로우를 미리 짜두시고, 중간 중간 필요한 개념과 함수를 소개해주신 것 같은데요
실전 상황인 경우 전처리 순서를 아래와 같이 계획하고,
1. 개별 파일 행/열, 결측치 정리하고 사용할 데이터 프레임만 남김
2. 전체 파일 컬럼명/인덱스명 점검 후 통일하고 필요한 내용에 맞게 정리
3. 전체파일 리스트로 불러온 후 파일 병합
진행과정에서,
Country_Region , Country/Region 의 사례 처럼 컬럼의 제목이 다르다던가
국가명이 파일마다 조금씩 다르게 설정되어 있다던가 하는 문제점이 발생하면
그때그때 문제를 해결하는 건가요?
(국가명 json 파일은 그럼 강사님께서 미리 Country_Region 내 변수들을 모두 뽑아서 중복제거 후 별도의 key 와 값으로 직접 만들어서 제공해주신거죠?)
실제 분석시 윤곽을 어떻게 잡고 시작하게 되는지 궁금합니다.
질문이 좀 길어졌네요.
꼼꼼하게 준비해두신 강의 잘 듣고 있습니다 :) 감사합니다.
답변 1
0
안녕하세요.
1. json.load 는 파일 데이터를 json 데이터로 변환하고, json.loads 는 문자열을 json 데이터로 변환합니다. 다음 링크도 확인하시면 좀더 상세하게 이해하실 수 있으실 것 같고요.
https://qastack.kr/programming/39719689/what-is-the-difference-between-json-load-and-json-loads-functions
2. 그때그때 문제를 해결하는 편이예요. 이유는 제가 어떤 데이터 분석을 할지가 다양할 수 있고요. 각 데이터 분석을 위해서 각 분석 케이스에 맞게끔 전처리를 하는 경우가 많고요. 물론 완전 raw data 를 다양한 데이터 분석을 위해, 기본적인 형태로 우선 가공한 후에, 그 다음에 각 분석에 맞게 쓰기는 하지만, 기본적으로는 전처리를 결국 데이터 분석 케이스를 위해 하는 것이니까요. 그리고 각 데이터 분석 케이스에 맞게끔 전처리를 하다보면, 예상하지 못한 문제들이 나오는 것이니까요. 그 때마다 이를 해결하기 위해, 문제를 해결합니다.
마지막으로 꼼꼼하게 만든 강의라고 생각해주셔서 정말 감사합니다.
Python 3 표시 없습니다.
0
52
1
강의실습 말고 강의에 대한 자료(pdf)가 없을까요?
0
65
1
구글 코랩과 아나콘다
0
79
1
강의와 다르게 오류가 뜨는 이유가 뭘까요?
0
95
1
COVID-19-master 관련 등 자료 누락
0
81
1
수업자료에 python_core_summary.ipynb 파일이 포함되어 있지 않습니다!
1
94
1
json.dumps관련된 질문
0
70
1
빅분기대비
0
111
1
파이썬으로 Plain Text 포멧 파일 다루기 연습문제 질문
0
92
1
강의자료 어디서 다운로드받나요?
0
137
1
pandas 라이브러리의 quotechar 인자에 대해 질문드립니다
0
96
1
iplot 에러 문제
1
199
1
플래그
0
74
1
플래그 라이브러리
0
82
1
CSV 파일 쓰기 다른 기법(사전 타입으로 쓰기) 관련
0
177
1
CSV 파일 읽을 때 오류
0
189
1
read() 함수 사용할 때 3번째 줄에 data로 출력 또는 print(data)로 출력 차이
0
135
1
강의 교재 및 실습 파일 제공되나요?
0
178
1
deep_data_and_visual 파일에서 에러가 납니다.
0
180
1
apply()함수
0
199
1
pandas groupby sum 질문
1
270
1
pandas_eda 자료 맨아래 heatmap 숫자가 안나옵니다
0
349
2
pandas_eda 힛맵에서 숫자가 안떠요
0
253
1
수업 자료에 pandas_basic 파일이 없습니다..!
0
275
1





