• 카테고리

    질문 & 답변
  • 세부 분야

    데이터 분석

  • 해결 여부

    미해결

코로나 데이터 전처리 파트 질문 드립니다.

20.10.18 05:37 작성 조회수 107

0

안녕하세요,

복습 중 궁금한 점 질문 드립니다.

1 json 파일 다루는 함수에서 json.load와 json.loads 둘 사이 차이점이 뭔가요?

json 파일을 딕셔너리 형태로 사용할 수 있게 만들어 준다는 점은 이해했는데 둘 차이잠 이해가 잘 안되어 질문 남깁니다.

2. 코로나 데이터 전처리 복습 중 궁금한 점입니다.

보통 실제로 현업에서 이 데이터를 다룬다고 했을 때 어떤 순서로 접근하게 되는지 궁금합니다.

강의에서는 플로우를 미리 짜두시고, 중간 중간 필요한 개념과 함수를 소개해주신 것 같은데요

실전 상황인 경우 전처리 순서를 아래와 같이 계획하고,

1. 개별 파일 행/열, 결측치 정리하고 사용할 데이터 프레임만 남김

2. 전체 파일 컬럼명/인덱스명 점검 후 통일하고 필요한 내용에 맞게 정리

3. 전체파일 리스트로 불러온 후 파일 병합

진행과정에서,

Country_Region , Country/Region 의 사례 처럼 컬럼의 제목이 다르다던가

국가명이 파일마다 조금씩 다르게 설정되어 있다던가 하는 문제점이 발생하면

그때그때 문제를 해결하는 건가요?

(국가명 json 파일은 그럼 강사님께서 미리 Country_Region 내 변수들을 모두 뽑아서 중복제거 후 별도의 key 와 값으로 직접 만들어서 제공해주신거죠?)

실제 분석시 윤곽을 어떻게 잡고 시작하게 되는지 궁금합니다.

질문이 좀 길어졌네요.

꼼꼼하게 준비해두신 강의 잘 듣고 있습니다 :) 감사합니다. 

답변 1

답변을 작성해보세요.

0

안녕하세요.

1. json.load 는 파일 데이터를 json 데이터로 변환하고, json.loads 는 문자열을 json 데이터로 변환합니다. 다음 링크도 확인하시면 좀더 상세하게 이해하실 수 있으실 것 같고요.

https://qastack.kr/programming/39719689/what-is-the-difference-between-json-load-and-json-loads-functions

2. 그때그때 문제를 해결하는 편이예요. 이유는 제가 어떤 데이터 분석을 할지가 다양할 수 있고요. 각 데이터 분석을 위해서 각 분석 케이스에 맞게끔 전처리를 하는 경우가 많고요. 물론 완전 raw data 를 다양한 데이터 분석을 위해, 기본적인 형태로 우선 가공한 후에, 그 다음에 각 분석에 맞게 쓰기는 하지만, 기본적으로는 전처리를 결국 데이터 분석 케이스를 위해 하는 것이니까요. 그리고 각 데이터 분석 케이스에 맞게끔 전처리를 하다보면, 예상하지 못한 문제들이 나오는 것이니까요. 그 때마다 이를 해결하기 위해, 문제를 해결합니다. 

마지막으로 꼼꼼하게 만든 강의라고 생각해주셔서 정말 감사합니다.