inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

공공데이터로 파이썬 데이터 분석 시작하기

베스킨라빈스/던킨도너츠 데이터 전처리 관련 질문

267

김진구

작성한 질문수 1

1

강사님, 안녕하세요??

현재 베스킨라빈스/던킨도너츠의 시각화까지 강의를 들었는데요, 여기서 의문이 들어 질문 드립니다.

MarkerCluster까지 과정을 마치고 지도를 살펴보다 보니 하나의 건물에 베스킨라빈스가 두개가 있는 지점이 발견되었습니다.

한쪽의 상호명은 "베스킨라빈스", 다른 한쪽은 "베스킨라빈스31"으로 표시됩니다.

하나의 건물에 두개의 베스킨라빈스가 있을 확률이 있을 순 있으나 그 확률이 희박할 것으로 생각됩니다.

이와 관련하여 질문을 드리고 싶은데,

1. 실무에선 이러한 데이터를 두개의 베스킨 라빈스라고 여기나요 아니면 확인 절차를 통해 하나의 중복된 값을 제거하나요?

2. 혹시나 제거 한다면, 데이터 전처리 과정에 있어 중복된 주소를 하나만 남겨놓게 할 수 있는 코드가 있을까요??

pandas python numpy

답변 3

1

박조은

안녕하세요. 좋은 질문을 주셨네요.

1. 의사결정을 하기 나름일거 같아요. 중요한 정보라면 해당 매장이 해당 위치에 있는지 확인 작업이 꼭 필요하겠죠.

만약 해당 위치에 같은 곳이 있다면 마커를 두 개 다른 색상으로 그려주거나 만약 겹친다면 위경도 값을 살짝 조정해서 바로 옆에 표시되도록 할거에요.

2. 만약 제거 한다면 중복된 주소 혹은 위경도 값을 찾을 수 있을거 같은데  판다스에서 중복된 값을 찾는 기능을 제공하고 있어요.

아래 링크를 통해 보실 수 있으며 중복된 값을 특정 컬럼 기준으로도 찾을 수 있어요.

 

[pandas.DataFrame.duplicated — pandas 1.2.0 documentation](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.duplicated.html)

그리고 중복된 값을 제거한다면 drop_duplicates()를 통해 제거할 수 있습니다.

아래 링크를 통해 예제를 참고해 보세요.

[pandas.DataFrame.drop_duplicates — pandas 1.2.0 documentation](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop_duplicates.html)

0

박조은

감사합니다 :)

0

김진구

감사합니다!

패키지 설치 에러 ydata-profiling

0

120

2

자세한 설명 부탁드려요 ㅜ

0

176

2

seaborn 라이브러리 호출하였으나 그래프가 안 그려져요

0

286

2

value_counts와 count 차이

0

341

2

안녕하세요 데이터 최신과 관련해서 문의드립니다.

0

205

3

scatterplot질문

0

122

1

강의 화면이 안나옵니다

0

164

2

4분12초 2013년부터 데이터가 없으면 어떻게하나요?..

0

188

2

에러 메시지

1

303

2

그래프 색이 동일하게 나옵니다.

0

308

2

시각화 라이브러리 비교

0

382

2

주피터 노트북 설치

0

390

1

2. 상가 기술통계 아웃풋 자료에서 오류가 납니다

0

226

1

14. distplot g = sns.FacetGrid(df_last, row="지역명", height=1.7, aspect=4) g.map(sns.distplot, "평당분양가격", hist=False, rug=True); 오류

0

178

1

group by agg function failed 에러

0

687

2

빈도수가 1000개 이상인 데이터를 따로 담을 때 코드 질문 있습니다.

0

288

2

주피터 노트북 실행 했는데 앞에 *가 생기고 결과가 나오지 않아요

0

363

3

get_string함수에서 문자 'nan'

0

200

1

seaborn X축 시작 지점 조정 질의의 건

0

213

1

14강 distplot 질의

0

289

1

nbextension 설치 및 셋팅 후 적용이 안되는 이슈

0

477

1

corr = df.corr() 입력시 오류

1

372

1

keyword grid_b is not recognized

0

334

1

%ls data 매직커맨드 사용시 한글 깨짐

0

292

1