공공데이터포털에서 크롤링이나 파싱으로 csv 파일 자동 다운로드 가능할까요?
1009
작성한 질문수 1
제가 공공데이터 포털에서 다운로드 하는 것을 파이썬으로 자동으로 처리 하고 싶어서 질문 해봤습니다.
답변 1
1
안녕하세요.
질문 주신 파이썬으로 크롤링을 통해 데이터를 다운로드 할수 있습니다.
일단 공공데이터 포털은 API와 데이터셋으로 구분해서 데이터를 수집할 수 있도록 되어 있는데
API는 호출을 통해 데이터를 가져올 수 있는 방법이고요.
질문주신 내용은 다운로드를 requests 등의 라이브러리를 통해 내 장비의 드라이브로 가져와서 주피터 노트북으로 로드하는 부분을 자동화 하는 것을 질문해 주신것 같아요.
사이트 중에는 requests 만으로도 크롤링이 가능한 사이트도 있고 셀레니움 등의 툴을 사용해야 되는 사이트도 있는데요.
아래 영상이 제가 봤던 크롤링 영상 중에 가장 잘 정리가 된 영상인것 같아요.
파이썬 강의를 오랫동안 하신 AskDjango의 이진석님의 영상입니다.
[파이썬을 통한 웹페이지 크롤링 살펴보기 - YouTube](https://www.youtube.com/watch?v=7_IEdMv9eFE&t=3781s)
그리고 파일다운로드가 아닌 크롤링을 하고자 한다면 제 유튜브 채널 영상 중에도 크롤링 영상이 있으니 참고해 보세요.
[(데이터톤 01) Python 파이썬 크롤링 - requests 로 html 파일 불러오기(정부혁신 국민포럼 페이지 가져오기) - YouTube](https://www.youtube.com/watch?v=mdlFh-sJ7QQ&list=PLaTc2c6yEwmqVXoJNbN1PV53XpJTtQGgT)
또, 인프런 무료 강좌중에 파일 다운로드를 다루는 강좌가 있어서 소개합니다.
[인프런 - 업무 자동화를 위한 파이썬 pyautogui, beautifulsoup 크롤링 기초](https://www.inflearn.com/course/%EC%97%85%EB%AC%B4%EC%9E%90%EB%8F%99%ED%99%94-%ED%8C%8C%EC%9D%B4%EC%8D%AC-pyautogui-%ED%81%AC%EB%A1%A4%EB%A7%81%EA%B8%B0%EC%B4%88)
패키지 설치 에러 ydata-profiling
0
121
2
자세한 설명 부탁드려요 ㅜ
0
177
2
seaborn 라이브러리 호출하였으나 그래프가 안 그려져요
0
288
2
value_counts와 count 차이
0
343
2
안녕하세요 데이터 최신과 관련해서 문의드립니다.
0
205
3
scatterplot질문
0
122
1
강의 화면이 안나옵니다
0
164
2
4분12초 2013년부터 데이터가 없으면 어떻게하나요?..
0
188
2
에러 메시지
1
303
2
그래프 색이 동일하게 나옵니다.
0
309
2
시각화 라이브러리 비교
0
384
2
주피터 노트북 설치
0
390
1
2. 상가 기술통계 아웃풋 자료에서 오류가 납니다
0
226
1
14. distplot g = sns.FacetGrid(df_last, row="지역명", height=1.7, aspect=4) g.map(sns.distplot, "평당분양가격", hist=False, rug=True); 오류
0
178
1
group by agg function failed 에러
0
687
2
빈도수가 1000개 이상인 데이터를 따로 담을 때 코드 질문 있습니다.
0
288
2
주피터 노트북 실행 했는데 앞에 *가 생기고 결과가 나오지 않아요
0
363
3
get_string함수에서 문자 'nan'
0
200
1
seaborn X축 시작 지점 조정 질의의 건
0
213
1
14강 distplot 질의
0
289
1
nbextension 설치 및 셋팅 후 적용이 안되는 이슈
0
478
1
corr = df.corr() 입력시 오류
1
373
1
keyword grid_b is not recognized
0
336
1
%ls data 매직커맨드 사용시 한글 깨짐
0
293
1





