파이썬 데이터 수집하기 (크롤링)

Overview
  • 파이썬 설치 및 기본 사용법 (파이참)
  • hello출력
  • function, parameter 사칙연산 만들기(plus, minus, multiple, divide)
  • .format()을 넣고 데이터 바로 가공 해보기 ’00는 00입니다.’
  • 구구단 출력하기 function, 중첩for문
  • 데이터 소스(url) 알아내기 – 데이터가 있는 곳을 찾아내기 크롬 개발자 도구로 & 파이썬으로 불러오기
네이버 첫 페이지에서 데이터 가지고 오기

우리에게 가장 익숙한 사이트인 네이버에서 데이터 추출 하는 방법을 배웁니다.
가장 쉬운 ‘메뉴 이름 가지고 오기’예제를 통해서 데이터를 추출하는 방법을 배울 수 있습니다.

  • urllib, Beautiful Soup 등을 사용합니다.
  • 파이썬에서 library import하는법 을 배웁니다.
  • 간단한 예제(15줄 내외) 데이터를 추출 해봅니다.
네이버 뉴스에서 기사 제목 수집하기
  • 데이터 타입(type)이란?
  • 자료구조(list, map, tree, key, value)
  • BeautifulSoup(뷰티풀솝)라이브러리를 이용해 html파싱 하는 방법 배우기
  • BeautifulSoup이란?
  • html 이란?
  • html 문서에서 필요한 부분만 추출하기

데이터가 들어있는 주소(url)을 어떻게 찾아내는지 알아보고 네이버 뉴스에서 실제로 데이터를 수집 해봅니다.

학습 목표

  • 파이썬에 대해 배우고 파이썬을 이용해 네이버 뉴스 제목을 자동으로 수집할 수 있습니다.

도움이 되는 분들 

  • 프로그래밍을 처음 배우는 분
  • 단순 데이터 수집 작업이 많으신 분
  • 많은 데이터를 여전히 엑셀로만 처리하고 계신 분
  • 논문을 써야 하는데 프로그램이 필요한 대학원생

참고 사항

  • 파이썬3, 파이참

 지식공유자 소개

김경록

· 코인거래소 백엔드 개발
· 크롤러, api 개발
· back end 개발 및 운영(Spring Boot, Spring Data JPA)
· front end 개발 및 운영(Node, React)
· ‘경록김의 뷰티플 프로그래밍’ 운영(블로그) | http://krksap.tistory.com
· ‘경록김의 뷰티플 프로그래밍 멘토링’ 운영(1:1 프로그래밍 과외)

더 보기

# 블로그
· ‘경록김의 뷰티플 프로그래밍’ 운영(블로그) | http://krksap.tistory.com
· ‘경록김의 뷰티플 프로그래밍 멘토링’ 운영(1:1 프로그래밍 과외)

# 저서
· 엄마도 따라 할 수 있는 엑셀 VBA | http://krksap.tistory.com/
· 웹 데이터 수집의 기술 | 한빛미디어 (2017. 08)
· Node.js 200제 | 정보문화사 http://www.yes24.com/24/goods/59384816

# 강의
· 직장인을 위한 데이터 수집 자동화(Node.js) – 패스트캠퍼스
· 구글스프레드시트 – 패스트캠퍼스
· 엑셀을 활용한 업무 자동화(VBA) – 패스트캠퍼

내용 접기

강좌 평가

2

1 개의 수강평
  • 5 점0
  • 4 점0
  • 3 점0
  • 2 점1
  • 1 점0
  1. 석지훈의 프로필 사진

    유료 강의치고는 내용이 빈곤하네요..

    2

    강의 잘 들었습니다.
    허나 3만원주고 들을 강의는 아닌것같습니다. 인터넷에 치면 바로바로 나오는 내용들 뿐이었고… 크롤링의 기초중의 기초만 한 느낌이네요.

강좌 교육과정

python crawler
프로젝트 만들기학습을 원하시면 최상단 '배우기 버튼을 클릭해주세요' 미리보기 00:03:00
hello 출력하기학습을 원하시면 최상단 '배우기 버튼을 클릭해주세요' 미리보기 00:05:00
function 만들기학습을 원하시면 최상단 '배우기 버튼을 클릭해주세요' 미리보기 00:09:00
변수와 상수학습을 원하시면 최상단 '배우기 버튼을 클릭해주세요' 00:09:00
파라메터학습을 원하시면 최상단 '배우기 버튼을 클릭해주세요' 00:05:00
리턴학습을 원하시면 최상단 '배우기 버튼을 클릭해주세요' 00:12:00
반복문 for학습을 원하시면 최상단 '배우기 버튼을 클릭해주세요' 00:11:00
2단 출력하기학습을 원하시면 최상단 '배우기 버튼을 클릭해주세요' 00:11:00
네이버 받아오기학습을 원하시면 최상단 '배우기 버튼을 클릭해주세요' 00:08:00
install bs4학습을 원하시면 최상단 '배우기 버튼을 클릭해주세요' 00:06:00
bs4로 파싱하기학습을 원하시면 최상단 '배우기 버튼을 클릭해주세요' 00:14:00
naver menu1학습을 원하시면 최상단 '배우기 버튼을 클릭해주세요' 미리보기 00:13:00
naver menu2학습을 원하시면 최상단 '배우기 버튼을 클릭해주세요' 00:09:00
naver news학습을 원하시면 최상단 '배우기 버튼을 클릭해주세요' 00:15:00
  • 가격 옵션 +
  • 평생
  • 강좌 수료증
  • 14개 강의, 총 2 시간 10 분
  • 위시리스트

우리는 성장기회의 평등 을 추구합니다.

경제적, 시간적 제약없는 양질을 교육으로 누구나에게 성장 기회를 균등하게 주는것. 그것이 우리의 목표입니다.

지식공유참여 고객센터
top
(주)인프랩 | 대표자:이형주 | TEL:070-4202-1180 | E-MAIL: course@inflearn.com | 사업자번호:499-81-00612
주소:성남시 분당구 삼평동 대왕판교로 645번길 12 경기창조경제혁신센터 8층 R10 | 개인정보보호책임자:이형주
통신판매업:2017-서울강남-01544 | ©INFLAB. ALL RIGHTS RESERVED