현존 최강 크롤링 기술: Scrapy와 Selenium 정복

현존 최강 크롤링 기술: Scrapy와 Selenium 정복

(20개의 수강평)

318명의 수강생
잔재미코딩 프로필
[참고] 강의 관련 자료 다운로드 관련
잔재미코딩 2달 전

안녕하세요. 잔재미코딩 Dave Lee 입니다.

제가 강의를 만들 때, 강의 자료를 최대한 빠르게 익히고, 활용할 수 있도록 만들려고 했는데요. 그래서 수강생분들께서 해당 자료를 다운로드받아서 잘 활용하고 계신 것으로 알고 있습니다. 그런데 일부 아직 강의 관련 자료를 인프런에서 어떻게 다운로드 받을 수 있는지 모르시는 경우가 있는 듯해서, 다시 한번 새공지로 공유를 드립니다.

다음과 같이 오른쪽 상단부 목차를 클릭하시고, 각 강의 목차 왼쪽의 다운로드 아이콘을 누르시면 각 강의에 맞는 자료를 다운로드받으실 수 있습니다.

각 강의에 맞는 자료를 각 강의에 매칭해서 일일이 올려드리므로, 각 강의에 맞는 자료를 그때그때마다 다운로드받으셔서 강의를 수강하시면 보다 학습효과가 컸었습니다. 그럼 꼭 도움이 되셨으면 좋겠습니다. 감사합니다.

잔재미코딩 프로필
[공유 팁] selenium 실행이 안되는 경우
잔재미코딩 2달 전

안녕하세요. Dave Lee 입니다. 새해 복 많이 받으시길 빌겠습니다.

Selenium이 각 PC 환경에 따라 실행이 안되는 경우들이 있을 수 있는데, 이 부분에 대해 몇가지 시도해볼만한 방법을 공유드립니다.

우선 윈도우에서는 다음과 같이 Chrome() 실행시, executable_path를 다음과 같이 넣어주면 실행이 되는 경우를 수강하시는 분께서 공유해주셨습니다. (C:/path/ 부분은 각자 chromedriver.exe 가 들어있는 폴더명으로 정확히 바꿔주시면 됩니다.) 감사합니다! 

-----------------------------------------------------

driver = webdriver.Chrome(executable_path=r"C:/path/chromedriver.exe")

-----------------------------------------------------

또한, 맥 환경의 경우 Catalina 로 Mac OS 업데이트 후, 기존 chromedriver 가 보안상 문제로 실행이 안되는 경우를 발견했습니다. 보안 설정을 바꿔주는 방법도 있겠지만, 이 경우에는 간단히 chromedriver를 /usr/local/bin 디렉토리로 옮겨놓고 실행해보시면 좋을 것 같습니다. 만약 이 부분도 안된다면, 강의에서 공유해드린 다음 사이트에서

 https://sites.google.com/a/chromium.org/chromedriver/

새로 chromedriver를 다운로드 받아서, /usr/local/bin 디렉토리에 실행파일을 옮겨놓고 다음과 같이 실행하시면 정상 실행이 됩니다.

-----------------------------------------------------

from selenium import webdriver

chromedriver = '/usr/local/bin/chromedriver' 

driver = webdriver.Chrome(chromedriver)

-----------------------------------------------------

아무쪼록 이런 팁도 도움이 되셨으면 좋겠습니다. 감사합니다. 

잔재미코딩 프로필
신규강좌 할인 및 공유(12월 및 100명 한정)
잔재미코딩 3달 전

안녕하세요. 잔재미코딩 Dave Lee 강사입니다.

인프런에 오픈한 강좌가 벌써 4개가 되었는데요. 이 중에 일부 강의를 수강하시는 분들을 위해, 간단히 4개의 강의를 공유드릴겸, 할인쿠폰을 제공해드리려고 공지를 드립니다. 

본 4개의 강의는 데이터 분석과 풀스택 기술의 기초가 되는 가장 실무적인 기술인데요.  두 과정 모두 데이터 수집, 데이터 저장, 데이터 분석 기술을 공통으로 하며, 기 오픈된 4강의는 데이터 수집, 데이터 저장, 데이터 분석(일부) 기술을 설명드린 것입니다. 

금년내로 본래 4개를 기반으로 데이터 분석 이론/실무, 풀스택 기술 강의를 완료하고자 했으나, 패스트캠퍼스 강좌(알고리즘/기술면접 완전 정복 Online) 준비로 내년초로 다소 일정이 연기되었습니다. 하지만, 내년초까지는 본 4강좌를 기초로 하는 데이터분석/풀스택 강의가 곧 오픈될 예정입니다.

어느 기술이나, 처음 익히기 시작할 때가 굉장히 시간이 오래걸리는 법인데요. 막무가내로 익히시려면, 한참 헤멜 수 있는 부분들을 가능한 쉽고, 빠르게! 핵심 내용을 중심으로 현업에서 실제 활용까지 가능하도록 하는데 중점을 두어 만들었습니다.

보다 많은 수강생분들이 수강해주시고, 꼭 도움이 되셨으면 해서, 다음 테이블과 같이 최대한 할인을 하여 쿠폰을 공유해드리니, 필요하시면 수강하실 때 활용하시면 좋을 것 같습니다. 할인 쿠폰의 유효기간은 12월말일 및 각 과목별 100명 한정 입니다. 각강좌 구매시, 해당 강좌의 쿠폰코드를 넣으시면 할인이 됩니다.

과목명

쿠폰코드

할인금액

파이썬입문과 크롤링기초 부트캠프 [쉽게! 하지만, 견고한 자료로!] 167-528ded761603 10000원
현존 최강 크롤링 기술: Scrapy와 Selenium 정복 168-d09731ed6809 10000원
NoSQL/DB(몽고DB)기초와 파이썬활용 [최신 풀스택/데이터과학 첫걸음] 169-8426a9576f7c 10000원
SQL/DB(MySQL) 기본부터 파이썬/데이터분석 활용까지! 170-2d58042cb051 10000원

감사합니다.

잔재미코딩 프로필
[공유] scrapy에서 중복 request 호출이 안되는 경우
잔재미코딩 5달 전

안녕하세요.

scrapy에서 request를 여러번 할 경우, 첫번째 request 이외에는 호출이 안되는 부분에 대해 고민을 하시는 분들을 뵈어서,

다시 새소식으로 공유드립니다.

request시 URL이 중복된 경우, (예를 들어, www.daum.net/news1.html, www.daum.net/news2.html 은 앞의 URL 이 동일합니다.) 두 번째 요청은 처리를 하지 않습니다.

이 부분은 scrapy에서는 중복 URL에 대해, 디폴트로 중복 request를 안하도록 설정이 되어 있기 때문입니다.

settings.py 에서 다음 항목에 앞에 # 을 삭제해서, enable 하시면, 중복 URL에 대해서도 요청이 가능합니다.

DUPEFILTER_CLASS = 'scrapy.dupefilter.RFPDupeFilter'

이 부분은 강좌 후반부에서 설명을 하였고, 강좌에서 첨부드린 scrapy 프로젝트 코드에서도 확인하실 수 있습니다.

감사합니다.

잔재미코딩 프로필
강좌 할인쿠폰 공유[10월 한정]
잔재미코딩 5달 전

안녕하세요. 잔재미코딩 Dave Lee 강사입니다.

인프런에 오픈한 강좌가 벌써 4개가 되었는데요. 이 중에 일부 강의를 수강하시는 분들을 위해, 간단히 4개의 강의를 공유드릴겸, 할인쿠폰을 제공해드리려고 공지를 드립니다.

최종 목표는 올해 내에, 데이터 분석 과정과 풀스택 과정을 모두 오픈하는 것인데요. 두 과정 모두 데이터 수집, 데이터 저장, 데이터 분석 기술을 공통으로 하며, 기 오픈된 4강의는 데이터 수집, 데이터 저장, 데이터 분석(일부) 기술을 설명드린 것입니다. 

어느 기술이나, 처음 익히기 시작할 때가 굉장히 시간이 오래걸리는 법인데요. 막무가내로 익히시려면, 한참 헤멜 수 있는 부분들을 가능한 쉽고, 빠르게! 핵심 내용을 중심으로 현업에서 실제 활용까지 가능하도록 하는데 중점을 두어 만들었습니다.

수강생분들을 위해, 다음 테이블과 같이 할인 쿠폰을 공유해드리니, 필요하시면 수강하실 때 활용하시면 좋을 것 같습니다. 할인 쿠폰의 유효기간은 10월말일 까지 입니다. 

과목명 쿠폰 할인금액
파이썬입문과 크롤링기초 부트캠프 [쉽게! 하지만, 견고한 자료로!] 20-bf7f0bda1111 5000원
현존 최강 크롤링 기술: Scrapy와 Selenium 정복 19-e19bcffe7d05 5000원
NoSQL/DB(몽고DB)기초와 파이썬활용 [최신 풀스택/데이터과학 첫걸음] 18-871115b33679 5000원
SQL/DB(MySQL) 기본부터 파이썬/데이터분석 활용까지! 16-6cc2f0a86976 5000원

참고로, 위 강좌를 기반으로 다음 로드맵도 오픈하였으니, 수강하실 때 참고하시면 좋을 것 같습니다. (각 이미지를 클릭하시면 해당 로드맵 페이지를 보실 수 있습니다.)

잔재미코딩 프로필
강의 자료 다운로드 관련 공유
잔재미코딩 6달 전

안녕하세요.

각 강의 관련 자료를 다운로드받으실 수 있는 방법에 대해 공유드립니다.

각 강의마다, 관련 자료를 올려놓았습니다만, 어디서 다운로드를 받아야 하는지에 대해, 문의가 많았습니다. 아마도 인프런 강의 자료 인터페이스가 변경이 된듯도 해서, 공지로 올려드립니다. 다음과 같이 오른쪽 상단부 목차를 클릭하시고, 각 강의 목차 왼쪽의 다운로드 아이콘을 누르시면 각 강의에 맞는 자료를 다운로드받으실 수 있습니다.

각 강의에 맞는 자료를 각 강의에 매칭해서 일일이 올려드리므로, 각 강의에 맞는 자료를 그때그때마다 다운로드받으셔서 강의를 수강하시면 보다 학습효과가 컸었습니다. 그럼 꼭 도움이 되셨으면 좋겠습니다. 감사합니다.

지식공유자 되기
많은 사람들에게 배움의 기회를 주고,
경제적 보상을 받아보세요.
지식공유참여
기업 교육을 위한 인프런
“인프런 비즈니스” 를 통해 모든 팀원이 인프런의 강의들을
자유롭게 학습하는 환경을 제공하세요.
인프런 비즈니스