수강이 제한됩니다.
다른 수강생들이 자주 물어보는 질문이 궁금하신가요?
- 미해결현존 최강 크롤링 기술: Scrapy와 Selenium 정복
for 문을 사용하지 않고 text list 로 뽑아내기
강사님 안녕하세요. Selenium을 활용해서 크롤링을 진행하고 있는데 속도가 굉장히 느려 고민이 많습니다. 구글링을 좀 해보니 image를 가져오는 부분을 disable 상태로 만들거나 multiprocessing 을 활용하라는 등의 방법이 나오는데요. 시간 순서대로 datepicker 를 조작하면서 진행하고 있어서 multiprocessing을 활용하기가 쉽지는 않았고 image를 가져오지 않아도 시간이 줄지 않았습니다. 그래서 elems = driver.find_elements_by_css_selecter() 를 활용해서 elems을 가져온 후 elems를 for문을 돌지 않고 text list로 뽑아내는 방법이 있다면 빠르게 진행할 수 있지 않을까 하는 생각을 했습니다. 혹시 관련된 방법을 알고 계신게 있는지 질문드립니다. 감사합니다 :)
- 미해결현존 최강 크롤링 기술: Scrapy와 Selenium 정복
scrapy 설치관련 재 질문드립니다
우선 제 첫 질문이 미흡했던 점 사과드립니다. 마음이 급한 나머지 제대로 질문하지 못했습니다. 저는 현재 아나콘다-주피터노트북으로 강사님의 수업을 따라가고 있습니다. 다만 현재까지도 scrapy 설치를 못하여 진도를 나가지 못하고 있는 상황입니다. [강력/최신 크롤링 기술: Scrapy 이해하기] [11:07] 에서 제안해주신 방법대로 실행했음에도 scrapy를 설치하지 못했습니다. 여러차례 구글링을 해보았지만, 방법을 찾지 못했습니다. 그러던 중 아래 저랑 비슷한 실패기를 경험한 블로그를 찾았습니다. https://www.hanumoka.net/2020/06/23/python-20200623-python-windows10-conda-install-scrapy/ 저는 해당 블로그에서 성공기로 설명하는 "conda를 통해서 설치했다."다 역시도 제게는 적용이 안되는 것 같습니다. 잔재미코딩님의 수업을 여태 잘 따라오면서 크롤링이 재미있고 많이 익숙해졌는데, 여기서 설치가 안되니 답답할 따름입니다. 강사님 말씀처럼 pc 환경이 모두 다르기 때문에 100% 적용이 어렵다는 점 잘 알고 있습니다. 그래도 강사님은 어떤 부분을 살펴보면 좋을지에 대한 의견을 주실 수 있을 것 같아 질문드립니다. 여기서 scrapy때문에 이 수업을 포기하고 싶지 않습니다..
- 미해결현존 최강 크롤링 기술: Scrapy와 Selenium 정복
두번 쓰면 한번만 작동
안녕하세요. 이미 질문하신 분들의 질문을 다시 또 질문 드리게 되었네요. 3분 47초를 보시면 두번쨰 for 문에서 parse_subcategory로 넘어가는데요. 선생님께서 빨간 네모 치신 부분은 parse_maincategory 입니다. 즉, 잘못보시고 박스치신거 같습니다. 이것은 첫번째 for문에서 parse_maincategory로 넘어가서 거기에 있는 print문을 작동시킨 것 이고요. 그리고 두분의 질문을 읽어보면, 수업 어딘가에서 설명을 하셨다고 하셨는데. 저도 어디서 설명을 하셨는지 기억이 안납니다. 만약 저 혼자만의 기억 문제라면 분명 저의 문제이겠지만. 저 말고도 2명이 더 있다는 것은 너무 빠르게 집고 넘어가셨던가 아니면 선생님께서 편집을 하시다가 잘라낸게 아닌가 생각이 듭니다. 혹시 시간이 되신다면, 편집으로 조금만 집고 넘어가 주셨으면 합니다. 긴 글 읽어 주셔서 감사합니다!
- 미해결현존 최강 크롤링 기술: Scrapy와 Selenium 정복
robots.txt를 회피하려면 어떻게 해야하나요?
사이트를 Scrapy를 활용해서 할려고 하면 robots 때문에 redirect가 되는데 이를 해결하고자 settings.py에서 ROBOTSTXT_OBEY = False 로도 바꾸긴 했는데 동일하게 안되는데, 이런경우 scrapy로는 작업을 못하는건가요??? 제가 크롤링 하려는 사이트는 www.etherscan.io입니다 2020-10-22 19:09:55 [scrapy.utils.log] INFO: Scrapy 2.4.0 started (bot: etherscan) 2020-10-22 19:09:55 [scrapy.utils.log] INFO: Versions: lxml 4.5.0.0, libxml2 2.9.9, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 20.3.0, Python 3.7.7 (default, Mar 26 2020, 10:32:53) - [Clang 4.0.1 (tags/RELEASE_401/final)], pyOpenSSL 19.1.0 (OpenSSL 1.1.1g 21 Apr 2020), cryptography 2.9.2, Platform Darwin-19.6.0-x86_64-i386-64bit 2020-10-22 19:09:55 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.selectreactor.SelectReactor 2020-10-22 19:09:55 [scrapy.crawler] INFO: Overridden settings: {'BOT_NAME': 'etherscan', 'NEWSPIDER_MODULE': 'etherscan.spiders', 'SPIDER_MODULES': ['etherscan.spiders']} 2020-10-22 19:09:56 [scrapy.extensions.telnet] INFO: Telnet Password: 3e40e2b9fbf79ea2 2020-10-22 19:09:56 [scrapy.middleware] INFO: Enabled extensions: ['scrapy.extensions.corestats.CoreStats', 'scrapy.extensions.telnet.TelnetConsole', 'scrapy.extensions.memusage.MemoryUsage', 'scrapy.extensions.logstats.LogStats'] 2020-10-22 19:09:56 [scrapy.middleware] INFO: Enabled downloader middlewares: ['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware', 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware', 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware', 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware', 'scrapy.downloadermiddlewares.retry.RetryMiddleware', 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware', 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware', 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware', 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware', 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware', 'scrapy.downloadermiddlewares.stats.DownloaderStats'] 2020-10-22 19:09:56 [scrapy.middleware] INFO: Enabled spider middlewares: ['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware', 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware', 'scrapy.spidermiddlewares.referer.RefererMiddleware', 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware', 'scrapy.spidermiddlewares.depth.DepthMiddleware'] 2020-10-22 19:09:56 [scrapy.middleware] INFO: Enabled item pipelines: [] 2020-10-22 19:09:56 [scrapy.core.engine] INFO: Spider opened 2020-10-22 19:09:56 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min) 2020-10-22 19:09:56 [scrapy.extensions.telnet] INFO: Telnet console listening on 127.0.0.1:6026 2020-10-22 19:09:56 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (301) to <GET https://www.etherscan.io/> from <GET http://www.etherscan.io/> 2020-10-22 19:09:56 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (302) to <GET https://www.etherscan.io/404> from <GET https://www.etherscan.io/> 2020-10-22 19:09:57 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (302) to <GET https://www.etherscan.io/404> from <GET https://www.etherscan.io/404> 2020-10-22 19:09:57 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (302) to <GET https://www.etherscan.io/404> from <GET https://www.etherscan.io/404> 2020-10-22 19:09:58 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (302) to <GET https://www.etherscan.io/404> from <GET https://www.etherscan.io/404> 2020-10-22 19:09:58 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (302) to <GET https://www.etherscan.io/404> from <GET https://www.etherscan.io/404> 2020-10-22 19:09:58 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (302) to <GET https://www.etherscan.io/404> from <GET https://www.etherscan.io/404> 2020-10-22 19:09:59 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (302) to <GET https://www.etherscan.io/404> from <GET https://www.etherscan.io/404> 2020-10-22 19:09:59 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (302) to <GET https://www.etherscan.io/404> from <GET https://www.etherscan.io/404>
- 미해결현존 최강 크롤링 기술: Scrapy와 Selenium 정복
window scrapy 설치 오류 관련 질문드립니다.
visual studio를 다운받은 이후 워크로드 창에서 python 개발을 선택해서 설치해야 하나요? 아니면 단순히 visual studio 설치 이후 cmd창을 켜서 pip install scrapy를 실행하면 되는걸까요?
- 미해결현존 최강 크롤링 기술: Scrapy와 Selenium 정복
filtered duplicate request 오류
#sub category for index, category_link in enumerate(category_links): yield scrapy.Request(url='http://corners.gmarket.co.kr'+category_link,callback=self.parse_subcategory,meta={'maincategory_name':category_names[index]}) #main category for index, category_link in enumerate(category_links): yield scrapy.Request(url='http://corners.gmarket.co.kr'+category_link,callback=self.parse_items,meta={'maincategory_name':category_names[index]}) maincategory크롤링 부분만 실행했을 때는 잘 실행되는데 subcategory 크롤링 부분을 추가로 넣어서 실행시키면 scrapy.dupefilters가 뜨면서 no more dupelicates will be shown 이라는 문구가 뜨면서 아예 parse_subcategory함수로 넘어가지 않습니다. 구글링 해서 찾아보니 dont_filter = True를 Request 객체 안에 넣어주니 되긴 하던데 왜 이런 현상이 발생 되는지 알 수 있을까요??
- 미해결현존 최강 크롤링 기술: Scrapy와 Selenium 정복
크롬에서 검색어 입력 오류
안녕하세요. 좋은 강의 항상 감사드립니다. 브라우저를 제어해서 크롤링하기 - Selenium 기본 사용법 익히기1 강의의 5분 47초 구간을 듣고 있는데, 제가 크롤링 하고 싶은 사이트는 다음 뉴스 페이지여서 다음과 같은 코드를 작성했습니다. # 다음 뉴스 페이지 접속 driver.get('https://news.v.daum.net/') # 검색어 창 찾기 elem = driver.find_element_by_name("kakaoSearch") elem.clear() # 검색어 입력 elem.send_keys("낙태") # 엔터 입력 elem.send_keys(Keys.RETURN) 그런데 다음과 같은 오류가 뜹니다. InvalidElementStateException: Message: invalid element state (Session info: chrome=86.0.4240.80)오류가 뜨는 이유와 해결 방법을 알려주시면 감사하겠습니다. 항상 좋은 강의 감사드립니다.
- 미해결현존 최강 크롤링 기술: Scrapy와 Selenium 정복
[알림]실전 크롤링:댓글부대? 다음 뉴스 기사의 댓글 가져오기1
[실전 크롤링:댓글부대? 다음 뉴스 기사의 댓글 가져오기1] 강의에 나온 다음 사이트의 댓글이 20개뿐이 안되는게 이상해서 혹시나하고 클릭해보다가 알게 되었습니다. 아래 사진에 나온 댓글 보기 유형을 "찬반순","최신순","과거순" 중 하나를 선택하면 댓글을 다 볼 수 있습니다. 셀레니움 이용해서 댓글보기 유형을 선택후 스크롤 하면 될거 같습니다 ㅎ
- 미해결현존 최강 크롤링 기술: Scrapy와 Selenium 정복
yield
yield 키워드를 return 키워드 대신에 사용하는 이유가 궁금합니다! return 으로 해보면 Request object is not iterable 이라고 뜨는데 제네레이터인 함수한테는 return 키워드를 아예 사용할 수 없는건가요?
- 미해결현존 최강 크롤링 기술: Scrapy와 Selenium 정복
1:45 import 관련하여 질문있습니다.
안녕하세요 선생님. 파이썬 기초 크롤링 강좌부터 강의 잘 보고 있습니다. 강의에 관련된 내용은 아니지만 궁금한 내용이 있어서 질문글을 작성하게 되었는데요. from selenium.webdriver.support.ui import WebDriverWait 1:45 selenium 라이브러리에서 webdriver 기능에서 ui기능 중에서 webDriberWait을 쓰겠다라는 선언이다라고 하셨는데, 이렇게 구체적인 방식을 사용하지 않고 from selenium import * 와 같은 방식으로 라이브러리 전체를 사용하겠다 명시하고 그 안에서 필요한 것만 사용하면 코드의 속도적인 측면에서나 작동하는 측면에서나 불이익이나 오류가 있을까요? 정말 다시한번 좋은 강의 올려주셔서 감사인사 드립니다.
- 미해결현존 최강 크롤링 기술: Scrapy와 Selenium 정복
utf-8 을 sublime text 상에서 저장했는데도 불구하고 한글이 깨져서 나옵니다.
utf-8 을 sublime text 상에서 저장했는데도 불구하고 csv 파일 열어보면 한글이 깨져서 나오네요,, PC 문제일까요? 터미널 상에서는 정상적으로 파싱이 된 것으로 나오는데 파일을 열어보면 한글이 다 깨지는 현상이 발생해 다른 오류가 있는 것 같아서요 ㅠㅠ
- 미해결현존 최강 크롤링 기술: Scrapy와 Selenium 정복
[seeko 기사 가져오기] 강의, 사이트 바뀜
[seeko 기사 가져오기] 강의에 나온 사이트가 바뀌었습니다. https://www.seeko.kr/zboard4/zboard.php?id=mainnews 를 검색창에 치면 아래 사진처럼 드림워즈 라는 검색엔진으로 바뀝니다. seeko.kr 사이트가 드림워즈로 바뀐거 같아요. 강의와 관련있는 질문을 남겨주세요.• 강의와 관련이 없는 질문은 지식공유자가 답변하지 않을 수 있습니다. (사적 상담, 컨설팅, 과제 풀이 등)• 질문을 남기기 전, 비슷한 내용을 질문한 수강생이 있는지 먼저 검색을 해주세요. (중복 질문을 자제해주세요.)• 서비스 운영 관련 질문은 인프런 우측 하단 ‘문의하기’를 이용해주세요. (영상 재생 문제, 사이트 버그, 강의 환불 등) 질문 전달에도 요령이 필요합니다.• 지식공유자가 질문을 좀 더 쉽게 확인할 수 있게 도와주세요.• 강의실 페이지(/lecture) 에서 '질문하기'를 이용해주시면 질문과 연관된 수업 영상 제목이 함께 등록됩니다.• 강의 대시보드에서 질문을 남길 경우, 관련 섹션 및 수업 제목을 기재해주세요. • 수업 특정 구간에 대한 질문은 꼭 영상 타임코드를 남겨주세요! 구체적인 질문일수록 명확한 답을 받을 수 있어요.• 질문 제목은 핵심 키워드를 포함해 간결하게 적어주세요.• 질문 내용은 자세하게 적어주시되, 지식공유자가 답변할 수 있도록 구체적으로 남겨주세요.• 정확한 질문 내용과 함께 코드를 적어주시거나, 캡쳐 이미지를 첨부하면 더욱 좋습니다. 기본적인 예의를 지켜주세요.• 정중한 의견 및 문의 제시, 감사 인사 등의 커뮤니케이션은 더 나은 강의를 위한 기틀이 됩니다. • 질문이 있을 때에는 강의를 만든 지식공유자에 대한 기본적인 예의를 꼭 지켜주세요. • 반말, 욕설, 과격한 표현 등 지식공유자를 불쾌하게 할 수 있는 내용은 스팸 처리 등 제재를 가할 수 있습니다.
- 미해결현존 최강 크롤링 기술: Scrapy와 Selenium 정복
[다음 뉴스 기사의 댓글 가져오기1] 선택자
강의 듣는 중에 바뀐 부분이 있어 알려드립니다~ [다음 뉴스 기사의 댓글 가져오기1] 에 선택자 마지막 부분이 alex-area > div > div > div > div.cmt_box > div.alex_more > a 에서 alex-area > div > div > div > div.cmt_box > div.alex_more > button 로 바뀌었습니다. 그리고 아래의 사이트 둘다 댓글 더보기 2번 클릭해서 총 20개정도 까지만 볼 수 있고, 이후에 댓글 자체가 아예 안나오게 되어 있어요. https://news.v.daum.net/v/20190709153227319?d=y https://news.v.daum.net/v/20190709165157301?d=y 강의와 관련있는 질문을 남겨주세요.• 강의와 관련이 없는 질문은 지식공유자가 답변하지 않을 수 있습니다. (사적 상담, 컨설팅, 과제 풀이 등)• 질문을 남기기 전, 비슷한 내용을 질문한 수강생이 있는지 먼저 검색을 해주세요. (중복 질문을 자제해주세요.)• 서비스 운영 관련 질문은 인프런 우측 하단 ‘문의하기’를 이용해주세요. (영상 재생 문제, 사이트 버그, 강의 환불 등) 질문 전달에도 요령이 필요합니다.• 지식공유자가 질문을 좀 더 쉽게 확인할 수 있게 도와주세요.• 강의실 페이지(/lecture) 에서 '질문하기'를 이용해주시면 질문과 연관된 수업 영상 제목이 함께 등록됩니다.• 강의 대시보드에서 질문을 남길 경우, 관련 섹션 및 수업 제목을 기재해주세요. • 수업 특정 구간에 대한 질문은 꼭 영상 타임코드를 남겨주세요! 구체적인 질문일수록 명확한 답을 받을 수 있어요.• 질문 제목은 핵심 키워드를 포함해 간결하게 적어주세요.• 질문 내용은 자세하게 적어주시되, 지식공유자가 답변할 수 있도록 구체적으로 남겨주세요.• 정확한 질문 내용과 함께 코드를 적어주시거나, 캡쳐 이미지를 첨부하면 더욱 좋습니다. 기본적인 예의를 지켜주세요.• 정중한 의견 및 문의 제시, 감사 인사 등의 커뮤니케이션은 더 나은 강의를 위한 기틀이 됩니다. • 질문이 있을 때에는 강의를 만든 지식공유자에 대한 기본적인 예의를 꼭 지켜주세요. • 반말, 욕설, 과격한 표현 등 지식공유자를 불쾌하게 할 수 있는 내용은 스팸 처리 등 제재를 가할 수 있습니다.
- 미해결현존 최강 크롤링 기술: Scrapy와 Selenium 정복
scrapy 관련...
안녕하십니까, 선생님이 주신 코드로 한것과 제 코드로 한것 모두 동일한 문제가 있어서 문의드립니다. scrapy 최종에서, 1st category crawling과 2st category crawling 모두를 실행을 했을때, 1st 만 출력이 되고, 2st는 출력이 안되는 문제가 있습니다. 연결고리상에 끊어진 점이 있나 찾아보았는데 없더라구요.. 또한 1st 내용을 지우고, 2st만 출력을 했을때는 정상적으로 출력이 되었습니다. 즉, def parse_mainpage(self, response): 안의 두 for문 중에서 첫번쨰 for문만 작동하는 듯합니다. 여기에 대해서 피드백 주시면 감사하겠습니다. --- 출력 결과값(터미널)--- (base) PS C:\Users\amore\ecommerce> scrapy crawl gmarket_category_all -o gmarket.csv -t csv c:\anaconda3\lib\site-packages\scrapy\commands\__init__.py:129: ScrapyDeprecationWarning: The -t command line option is deprecated in favor of specifying the output format within the -o option, please check the -o option docs for more details feeds = feed_process_params_from_cli(self.settings, opts.output, opts.output_format) c:\anaconda3\lib\site-packages\scrapy\spiderloader.py:40: UserWarning: There are several spiders with the same name: GmarketCategoryAllSpider named 'gmarket_category_all' (in ecommerce.spiders.gamrket_category_all) GmarketCategoryAllSpider named 'gmarket_category_all' (in ecommerce.spiders.gmarket_category_all) This can cause unexpected behavior. category=UserWarning, parse_mainpages parse_maincategory 컴퓨터/전자 ALL parse_maincategory 생활/주방/건강 ALL parse_maincategory 식품 ALL parse_maincategory e쿠폰/티켓 ALL parse_maincategory 여행 ALL parse_maincategory 스포츠/자동차 ALL parse_maincategory 가구/침구 ALL parse_maincategory 유아동/출산 ALL parse_maincategory 화장품/헤어 ALL parse_maincategory 도서/음반 ALL parse_maincategory 신발/잡화 ALL parse_maincategory 패션의류 ALL (base) PS C:\Users\amore\ecommerce> --- 전문코드-- # -*- coding: utf-8 -*- import scrapy from ecommerce.items import EcommerceItem class GmarketCategoryAllSpider(scrapy.Spider): name = 'gmarket_category_all' def start_requests(self): yield scrapy.Request(url='http://corners.gmarket.co.kr/Bestsellers', callback=self.parse_mainpages) def parse_mainpages(self, response): print("parse_mainpages") category_links = response.css('div.gbest-cate ul.by-group li a::attr(href)').getall() category_names = response.css('div.gbest-cate ul.by-group li a::text').getall() # 1st category crawling for index, category_link in enumerate(category_links): yield scrapy.Request(url='http://corners.gmarket.co.kr' + category_link, callback=self.parse_items, meta={'main_category_name':category_names[index], 'sub_category_name': 'ALL' }) # 2nd category crawling for index, category_link in enumerate(category_links): yield scrapy.Request(url='http://corners.gmarket.co.kr' + category_link, callback=self.parse_subcategory, meta={'main_category_name':category_names[index] }) def parse_subcategory(self, response): print ("parse_subcategory", response.meta['main_category_name']) subcategory_links = response.css('div.navi.group > ul > li > a::attr(href)').getall() sub_category_names = response.css('div.navi.group > ul > li > a::text').getall() for index, subcategory_link in enumerate(subcategory_links): yield scrapy.Request(url='http://corners.gmarket.co.kr' + subcategory_link, callback=self.parse_items, meta={'main_category_name':response.meta['main_category_name'], 'sub_category_name':sub_category_names[index] }) def parse_items(self, response): print ("parse_maincategory", response.meta['main_category_name'], response.meta['sub_category_name']) best_items = response.css('div.best-list') for index, item in enumerate(best_items[1].css('li')): doc = EcommerceItem() ranking = index + 1 title = item.css('a.itemname::text').get() ori_price = item.css('div.o-price::text').get() dis_price = item.css('div.s-price strong span span::text').get() discount_percent = item.css('div.s-price em::text').get() if ori_price == None: ori_price = dis_price ori_price = ori_price.replace(",", "").replace("원", "") dis_price = dis_price.replace(",", "").replace("원", "") if discount_percent == None: discount_percent = '0' else: discount_percent = discount_percent.replace("%", "") doc['main_category_name'] = response.meta['main_category_name'] doc['sub_category_name'] = response.meta['sub_category_name'] doc['ranking'] = ranking doc['title'] = title doc['ori_price'] = ori_price doc['dis_price'] = dis_price doc['discount_percent'] = discount_percent #print (ranking, title, ori_price, dis_price, discount_percent) yield doc 강의와 관련있는 질문을 남겨주세요.• 강의와 관련이 없는 질문은 지식공유자가 답변하지 않을 수 있습니다. (사적 상담, 컨설팅, 과제 풀이 등)• 질문을 남기기 전, 비슷한 내용을 질문한 수강생이 있는지 먼저 검색을 해주세요. (중복 질문을 자제해주세요.)• 서비스 운영 관련 질문은 인프런 우측 하단 ‘문의하기’를 이용해주세요. (영상 재생 문제, 사이트 버그, 강의 환불 등) 질문 전달에도 요령이 필요합니다.• 지식공유자가 질문을 좀 더 쉽게 확인할 수 있게 도와주세요.• 강의실 페이지(/lecture) 에서 '질문하기'를 이용해주시면 질문과 연관된 수업 영상 제목이 함께 등록됩니다.• 강의 대시보드에서 질문을 남길 경우, 관련 섹션 및 수업 제목을 기재해주세요. • 수업 특정 구간에 대한 질문은 꼭 영상 타임코드를 남겨주세요! 구체적인 질문일수록 명확한 답을 받을 수 있어요.• 질문 제목은 핵심 키워드를 포함해 간결하게 적어주세요.• 질문 내용은 자세하게 적어주시되, 지식공유자가 답변할 수 있도록 구체적으로 남겨주세요.• 정확한 질문 내용과 함께 코드를 적어주시거나, 캡쳐 이미지를 첨부하면 더욱 좋습니다. 기본적인 예의를 지켜주세요.• 정중한 의견 및 문의 제시, 감사 인사 등의 커뮤니케이션은 더 나은 강의를 위한 기틀이 됩니다. • 질문이 있을 때에는 강의를 만든 지식공유자에 대한 기본적인 예의를 꼭 지켜주세요. • 반말, 욕설, 과격한 표현 등 지식공유자를 불쾌하게 할 수 있는 내용은 스팸 처리 등 제재를 가할 수 있습니다.
- 미해결현존 최강 크롤링 기술: Scrapy와 Selenium 정복
셀레니움으로만 수업을 따라가도 되나요?
다른것 설치 안하고 뒤에 수업내용을 따라 갈수 있는건지 궁금합니다
- 미해결현존 최강 크롤링 기술: Scrapy와 Selenium 정복
head
서버로 요청할 때 headless가 아닌 head를 채워서 보내는 방법이 있다고 하셨는데 각 개인의 head내용은 어디서 볼 수 있는건지 궁금합니다! 항상 좋은 강의 올려주시느라 감사합니다 ㅎㅎ
- 미해결현존 최강 크롤링 기술: Scrapy와 Selenium 정복
스크롤해서 나오는 정보는 어떻게 할까요
안녕하세요 댓글에서는 더보기 클릭해서 정보를 수집하는데요 스크롤해서 정보가 나오는 데이터는 어떻게 크롤링해야할까요? 감사합니다
- 미해결현존 최강 크롤링 기술: Scrapy와 Selenium 정복
셀렉터 질문 드립니다.
안녕하세요. 오늘 강의와는 크게 상관이 없는데, 유용하게 느껴져서 질문드립니다. id가 있는 것만 선택할 경우 [id] 이런식으로 처리되는데, 클래스에는 적용이 되지 않는 것 같더라고요. 클래스가 있는 태그만 뽑아내는 것도 가능한가요?
- 미해결현존 최강 크롤링 기술: Scrapy와 Selenium 정복
selenuim 로그인 하기 질문 있습니다!!
제가 특정 사이트를 로그인 하는 실습을 진행 중인데요 send_keys("python") 이부분에 아이디, 패스워드를 넣고 실행 시키면 아이디 부분은 내용이 입력이 되는데 패스워드는 내용 입력이 안됩니다. 패스워드 쪽은 복사 붙여넣기 기능을 못하게 해놓고 먼가 크롤링을 못하게 해놓은거 같은데 다른 방법은 없는건가요?? 강의와 관련있는 질문을 남겨주세요.• 강의와 관련이 없는 질문은 지식공유자가 답변하지 않을 수 있습니다. (사적 상담, 컨설팅, 과제 풀이 등)• 질문을 남기기 전, 비슷한 내용을 질문한 수강생이 있는지 먼저 검색을 해주세요. (중복 질문을 자제해주세요.)• 서비스 운영 관련 질문은 인프런 우측 하단 ‘문의하기’를 이용해주세요. (영상 재생 문제, 사이트 버그, 강의 환불 등) 질문 전달에도 요령이 필요합니다.• 지식공유자가 질문을 좀 더 쉽게 확인할 수 있게 도와주세요.• 강의실 페이지(/lecture) 에서 '질문하기'를 이용해주시면 질문과 연관된 수업 영상 제목이 함께 등록됩니다.• 강의 대시보드에서 질문을 남길 경우, 관련 섹션 및 수업 제목을 기재해주세요. • 수업 특정 구간에 대한 질문은 꼭 영상 타임코드를 남겨주세요! 구체적인 질문일수록 명확한 답을 받을 수 있어요.• 질문 제목은 핵심 키워드를 포함해 간결하게 적어주세요.• 질문 내용은 자세하게 적어주시되, 지식공유자가 답변할 수 있도록 구체적으로 남겨주세요.• 정확한 질문 내용과 함께 코드를 적어주시거나, 캡쳐 이미지를 첨부하면 더욱 좋습니다. 기본적인 예의를 지켜주세요.• 정중한 의견 및 문의 제시, 감사 인사 등의 커뮤니케이션은 더 나은 강의를 위한 기틀이 됩니다. • 질문이 있을 때에는 강의를 만든 지식공유자에 대한 기본적인 예의를 꼭 지켜주세요. • 반말, 욕설, 과격한 표현 등 지식공유자를 불쾌하게 할 수 있는 내용은 스팸 처리 등 제재를 가할 수 있습니다.
- 미해결현존 최강 크롤링 기술: Scrapy와 Selenium 정복
크롤링에서 크롤링 하기에서 'href' 호출 문의
안녕하세요 질문이 있어서 글을 올립니다 크롤링 하고 다시 크롤링 하는 부분에서 href 부분이 a href = "ncas/analysis-reports/ar20" 이부분만 나타나서 https://us-cert.cisa.gov/ 생략.. res_info = requests.get(title['href']) 시 https:// 포맷에 안맞다고 오류가 납니다. 이럴떄 해결 방법이 있나요??