selenium으로 여러페이지 수집시 질문
381
5 câu hỏi đã được viết
Câu trả lời 1
0
안녕하세요. 답변도우미입니다.
우선 각자 원하시는 사이트 크롤링 코드를 가이드드리기는 강의가 평상 강의라서, 양해부탁드려요. 충분히 이해하시겠지만, 본 질문/답변란은 본 강의의 영상이 이해가 안갈 경우등에 대한 질문/답변란이고, 각자의 원하시는 사이트 크롤링을 평생 가이드를 드린다면, 강의를 수강하시면, 크롤링 외주를 다 평생 해결해드리는 상황이 올 수도 있거든요. 이런 부분은 무리가 있는 부분이라서, 이해를 부탁드립니다.
그럼에도 가볍게라도 의견을 드린다면, 사실 코드는 각 사이트마다 완전히 다를 것이라서, 어떤 의견을 드리기도 애매한데요. 도움이 되실지 모르겠지만, 데이터가 균일하게? 들어있지 않는 페이지 라면, 각 페이지 주소를 체크하고, 각 페이지 주소마다, 다른 포멧을 별도로 선택하는 방식으로 하면 어떨까 하는데 어떠실까요? 사실 코드가 워낙 사이트마다 다를 것이라서, 막연하게 의견을 드리기가 쉽지 않기도 하지만, 특별한 로직이 있기는 어려워보입니다. 페이지 주소를 체크해서, 포멧이 다를 때를 일일이 구별해서, 크롤링하는 방법 이외에는 자동화? 된 로직으로 만드는 부분은 실제로 해당 사이트를 구현해봐야 알 수 있을 듯 합니다.
감사합니다.
[REST API] data의 교환방식 질문
1
663
1
headless chrome 오류 문의
0
1487
1
Selenium 처리 속도 관련 문의드립니다.
0
1951
1
동적 웹사이트에서 element가 선택되지 않는 문제에 관해 질문드립니다
0
687
1
webdriver manager
0
439
1
__init__() got an unexpected keyword argument 'service' 에러 질문드립니다.
1
11709
1
Jupiter NoteBook 파일과 PDF 파일은 어디서 다운로드 받을 수 있나요?
0
444
1
scrapy option질문
1
244
1
response.css 질문드립니다.
0
369
1
scrapy 크롤링 수행시 ffi.callback() 에러가 발생합니다
0
397
1
연습6 모범 코드: 로그인 시나리오 해보기
0
271
1
셀레니움 문법 업그레이드 , find_element_by_tag_name 오류
3
2832
1
셀레니움 버전 변경으로 인한 코드 변경
0
1284
1
headless error
0
440
1
질문있습니다!
0
463
1
안녕하세요 선생님! 질문있습니다.
0
233
1
selenium&scrapy문의
0
280
1
아래분(phantele47)과 동일한 문제가 발생해서 문의드립니다.
0
909
6
ip 차단을 피하려면 어떻게 해야 하나요?
0
3358
2
start_urls = ['']가 제공해주신 것과 다르게 작동합니다.
1
284
2
json, data = json.loads(response.body_as_unicode()) 부분에 문제가 있는 것 같습니다.
0
601
3
웹크롤링이 상대방 서버에 부담이 될 때는 어떻게 하나요~?
0
684
1
scrapy 윈도우버전의 설명은 따로 없나요??
0
330
1
json 으로 저장이 안되네요
0
2133
1

