• 카테고리

    질문 & 답변
  • 세부 분야

    데이터 분석

  • 해결 여부

    미해결

크롤링 관련 몇가지 질문입니다.

20.01.20 09:49 작성 조회수 107

0

제로초님, 몇가지를 모아 질문드리오니 조언부탁드립니다.

1. proxy 접속

 - latency가 낮은 IP로 접속하는 로직을 적용하면 (정규식으로 document.querySelector 이하 replace), DOM에서 없었는데 IP뒤에 "undefined:8080"이 붙습니다.

 - 상기 "undefined:8080"을 정규식으로 다시 정리하여 proxy 사용 접속했으나, "proxy 사용 인터넷 연결 안됨" 메시지가 뜨는데요, 어떻게 해결하는 방향이 있을까요?

2. node로 IE 크롤링은 불가한 걸까요?   회사 업무에서 IE로만 접속 가능한 사이트를 대상으로 실습해 보려는데 node로는 안되는것 같아서요

3. 특정 사이트 (http://www.courtauction.go.kr/)은 postman으로 요청날리고 preview를 해도 텅비어 나타납니다.  이런경우 크롤링 방법이 없는지요?

이상입니다.

답변 3

·

답변을 작성해보세요.

0

일단 프록시가 되는 주소를 찾는게 먼저입니다. 제 강좌의 프록시 사이트 말고 다른 사이트애서 주소를 찾아보세요.

0

1. 말씀대로 다양하게 시도해 봤었는데 동일 증상이어서요...

혹시 컴퓨터나 브라우저 세팅에서 확인해봐야 할 사항이 있을까요?

기타 답변 감사합니다~

0

1. proxy ip를 추출하신 것 같은데 proxy가 무조건 동작하는 것은 아닙니다. 다양한 주소를 시도해보셔야 합니다.

2. IE는 크롤링할 수 없어서 그 경우에는 selenium같은 다른 프로그램을 사용하셔야 합니다.

3. 지금 확인해보니 frameset 안에 들어있는 것 같습니다. waitForSelector로 frameset을 기다린 후 그 안에 들어가서 하시면 될 것 같습니다. frame 안에 들어가는 방법은 이 강좌 마지막 iframe 접속하기와 같습니다.