• 카테고리

    질문 & 답변
  • 세부 분야

    데이터베이스

  • 해결 여부

    미해결

지마켓 크롤링 조금 바뀐 것 같아서요. 마구 테스트 했는데 혹시 차단 될 수 있을까요?

21.12.19 17:06 작성 조회수 228

0

사실 지금은 뭐가 바뀌었겠지 그래서 강의 어차피 진행 안되겠지 싶어서 포기하려다가 간간히 업데이트 해주셨던 기억이 나서 한번 오랫만에 도전 해봤습니다. 잘 되네요

 

그런데 아이템 코드 부분이 계속 똑같은 숫자들만 나와서 ..

"아 요정도는 내가 해볼 수 있겠다" 라는 생각이 들어서 이거저거 계속 바꿔가면서 도전 해보다가..

(지금은 주소 형식이 =이 두개 들어가있는 형태로 바뀌었더라구요.)

그래서 아래처럼 수정 했는데요. 잘 되네요.

item_code = product_link.attrs['href'].split('=')[1].replace('&ver','')

 

아마도 &ver 이게 들어가있길래 제가 스프릿 부분을 막 바꿔보고 그랬던 것 같아요.

저도 진짜 정리가 안되네요 진짜 마구잡이로 해볼 수 있는건 다 해봐서..

그래서 이 정리가 맞는지도 모르겠어요. 

 

아무튼 제가 정작 궁금한것이 있는데요

여기까지 해보는 과정에서 url이 바뀐거 잘 인지 못하고, 강의랑 다른 결과가 나오는 바람에

부모태그 자식태그 이거저거 바꿔가면서 정말 엄청 많이 실행을 해봤었는데요

그러다가 방금 전에 한두번쯤 먹통이었던 적이 있었고요......

이러다가 아마도 저 차단당하는거 아닐까.. 싶은데요 ..

혹시 그럴 경우도 있나요? ㅜㅜ;

 

저같은 분이 또 있을지 모르니 url에 =이 두개 들어가는걸로 바뀌고 &ver 이런게 붙어있다고 강의노트? 에 메모도 해주시면 좋겠습니다

 

감사합니다.

 

 

 

마지막으로 추가하자면 어제 글 올리고 지금 새벽인데 방금 드디어

크롤링과 데이터베이스 - DB와 프로그래밍 코드 작성과 팁2 까지 실행 성공 했는데요.

 

크롤링이 아주 오래걸릴 수 있다고 하셔서 저도 에러 없이 돌아가고 있는 것만 확인 하고 그냥 정지버튼 눌러서 종료 했는데.. 

지금처럼 이렇게 중간에 종료하면 db에는 입력 안되어있는게 맞나요?

 

뭐가 잘못된게 아니라 크롤링을 중간에 종료해서 db에 하나도 입력 안돼있는거여야

에러안내고 완료 한번 해본거에 만족하고 복습에만 신경쓸 수 있을 것 같아서요.

 

답변 1

답변을 작성해보세요.

0

안녕하세요. 우선 변경된 부분에 대해서, 동작하는 코드를 알려주셔서 감사합니다.

해당 코드로 우선 업데이트해놓았습니다.

 

다음으로, 너무 많이 요청하면, 해당 사이트에서 일정 횟수만큼 일정 기간동안 반복 요청시, 막을 수 있습니다. 서버측 운영을 어떻게 하느냐에 따라 다를 수 있지만, 충분히 가능한 시나리오입니다.

 

마지막으로 db 에 입력이 되는 시점이 다를 수 있어서, 중간에 정지할 경우, db 에 아직 입력전이라 입력이 안될 수 있습니다. 코드를 모든 카테고리를 다 해보기보다, 딱 메인 카테고리 한 개 정도만 실행하도록 살짝 코드를 바꿔서 테스트해보신다면 아마 좀더 이런 부분에 확신이 들지 않을까 생각합니다.