크롤링 질문입니다.

Question

제가 크롤링을 배우기로 결심한 이유는 구글 검색 결과로 나오는 링크의 웹사이트를 하나하나 들어가서 그곳에 있는 특정 정보를 수집하기 위함이었습니다. 여기저기 질문을 하며 얻게된 결론은 정형화되어있지 않은 결과에서는 매우 힘들다는 것이 었는데 이게 아예 불가능 한지 궁금합니다. 제가 추출하고자 하는 정보가 브라우져에서 보이는 한 페이지 않에 있지 않고 각각의 링크안에 있다면, 그 링크안에서 정보를 파싱해서 찾아오는게 어떻게 가능할까요? 그리고 구글 같은 경우는 캡차가 있는 것이 또 하나의 걸림돌이라고 들었는데요. 조언좀 부탁드립니다.

잔재미코딩 DaveLee · Answer

안녕하세요. 강좌에서 참고할 만한 부분이 있는데요. 웹페이지 내의 링크를 다시 크롤링해서, 웹페이지 내에서 연결되어 있는 웹페이지들을 크롤링하는 것도 가능합니다. 그리고 해당 페이지의 HTML을 통째로 저장한다면, 필요한 웹페이지들을 모두 크롤링할 수도 있습니다. 다만 각 페이지마다 저장해야하는 정보가 다르다면 당연히 해당 페이지의 원하는 부분을 지칭해야하기 때문에, 정확히 해당 부분을 각 페이지마다 지정해야합니다. 캡차같은 경우는 특별한 경우인데요. 이런 부분도 각 캡차의 특징을 확인해서, 뚫는 방법을 고안할 수는 있지만, 각 페이지마다 분석이 필요한 부분이구요. 알아서 내가 필요한 정보를 예상할 수 없는 캡차등을 알아서 뚫어가면서, 심지어 자동으로 정확히 지칭하지도 않았는데, 원하는 정보만 추출하는 방법은 무리가 있긴 하겠습니다. 적어도 내가 원하는 웹페이지 주소 + 해당 웹페이지에서 필요한 정보 + 해당 웹페이지를 들어갈때 캡차등이 있다면 각각의 캡차등을 알아내어 푸는 방법까지는 생각을 해봐야 겠고, 이런 부분들이 특정한 패턴이 있다면, 해당 부분을 프로그래밍하는 것을 고민해볼 수는 있을 듯 합니다. 물론 굉장히 어려운 작업이 될 수는 있겠습니다. 꼭 도움이 되셨으면 좋겠습니다. 감사합니다.