• 카테고리

    질문 & 답변
  • 세부 분야

    데이터 분석

  • 해결 여부

    해결됨

[추가질문] 뉴스 제목 추출시 함께 추출되는 숫자없이 제목만 추출하고 싶습니다.

20.02.11 16:15 작성 조회수 83

0

먼저 답변 감사합니다.

데이터 수집 및 분석/머신러닝을 목표로 파이썬 위주로 공부를 하고 있는데, 제가 컴퓨터 공부를 시작한지 얼마 안되고 아직은 이쪽 분야에 대하여 잘 몰라 뭘 공부해야하는지 큰그림이 그려져 있지 않는 상태입니다.

일단은, 파이썬 기초공부를 어느정도 마치고, 데이터 수집을 하려고 하니 crawling 이 필요하다고 하여, 공부를 시작했는데, 지금 듣고 있는 이 강좌와 아직 시작은 안했지만, 이 강의를 구매했을 때, 함께 강사님의 다른 강좌인 'Scrapy와 Selenium 정복' 을 구매한 상태 입니다. (본 강의 다 듣고 들을 예정입니다.) 

제가 묻고 싶은 것은 crawling 이라는 것을 어느 정도 까지 공부를 해야 할지 모르겠습니다.

강의를 듣고 뉴스 기사 제목 정도 뽑는 것은 어느정도 쉽게 할 수 있다고 생각했는데, 저런 문제가 있을 줄은 몰랐으며, 본 강의만으로 해결이 안되었다는것에서....이 crawling 을 도데체 어디까지 공부해야 하지? 라는 생각이 들었습니다.

예를들어 강의에서 언급하셨듯, crawling을 위해서 JAVASCRIPT, HTML, CSS를 모조리 꼼꼼히 공부할 필요가 없는 것 처럼, 그 끝이 어딘지 몰라서 막막한 감이 있습니다.  

다른이들은 모르는 부분은 그때그때 구글링으로 찾아서 해결한다고는 하나, 저 같은 경우는 저 문제와 같은 것을 어떤 키워드로 찾아야 할지도 모르겠어서 (그만큼 초보임) 답답합니다. 

'Scrapy와 Selenium 정복'(현존 최강 크롤링 기술이라고 제목에 있길래 강의 신청했음) 강의 내용을 습득하면 제가 질문한 문제 같은것 들을 해결 할 수 있는지, 아니면 파이썬 정규식과 같은 추가로 다른 부분들을(예를들어 Scrapy와 Selenium 강의에 나오지 않는 부분들) 공부를 해야 하는지 궁금합니다. 

답변 1

답변을 작성해보세요.

0

안녕하세요. 크롤링에 대해 어느 정도까지 알아두면 좋을까 에 대해서는, Scrapy/Selenium/정규식정도까지 알고 활용할 수 있다면, 높은 수준에 있다고 보시면 좋을 것 같습니다. 다만, 그렇다고해서, 어떤 웹사이트든 마음대로, 짧은 시간안에 쉽게 크롤링할 수 있다는 것은 아니예요. 이 부분은 실제로 개발을 해보면서 오랜 경험이 있어야 하는것이니까요. 수년간 크롤링을 해보지 않고서는 안되는 것이죠. 그런 작업을 할수 있을만한, 기본 기술을 다 익혔다 정도로 이해하시면 좋을 것 같습니다.