• 카테고리

    질문 & 답변
  • 세부 분야

    데이터 분석

  • 해결 여부

    미해결

시코 홈페이지 게시판 크롤링 관련하여 질문있습니다.

20.03.23 15:49 작성 조회수 118

0

 

안녕하세요. 강사님. 평소에 열심히 강의를 듣고 있습니다. 현재 시코 홈페이지 게시판 크롤링부분을 듣고 있습니다.

위 사진은 현재 시코 홈페이지의 뉴스의 첫 게시물 제목인 '탄소 발자국을 줄이는 나이키 신발'을 크롤링하기 위해서 select만 한 후 출력한 사진입니다.

아래사진은 이후에  get_text로 문자들만 추출한 사진입니다.

위에서 b라는 하위태그 사이에 있는 1과 </span>태그 와 제목사이에 있는 공백도 같이 추출된 것 같습니다.

결론적으로 궁금한 것은, 강사님께서 하위태그를 출력하는 방법은 알려주셔서 알고 있지만, 위처럼 a태그 안에 추출하고 싶은 것이 있을 때, 일부 a 안에 하위태그의 문자는 추출하지 않도록 설정하는 코딩 방법이 있을까요? ㅠ

뒷 강의에서 나올 수도 있을 것 같긴한데 너무 궁금해서요.. 

장황한 질문 읽어주셔서 감사합니다. 오늘 하루도 즐거운 하루 되시길 바랍니다.

답변 1

답변을 작성해보세요.

1

안녕하세요. 이 부분은 다음 강좌를 보시면서, strip(), split() 함수를 사용해보시면 해결할 수 있을 것 같습니다. 감사합니다.~

실전 크롤링과 강력한 크롤링 기술 팁2 (2020 업데이트)