• 카테고리

    질문 & 답변
  • 세부 분야

    데이터 분석

  • 해결 여부

    미해결

seeko 웹사이트가 바뀌었어요

20.01.08 10:29 작성 조회수 162

1

(패턴으로 실습하며 익히기: urllib 라이브러리 사용법 강의)

선생님 https://www.seeko.kr/zboard4/zboard.php?id=mainnews 이 없어지고

https://seeko.earlyadopter.co.kr/bbs/board.php?bo_table=mainnews

여기로 변경이 됬어요.

'td' 태그도 없어졌어요. 그래서 제가 그냥 만들어봤는데 text가 댓글 때문에 이상하게 출력이 됩니다.  

제가 find_all('a', 'item-subject')으로 찾기를 해서 밑에 있는걸 다 긁어와서 저렇게 되는걸 고치질 못하겠습니다.

제 머릿속으로는 find_all('span', 'wr-icon wr-image') 이후 get_text()하면 텍스트만 출력이 될꺼 같은데 오히려 이렇게 하면 아무것도 안나옵니다. 

여기 아래 깃허브에 제 코드인데 도와주세요.

FINDALL로 출력해보고, SELECT로도 출력해봐도 정리가 안됩니다.

https://github.com/treksis/Python-Scraping/blob/master/6.%20urllib_seeko_crawl.ipynb

답변 1

답변을 작성해보세요.

3

안녕하세요. 조금 늦어서 죄송합니다. 사실 이 질문 자체가 다른 질문 뒤에 있는 바람에 누락이 되서, 있는지를 체크하지 못했어요. 일단 강의 안에서 가이드한 내용과 관련한 이슈이니, 확인해드리면, 다음과 같이 코드를 작성하시면 결과와 같이 출력이 될 것입니다. replace() 함수를 써서, \t 과 \n을 없애주시면 됩니다. 감사합니다.

for item in data:

    print(item.get_text().replace('\t', '').replace('\n', ''))

----결과

우버와 현대자동차의 만남
곧 출시 SELFIETYPE
에이서가 공개한 프리미엄 게이밍 모니터 3종
위딩스의 스마트 혈압측정기
콘솔 전용 게이밍 헤드셋, 터틀 비치의 국내 상륙
레이저의 고주사율 게이밍 노트북 RAZER BLADE Pro 17
1장비발 높여주는 게이밍 액세서리 : 듀얼쇼크 4 백 버튼1
1모비프렌, 80시간 음악 재생 TWS '솔로' 발표1
12020년의 첨단 킥보드 : 드래곤플라이1
빨콩 감성으로 무선 이어폰을 만들면? TrackPods
오래 가서 외롭지 않은 와이어리스 이어폰 : 모비프렌 솔로
5애플의 900만원짜리 전문가용 모니터 : 프로 디스플레이 XDR5
한 차원 더 힙해진 완전 무선 이어폰 : 어바니스타 파리
1가볍고 예쁜 색감의 삼성 갤럭시 A51과 A711
꽉 막힌 와이파이를 빵빵하게 : 링크시스 벨롭 리뷰