
(패턴으로 실습하며 익히기: urllib 라이브러리 사용법 강의)
선생님 https://www.seeko.kr/zboard4/zboard.php?id=mainnews 이 없어지고
https://seeko.earlyadopter.co.kr/bbs/board.php?bo_table=mainnews
여기로 변경이 됬어요.
'td' 태그도 없어졌어요. 그래서 제가 그냥 만들어봤는데 text가 댓글 때문에 이상하게 출력이 됩니다.
제가 find_all('a', 'item-subject')으로 찾기를 해서 밑에 있는걸 다 긁어와서 저렇게 되는걸 고치질 못하겠습니다.
제 머릿속으로는 find_all('span', 'wr-icon wr-image') 이후 get_text()하면 텍스트만 출력이 될꺼 같은데 오히려 이렇게 하면 아무것도 안나옵니다.
여기 아래 깃허브에 제 코드인데 도와주세요.
FINDALL로 출력해보고, SELECT로도 출력해봐도 정리가 안됩니다.
https://github.com/treksis/Python-Scraping/blob/master/6.%20urllib_seeko_crawl.ipynb
안녕하세요. 조금 늦어서 죄송합니다. 사실 이 질문 자체가 다른 질문 뒤에 있는 바람에 누락이 되서, 있는지를 체크하지 못했어요. 일단 강의 안에서 가이드한 내용과 관련한 이슈이니, 확인해드리면, 다음과 같이 코드를 작성하시면 결과와 같이 출력이 될 것입니다. replace() 함수를 써서, \t 과 \n을 없애주시면 됩니다. 감사합니다.
for item in data:
print(item.get_text().replace('\t', '').replace('\n', ''))
----결과