강의 외 질문입니다.
226
작성한 질문수 4
저번에 질문드렸던 학교홈페지이의 새 글이 올라오면 가져오는 것을 해보고 있습니다.
사이트의 posts[4]가 무조건 최신글이 됩니다.
그렇다면 만약에 다음에 또 실행을 했을 때, 새글이 있을 때만 가져오고, 없을 때는 안가지고 오는 것을 어떻게 만들 수 있을까요?
일단 지금 생각하고 있는게, 가져온 글들을 .txt에 저장 후 같은 제목이 있으면 그만하고, 일치하는게 없다면 가져오는 것을 생각 중 입니다.
아니면 아얘 셀레니움으로 가야 방법이 있을까요?
힌트라도 부탁드립니다ㅠㅠ물어 볼 사람이 없어서 좀 답답합니다.
첫번째 코드가 최신코드입니다. 어디로 가는지 모르겠습니다ㅠㅠ
import requests
from bs4 import BeautifulSoup
import os
req = requests.get("https://www.daegu.ac.kr/article/DG159/list")
html = req.text
soup = BeautifulSoup(html, 'lxml')
posts = soup.select("table.board_tbl_list > tbody:nth-child(4) > tr > td.list_left > a")
for post in posts:
title = post.get_text()
print(title, end='')
link = post.get('href')
url = "https://www.daegu.ac.kr/article/DG159/list" + link
print(url)
print(post)
import requests
from bs4 import BeautifulSoup
import os
BASE_DIR = os.path.dirname("/Users/yeon/Desktop/인프런/untitled folder")
req = requests.get("https://www.daegu.ac.kr/article/DG159/list")
html = req.text
soup = BeautifulSoup(html, 'lxml')
posts = soup.select("table.board_tbl_list > tbody:nth-child(4) > tr > td.list_left > a")
latest = posts[4].text
답변 1
0
안녕하세요.
여러가지 방법이 있을 수 있습니다.
1. DB에 마지막 글을 저장해놓고 가장 최신의 글과 비교해서 같으면 가져오지 않습니다.
2. 마지막 가져온 글의 사이즈 및 길이 및 hash 코드를 비교해서 같으면 아직 새글이 등록되지
않은 것이라 판단해서 가져오지 않습니다.
3. 게시판에 날짜 및 시간정보가 있다면 비교해서 같으면 새글이 아니므로 패스합니다.
구현하는 방법에 따라서 개개인마다 패턴이 다를 것 같습니다.
감사합니다.
현재 예제에서 error 발생
0
367
3
유튜브 동영상 다운로드
0
1448
2
Atom 에디터 관련
0
337
1
위시켓 폼데이터
0
274
1
스케줄러 사용 관련 질문 드립니다
0
627
1
selenium 에러
0
428
1
Progress bar 쓰레드 관련
0
489
1
Install Package 관련 문의
0
328
1
tkinter 샘플 코드 실행 오류 건
0
1267
1
4-7-6 네이버 & 카카오 주식 정보 가져오기
0
381
1
네이버자동로그인_by_selenium
0
876
1
위시캣 로그인 처리 및 크롤링 질문
0
345
1
2-8-1 네이버이미지 크롤링 질문
1
604
3
li:nth-of-type 질문
0
350
2
에러가 뜨는데 잘 모르겠어요ㅠ
0
401
2
Install Packages 항목이 안보이는 이유가 뭘까요?
0
400
2
환경변수 Path 설정 방법
0
631
1
웹 브라우저 없는 스크랩핑 및 파싱 실습(1) - 인프런
0
333
1
웹 브라우저 없는 스크랩핑 및 파싱 실습(1) -git주소
0
477
3
download2-8-1. py질문
0
203
1
ip 차단 당하는 거 같은데 아무리 랜덤주고, sleep 줘도 안 되는데 다른 방법 더 있을까요??
0
645
1
인프런 환경이 바뀌어서 제나름대로 하는데
0
196
1
다시올려주신 예제파일로하는데
0
190
1
아직도 에러가뜨나보네요?
0
584
1





