Bài giảng Python miễn phí (Cách sử dụng Phần 3) - Quét web (5 giờ)
Chúng tôi sẽ dạy cho bạn mọi thứ, từ những điều cơ bản về HTML cho đến bí quyết thu thập dữ liệu của các chuyên gia. Chỉ video này thôi là đủ rồi.
5,639 học viên
Độ khó Cơ bản
Thời gian Không giới hạn
Sửa lỗi bài giảng
Xin chào, tôi cũng đang viết mã. ^^
Chúng tôi xin thông báo với bạn rằng trang web đã có những thay đổi kể từ thời điểm quay bài giảng.
Hãy tham khảo những thông tin dưới đây và tìm hiểu nhé.
1. “Tistory” nhận HTML bình thường mà không thay đổi UserAgent.
(Bài giảng liên quan: Tác nhân người dùng)
2. Khi cố gắng đăng nhập vào “Naver”, một trang nhập ký tự để ngăn việc nhập tự động sẽ xuất hiện. Vui lòng tham khảo liên kết giới thiệu cách sử dụng JavaScript như một giải pháp thay thế.
https://jaeseokim.github.io/Python/python-Web-crawling-Naver-login-post-subscription-feed-crawling-USE-Selenium/
(Bài giảng liên quan: Selenium nâng cao (Đăng nhập Naver))
3. Sau khi kiểm tra nội dung bài giảng “Coupang”, có vẻ như một số mục được truy xuất hơi khác so với khi truy cập trên web. Kết quả của việc xác nhận là khoảng 80% màn hình là bình thường và 20% màn hình truy xuất các giá trị không tồn tại trên trang. (Có thể đó là thứ gì đó xuất hiện ở trang tiếp theo) Ngoài ra, không giống như trang web, 80% các mục dường như có một chút trật tự hỗn hợp. Dường như có sự khác biệt về giá trị được Coupang trả về khi được truy xuất chỉ bằng yêu cầu, do đó có vẻ cần phải so sánh kết quả bằng selen. Chúng tôi thành thật xin lỗi nếu có sai sót trong nội dung vì chúng tôi đã không nghĩ đến việc kiểm tra kỹ kết quả trong giờ học.
(Bài giảng liên quan: BeautifulSoup4 Cách sử dụng 2 (Coupang))
4. Khi truy xuất Naver News từ bài giảng “Dự án”, Lỗi Máy chủ 500 được hiển thị. Trong trường hợp này, chỉ cần nhập tác nhân người dùng PC của bạn làm tiêu đề trong yêu cầu.
(ví dụ)
chắc chắn create_soup(url):
headers = {"User-Agent">Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36"}
res = request.get(url, headers=headers)
res.raise_for_status()
súp = BeautifulSoup(res.text, "lxml")
súp trở lại
(Bài giảng liên quan: Headline/IT News (Naver News))
Cảm ơn
Miễn phí




