Làm chủ Crawling bằng cách thực hành cùng Data Workshop
Làm chủ Python Crawling. Chỉ với một nội dung này, bạn có thể nắm bắt từ cài đặt đến ứng dụng thực tế. Tôi đã gói gọn tất cả những nội dung thực sự cần thiết để bạn có thể áp dụng ngay vào thực tế.
141 học viên
Độ khó Nhập môn
Thời gian Không giới hạn
Thông báo thay đổi thông tin chuyên mục Netflix
Do việc tổ chức lại trang Netflix nên thẻ tiêu đề đã được thay đổi.
Tôi sẽ thêm mã sửa bên dưới bài viết.
phần_title = phần.select('h3')[0].text #Before thay đổi)
part_title =section.select('h2')[0].text # Edit) Thay đổi thẻ của phần tiêu đề phần
--------------
2022.01.01 Sửa đổi bổ sung
Khi nhập tệp hình ảnh và phần URL chương trình từ Netflix
Trong một số trường hợp, thông tin bị thiếu hoặc chứa thông tin khác, vì vậy chúng tôi đã thêm mã để sắp xếp thông tin đó.
Trường hợp thông tin file ảnh
1. Nếu nó chứa thông tin tệp hình ảnh,
2. Nếu nó ở định dạng khác tệp (data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==) (hình ảnh không được hiển thị trên màn hình)
3. Có trường hợp thiếu thông tin về tệp hình ảnh.
Kiểm tra từng bước ở trên và nếu đó không phải là thông tin bạn đang tìm kiếm, hãy sắp xếp nó với thông tin tiếp theo.
Tôi đã sửa đổi nó như sau bằng cách sử dụng các câu lệnh thử, ngoại trừ và các câu lệnh có điều kiện.
-------------------------------------------------- ----------------------
thử:
chương trình_img = chương trình.select('img')[0]['src']
nếu 'https' không có trong chương trình_img:
chương trình_img = '' # Nếu vị trí tệp hình ảnh không được hiển thị (không hiển thị trên màn hình), hãy nhập trống.
ngoại trừ:
chương trình_img = '' # Nếu không có thông tin hình ảnh, hãy nhập trống
-------------------------------------------------- ----------------------
Trong phần liên kết chương trình, có trường hợp trong thẻ không có thông tin nào cả, nếu không có thông tin thì nhập một khoảng trống.
-------------------------------------------------- ----------------------
thử:
chương trình_link = chương trình.select('a')[0]['href']
ngoại trừ:
chương trình_link = '' # Nếu không có địa chỉ liên kết, hãy để trống
-------------------------------------------------- ----------------------




