강의

멘토링

커뮤니티

Data Science

/

Data Analysis

Làm chủ Crawling bằng cách thực hành cùng Data Workshop

Làm chủ Python Crawling. Chỉ với một nội dung này, bạn có thể nắm bắt từ cài đặt đến ứng dụng thực tế. Tôi đã gói gọn tất cả những nội dung thực sự cần thiết để bạn có thể áp dụng ngay vào thực tế.

(4.7) 6 đánh giá

141 học viên

Độ khó Nhập môn

Thời gian Không giới hạn

  • datago0ba0
Python
Python
Web Crawling
Web Crawling
Big Data
Big Data
Python
Python
Web Crawling
Web Crawling
Big Data
Big Data

Thông báo thay đổi thông tin chuyên mục Netflix

Do việc tổ chức lại trang Netflix nên thẻ tiêu đề đã được thay đổi.

Tôi sẽ thêm mã sửa bên dưới bài viết.

 

phần_title = phần.select('h3')[0].text #Before thay đổi)

part_title =section.select('h2')[0].text # Edit) Thay đổi thẻ của phần tiêu đề phần

 

 

--------------

2022.01.01 Sửa đổi bổ sung

 

Khi nhập tệp hình ảnh và phần URL chương trình từ Netflix

Trong một số trường hợp, thông tin bị thiếu hoặc chứa thông tin khác, vì vậy chúng tôi đã thêm mã để sắp xếp thông tin đó.

Trường hợp thông tin file ảnh

1. Nếu nó chứa thông tin tệp hình ảnh,

2. Nếu nó ở định dạng khác tệp (data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==) (hình ảnh không được hiển thị trên màn hình)

3. Có trường hợp thiếu thông tin về tệp hình ảnh.

Kiểm tra từng bước ở trên và nếu đó không phải là thông tin bạn đang tìm kiếm, hãy sắp xếp nó với thông tin tiếp theo.

Tôi đã sửa đổi nó như sau bằng cách sử dụng các câu lệnh thử, ngoại trừ và các câu lệnh có điều kiện.

 

-------------------------------------------------- ----------------------

thử:

chương trình_img = chương trình.select('img')[0]['src']

nếu 'https' không có trong chương trình_img:

chương trình_img = '' # Nếu vị trí tệp hình ảnh không được hiển thị (không hiển thị trên màn hình), hãy nhập trống.

ngoại trừ:

chương trình_img = '' # Nếu không có thông tin hình ảnh, hãy nhập trống

-------------------------------------------------- ----------------------

 

Trong phần liên kết chương trình, có trường hợp trong thẻ không có thông tin nào cả, nếu không có thông tin thì nhập một khoảng trống.

-------------------------------------------------- ----------------------

thử:

chương trình_link = chương trình.select('a')[0]['href']

ngoại trừ:

 

chương trình_link = '' # Nếu không có địa chỉ liên kết, hãy để trống

-------------------------------------------------- ----------------------

Bình luận