Crawling Master với Data Workshop để học bằng cách làm theo
Bậc thầy thu thập dữ liệu Python. Với cái này, bạn có thể chuyển từ cài đặt sang ứng dụng cùng một lúc. Tôi chỉ bao gồm những thông tin thực sự cần thiết để sử dụng nó.
140 học viên
Độ khó Nhập môn
Thời gian Không giới hạn
Tin tức
8 bài viết
Với bản cập nhật đầu tiên của năm 2023,
Đã thêm mẹo sử dụng thư viện quản lý tự động phiên bản trình duyệt Chrome.
(Phiên cài đặt chromedriver hiện có đã được thay đổi)

Ngoài ra còn có video giải thích những phần đã thay đổi khi thư viện được cập nhật,
Và các bài giảng khác đang được chuẩn bị. Vui lòng tham khảo
Trong khi cập nhật phiên bản selen này
Lệnh find_elements_by_css_selector ( ) đã bị xóa.
Nó có thể được sử dụng dưới dạng find_elements( 'css selector', ), vì vậy vui lòng thay đổi mã trong phần đó trước khi sử dụng.
Chi tiết được tóm tắt trên blog .
Do việc tổ chức lại trang Netflix nên thẻ tiêu đề đã được thay đổi.
Tôi sẽ thêm mã sửa bên dưới bài viết.
phần_title = phần.select('h3')[0].text #Before thay đổi)
part_title =section.select('h2')[0].text # Edit) Thay đổi thẻ của phần tiêu đề phần
--------------
2022.01.01 Sửa đổi bổ sung
Khi nhập tệp hình ảnh và phần URL chương trình từ Netflix
Trong một số trường hợp, thông tin bị thiếu hoặc chứa thông tin khác, vì vậy chúng tôi đã thêm mã để sắp xếp thông tin đó.
Trường hợp thông tin file ảnh
1. Nếu nó chứa thông tin tệp hình ảnh,
2. Nếu nó ở định dạng khác tệp (data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==) (hình ảnh không được hiển thị trên màn hình)
3. Có trường hợp thiếu thông tin về tệp hình ảnh.
Kiểm tra từng bước ở trên và nếu đó không phải là thông tin bạn đang tìm kiếm, hãy sắp xếp nó với thông tin tiếp theo.
Tôi đã sửa đổi nó như sau bằng cách sử dụng các câu lệnh thử, ngoại trừ và các câu lệnh có điều kiện.
-------------------------------------------------- ----------------------
thử:
chương trình_img = chương trình.select('img')[0]['src']
nếu 'https' không có trong chương trình_img:
chương trình_img = '' # Nếu vị trí tệp hình ảnh không được hiển thị (không hiển thị trên màn hình), hãy nhập trống.
ngoại trừ:
chương trình_img = '' # Nếu không có thông tin hình ảnh, hãy nhập trống
-------------------------------------------------- ----------------------
Trong phần liên kết chương trình, có trường hợp trong thẻ không có thông tin nào cả, nếu không có thông tin thì nhập một khoảng trống.
-------------------------------------------------- ----------------------
thử:
chương trình_link = chương trình.select('a')[0]['href']
ngoại trừ:
chương trình_link = '' # Nếu không có địa chỉ liên kết, hãy để trống
-------------------------------------------------- ----------------------
cập nhật 2021.09.30Do việc sắp xếp lại trang Netflix nên các thẻ trong tiêu đề phần đã thay đổi.
Theo đó, mã thu thập thông tin cũng cần được thay đổi.
[Trước khi thay đổi]
phần_title = phần.select('h1')[0].text
[Sau khi thay đổi]
phần_title = phần.select(' h2' )[0].text
※ Trang web liên tục thay đổi từng chút một, vì vậy
Tốt hơn là bạn nên tìm hiểu cách tiếp cận mà tôi sẽ giải thích khi tôi tiến bộ và cách sử dụng lệnh BeautifulSoup select().
(Nhiều người đã tìm và tự mình tiến hành ^^)
※ Hình ảnh thẻ phần tiêu đề phần
Chúng tôi muốn thông báo cho bạn về những thay đổi đối với việc thu thập nhận xét trên YouTube.
Khi thu thập nhận xét trên YouTube, logic sau hiện đang được sử dụng.
1. Lấy tổng số bình luận trên YouTube
2. Cuộn xuống các bình luận khi đạt số lần tối đa (500) → dừng khi đủ số lượng bình luận.
Tổng số bình luận được lấy ra đầu tiên chỉ là số lượng bình luận,
Đã xảy ra sự cố với số lượng nhận xét được thu thập bên dưới, trong đó chỉ tính các nhận xét chung.
Có hai cách để truy cập nó.
1. Cách lấy tất cả các bình luận chính và đếm chúng theo số
Trong trường hợp này, bạn có thể thu thập thông tin trả lời bằng cách nhấp vào nút “Xem câu trả lời” từng cái một.
Nếu làm như vậy sẽ mất thời gian click từng cái một và chờ kết quả, đồng nghĩa với việc thu thập một lượng lớn dữ liệu.
Phải mất nhiều thời gian hơn.
2. Cuộn xuống các bình luận và dừng lại khi không có sự khác biệt so với số lượng bình luận hiện có.
Khi bạn cuộn xuống, hãy tiếp tục so sánh số lượng bình luận với số lượng bạn đã sắp xếp trước đó.
Nếu số lượng bình luận không tăng kể cả khi kéo xuống thì coi như đã hoàn thành. Mục đích là để dừng quá trình này.
Cả hai phương pháp đều có ưu và nhược điểm, nhưng tôi nghĩ phương pháp thứ hai sạch hơn.
Tôi sẽ hướng dẫn bạn thực hiện phương pháp này.
Chúng tôi sẽ tải dữ liệu mã lên bài đăng tài liệu bài giảng liên quan (Phần 5, Thu thập Nhận xét YouTube 2).
Nếu bạn tiếp tục bài giảng, học sinh cũng sẽ được hưởng lợi.
Là một người hướng dẫn, tôi cũng học được rất nhiều điều.
Chúng tôi chủ yếu tập trung vào các bài giảng thời gian thực, dù ngoại tuyến hay trực tuyến.
Tôi tò mò về cách truyền tải các bài giảng video trực tuyến.
Chúng tôi tổ chức các sự kiện để chuẩn bị bài giảng tốt hơn và suy ngẫm về bản thân.
Vui lòng để lại đánh giá khóa học/đánh giá lớp học.
Gửi những người ở lại
Để cung cấp lời giải thích và câu trả lời cho các câu hỏi bạn có thể có, phản hồi, phỏng vấn, v.v.
Chúng tôi sẽ cung cấp cho bạn phiếu tư vấn trực tuyến 1:1 (30 phút) .
Nếu bạn đã viết bài đánh giá khóa học, vui lòng gửi nó đến email của tôi (datago0ba0@gmail.com).
Sau đó, chúng tôi sẽ quyết định thời điểm mà cả hai bên có thể tiến hành. (Quá trình tố tụng sẽ được thực hiện bằng Zoom)
※ Sự kiện đã kết thúc
Chúng tôi đang thêm quy trình thu thập dữ liệu YouTube.
Còn rất nhiều thứ đang diễn ra nên mình chưa cập nhật được nhiều.
Chúng tôi sẽ tải nội dung lên theo tuần tự, bắt đầu từ những phần nhận được nhiều yêu cầu nhất.
Nếu bạn đã chờ đợi YouTube thì tôi xin lỗi vì đã để bạn phải đợi lâu như vậy.
Vui lòng cho tôi biết nếu bạn có thêm bất kỳ câu hỏi nào. Cảm ơn.
Quá trình thu thập dữ liệu Instagram đã được thêm vào.
Chúng tôi dự định bổ sung thêm các địa điểm luyện tập bằng cách sắp xếp chúng theo loại trong tương lai.
Nếu có điều gì bạn quan tâm hoặc gặp khó khăn, vui lòng gửi email tới datago0ba0@gmail.com
Tôi sẽ sử dụng điều này làm tài liệu tham khảo khi lựa chọn chủ đề bài giảng. Cảm ơn.
Các bài giảng được thêm vào, nếu có thể, phải sử dụng các phương pháp/chức năng chưa được sử dụng.
Chúng tôi dự định sử dụng các trang web.

