강의

멘토링

커뮤니티

BEST
Data Science

/

Data Engineering

Dễ dàng dành cho người mới bắt đầu Thu thập thông tin nâng cao Python [Scrapy, Selenium, Headless Chrome]

Dành cho những ai muốn tìm hiểu về khoa học dữ liệu, dữ liệu lớn và thu thập dữ liệu - Chúng tôi thiết kế nó để giúp bạn nhanh chóng tìm hiểu công nghệ thu thập thông tin mới nhất và tốt nhất hiện có thông qua nhiều ví dụ khác nhau.

(4.7) 45 đánh giá

866 học viên

Độ khó Cơ bản

Thời gian Không giới hạn

  • funcoding
Web Crawling
Web Crawling
Scrapy
Scrapy
Selenium
Selenium
Big Data
Big Data
Web Crawling
Web Crawling
Scrapy
Scrapy
Selenium
Selenium
Big Data
Big Data

[Thông báo cập nhật bài giảng] Lần đầu tiên thu thập dữ liệu nâng cao Python dễ dàng

Xin chào. Đây là Dave Lee của Janjaemi Coding.

Chúng tôi đang chia sẻ khóa học thu thập dữ liệu nâng cao Python dễ dàng được cập nhật cho người mới bắt đầu.

Vì thư viện selen được cập nhật gần đây nên tên phương thức đã được thay đổi. Tất nhiên, ngay cả khi tên phương thức được thay đổi, điều thông thường là phải đảm bảo rằng phương thức hiện tại có thể được sử dụng theo cách tương tự. Đó là vì 'khả năng tương thích'. Nhân tiện, nhóm phát triển thư viện Selenium? đã quyết định không hỗ trợ các phương pháp hiện có. Nếu điều này xảy ra, sẽ có trường hợp mã hiện có sử dụng Selenium không hoạt động tùy thuộc vào phiên bản thư viện Selenium, vì vậy đây có vẻ là một quyết định lớn.

Tuy không ảnh hưởng gì đến code nhưng mình thấy code mình muốn thay đổi nên mình đã thay đổi 2 thứ sau.

1. Tất cả các phương thức find_element_by_***() đã được thay đổi thành find_element(By.***, ***).

- Ví dụ: find_element_by_id('myid') --> find_element(By.ID, 'myid')

- Để khai báo By.ID, v.v... còn phải khai báo thêm như sau.

từ Selenium.webdriver.common.by nhập Bởi

2. Đối với Selenium 4.xx trở lên, nó không ảnh hưởng đến mã, nhưng có vẻ như nó cũng muốn thay đổi mã khởi tạo.

- Trước đây, bạn chỉ có thể nhập trực tiếp đường dẫn làm đối số (ví dụ: webdriver.Chrome(chromedriver))

- Từ nay trở đi rất có thể hướng đi sẽ thay đổi là đưa nó vào đối tượng Service. (Ví dụ: webdriver.Chrome(service=Service(chromedriver))

- Để làm được điều này, thư viện webdriver_manager cũng phải được cài đặt riêng.

 

Thay đổi ở trên thực chất chỉ là thay đổi tên phương thức, nhưng tên phương thức cốt lõi đã được thay đổi và tất cả các mã và tài liệu liên quan đã được cập nhật. Tất cả tài liệu, bao gồm cả mã cho chương tiếp theo, đã được cập nhật, vì vậy bạn nên tải lại xuống khi cần.

- Hiểu được bức tranh toàn cảnh và mục tiêu của Selenium và Scrapy framework

- Bài tập 1: Headless Chrome và Selenium crawling

- Hiểu được bức tranh toàn cảnh của XPATH

- Sử dụng XPATH để hiểu bằng cách giải các bài tập thực hành

- Thu thập dữ liệu nhiều trang bằng Selenium

- Các ứng dụng đa dạng của Scrapy: Kết hợp Selenium và Scrapy để thu thập dữ liệu các trang web động

 

Hôm nay tôi cũng nhanh chóng phát hiện ra và nhanh chóng sửa chữa. Tôi hy vọng không có vấn đề gì với quá trình này.

Cảm ơn

Bình luận