Khám phá Learn Stream About Jokes
Stream
Liên kết

Tạo web scraper tránh bị phát hiện

· github

TL;DR

Botasaurus là framework giúp build web scraper với code ít hơn, đồng thời vượt qua mọi hệ thống phát hiện bot như Cloudflare, Datadome. Nó còn cho phép convert scraper thành desktop app hoặc website chỉ trong 1 ngày.

Bài này dành cho ai?

1. Người cần thu thập dữ liệu web

Vấn đề: Bị chặn liên tục bởi Cloudflare, bot detection Khi nào cần: Scraping e-commerce, review sites, dữ liệu cạnh tranh Được gì: Bypass mọi hệ thống bảo vệ, scrape được dữ liệu mà trước đây không lấy được

2. Người muốn tạo sản phẩm từ scraper

Vấn đề: Muốn bán scraper nhưng sợ code bị copy Khi nào cần: Build SaaS, tạo desktop app để bán Được gì: Tạo UI đẹp trong 3 bước, deploy desktop app cho Mac/Windows/Linux trong 1 ngày

3. Người cần scrape với quy mô lớn

Vấn đề: Chi phí proxy quá cao, bị rate limit Khi nào cần: Thu thập hàng ngàn trang web Được gì: Tiết kiệm đến 97% chi phí proxy, chạy song song nhiều task

Các điểm chính

Botasaurus là all-in-one framework cho web scraping Nó tích hợp đủ thứ: browser automation, HTTP requests, parallel scraping, caching, proxy rotation. Thay vì xài nhiều thư viện rời rạc, bạn chỉ cần Botasaurus. → Làm gì: Thử install Botasaurus và chạy ví dụ đầu tiên để xem nó làm gì.

Bypass mọi hệ thống phát hiện bot Botasaurus vượt được Cloudflare WAF, BrowserScan, Fingerprint, Datadome, Turnstile CAPTCHA. Nó mô phỏng hành vi người thật: mouse movements, timing, headers. → Làm gì: Chạy thử đoạn code mẫu với bypass_cloudflare=True để xem nó hoạt động.

Tiết kiệm 97% chi phí proxy Botasaurus dùng browser-based fetch requests thay vì proxy truyền thống. Một trang 12MB giờ chỉ còn 100KB khi block images và CSS. → Làm gì: Thêm block_images_and_css=True vào decorator để giảm bandwidth.

Tạo desktop app trong 1 ngày Không cần build website, không cần quản lý server. Botasaurus đóng gói scraper thành app cho Windows, Mac, Linux với sẵn: task management, data table, export Excel/CSV. → Làm gì: Đọc phần Desktop Extraction Tutorial để build thử Yahoo Finance Scraper.

Tạo UI cho scraper chỉ 3 bước Define function → Add vào server bằng 1 dòng → Định nghĩa input controls. Non-technical users có thể chạy scraper qua link web. → Làm gì: Clone botasaurus-starter template và chạy python run.py để xem UI mẫu.

3 decorators chính: @browser, @request, @task

  • @browser: Dùng humane browser (Botasaurus Driver)
  • @request: Dùng lightweight HTTP requests nhưng vẫn bypass được đa số
  • @task: Cho third-party libs hoặc non-web tasks như convert video → Làm gì: Đọc kỹ phần decorator để biết khi nào xài cái nào.

Debug dễ hơn với Botasaurus Kết quả tự lưu vào JSON file. Lỗi sẽ beep và pause browser để bạn debug ngay. Kể cả headless mode cũng mở browser để debug. → Làm gì: Thử gây lỗi trong code và xem Botasaurus xử lý thế nào.

Quick Start

  1. Cài đặt Botasaurus:
python -m pip install --upgrade botasaurus
  1. Viết scraper đầu tiên: Tạo file main.py với code mẫu từ documentation, chạy python main.py để xem nó hoạt động.

  2. Thử bypass Cloudflare: Thêm bypass_cloudflare=True vào method google_get() để xem nó vượt Cloudflare như thế nào.

  3. Clone starter template để xem UI:

git clone https://github.com/omkarcloud/botasaurus-starter
cd botasaurus-starter
python -m pip install -r requirements.txt
python run.py install
python run.py
#web-scraping #bot-detection #automation #python #cloudflare #desktop-app
0:00

Chia sẻ ảnh

Bắt đầu gõ để tìm kiếm...