Khám phá Learn Stream About Jokes
Stream
Liên kết

LLM lái browser, mình nghỉ khỏe?

· github

TL;DR

Browser Harness là một công cụ siêu gọn nhẹ, cho phép các LLM (như Claude Code hay Codex) tự động hoàn thành mọi tác vụ trên trình duyệt mà hông cần bạn can thiệp. Nó “self-healing” – tự sửa lỗi, tự viết code thiếu ngay trong quá trình làm việc, mang lại sự tự do hoàn toàn cho AI.

Điều này có nghĩa là bạn có thể giao phó các công việc lặp đi lặp lại trên web cho AI, tiết kiệm thời gian và nguồn lực đáng kể.

Nói đơn giản: Như có một nhân viên ảo siêu thông minh, bạn chỉ cần ra lệnh là nó tự động lướt web, làm mọi thứ giùm bạn, thậm chí còn tự học và tự sửa lỗi.

Tổng quan

Browser Harness là một cái “harness” (bộ khung) cực kỳ mỏng và đơn giản, được thiết kế để trao cho các LLM (Large Language Models) toàn quyền tự do thực hiện bất kỳ tác vụ nào trên trình duyệt. Nó được xây dựng trực tiếp trên CDP (Chrome DevTools Protocol), hông có lớp trung gian nào giữa AI và Chrome.

Điểm đặc biệt nhất của Browser Harness là khả năng “self-healing”. Tức là, nếu AI cần một hàm hỗ trợ nào đó mà chưa có (ví dụ: upload_file()), nó sẽ tự động viết hàm đó vào file helpers.py ngay trong lúc đang làm việc. Hông cần framework cứng nhắc, hông cần bạn phải định nghĩa trước mọi thứ. AI sẽ tự động điều chỉnh và hoàn thành nhiệm vụ.

Toàn bộ dự án này chỉ vỏn vẹn khoảng 592 dòng code Python, siêu gọn nhẹ và dễ hiểu. Nó ra đời với lời hứa: “Bạn sẽ hông bao giờ phải dùng trình duyệt nữa.”

Xài vào việc gì?

Cần thu thập dữ liệu từ nhiều website khác nhau (web scraping) Thay vì ngồi viết script riêng cho từng trang, bạn chỉ cần nói cho AI biết bạn muốn lấy gì. Browser Harness sẽ tự động lướt, tìm kiếm, trích xuất dữ liệu, thậm chí tự xử lý các trường hợp đặc biệt (ví dụ: pop-up, CAPTCHA đơn giản) mà hông cần bạn phải code lại. Kết quả là bạn tiết kiệm thời gian dev, dữ liệu được thu thập nhanh chóng và linh hoạt hơn.

Tự động hóa các tác vụ lặp đi lặp lại trên trình duyệt (như điền form, đăng bài, gửi email) Ví dụ, bạn cần đăng nhập LinkedIn, tìm kiếm danh sách người, gửi tin nhắn cá nhân hóa. Chỉ cần mô tả nhiệm vụ, AI sẽ tự điều hướng, click, gõ phím, và hoàn thành. Nếu gặp lỗi, nó tự sửa. Điều này giải phóng bạn khỏi những công việc nhàm chán, tăng năng suất đáng kể.

Kiểm thử tự động các ứng dụng web (end-to-end testing) Thay vì viết các test script phức tạp, bạn có thể yêu cầu AI thực hiện một chuỗi hành động như người dùng thật và kiểm tra kết quả. Nếu có thay đổi UI, AI có thể tự adapt thay vì script bị fail, giúp giảm công sức bảo trì test, tăng độ tin cậy của ứng dụng.

Triển khai các “sub-agent” hoặc agent chạy trên cloud Browser Harness cung cấp các trình duyệt remote miễn phí (3 concurrent browsers ở tier free, hông cần thẻ). Điều này cho phép bạn chạy các tác vụ web tự động mà hông cần mở trình duyệt trên máy mình, lý tưởng cho việc triển khai agent trên server hoặc dùng cho các agent phụ. Mở rộng khả năng tự động hóa mà hông tốn tài nguyên máy cục bộ, dễ dàng scale.

Các điểm chính

  • Tự sửa lỗi (Self-healing) là điểm khác biệt lớn. Các framework automation truyền thống đòi hỏi bạn phải code chính xác từng bước. Nếu UI thay đổi, script sẽ fail. Browser Harness cho phép AI tự nhận diện vấn đề, tự viết hoặc chỉnh sửa helpers.py để xử lý các trường hợp thiếu hoặc lỗi, giúp tác vụ hoàn thành mà hông cần bạn can thiệp.
  • Tự do hoàn toàn cho LLM. Hông có framework cứng nhắc hay “rails” nào giới hạn khả năng của AI. AI có thể “sáng tạo” cách hoàn thành nhiệm vụ, giống như một người dùng thật, thay vì bị bó buộc bởi các lệnh đã định trước.
  • Đơn giản và gọn nhẹ. Toàn bộ code chỉ khoảng 592 dòng Python. Điều này giúp dễ hiểu, dễ bảo trì và mở rộng hơn so với các framework cồng kềnh khác.
  • Học hỏi qua “domain skills”. AI có thể tự tạo ra các “skill” cho từng trang web cụ thể (ví dụ: LinkedIn, Amazon) sau khi hoàn thành một tác vụ. Bạn có thể đóng góp các skill này để cộng đồng cùng xài, giúp AI học nhanh hơn và xử lý các trang web phức tạp hiệu quả hơn.
  • Trình duyệt remote miễn phí. Có free tier cho 3 trình duyệt chạy song song, hông cần thẻ tín dụng. Tuyệt vời để thử nghiệm, triển khai các sub-agent hoặc chạy automation trên cloud mà hông tốn chi phí ban đầu.
  • Setup dễ dàng với prompt. Chỉ cần paste một prompt vào Claude Code hoặc Codex là AI tự động cài đặt và kết nối. Giúp người dùng hông chuyên về kỹ thuật cũng có thể bắt đầu nhanh chóng.

Quick Start

  1. Cài đặt và kết nối ngay trong tuần này. Dùng prompt setup được cung cấp để AI tự cài Browser Harness và kết nối với trình duyệt của bạn. Nhớ tick checkbox xác nhận nha.
  2. Thử nghiệm một tác vụ đơn giản. Yêu cầu AI lướt đến một trang web quen thuộc (ví dụ: GitHub của Browser Harness), sau đó yêu cầu nó star repo hoặc truy cập browser-use.com để xem cách nó tương tác.
  3. Xác định 1-2 tác vụ lặp lại hàng tuần. Giao cho AI thử làm các tác vụ đó, quan sát cách nó tự học và tự sửa lỗi. Nếu AI tự tạo ra các “domain skill” mới, bạn có thể cân nhắc đóng góp chúng để cộng đồng cùng xài.

FAQ

  • Browser Harness khác gì Selenium/Playwright? Harness cho LLM tự do hoàn toàn, tự sửa lỗi và viết code thiếu ngay trong lúc chạy. Selenium/Playwright là framework bạn phải viết code từng bước, và bạn phải tự xử lý khi có lỗi hoặc thay đổi UI.
  • Tôi có cần biết code để xài Browser Harness hông? Hông cần. Bạn chỉ cần mô tả tác vụ bằng ngôn ngữ tự nhiên, AI sẽ tự lo phần code và tương tác với trình duyệt. File helpers.py là nơi AI tự chỉnh sửa, bạn hông cần đụng vào.
  • Nó có an toàn khi cho AI điều khiển trình duyệt của mình hông? Bạn cần tick checkbox xác nhận cho phép kết nối. Nên cẩn trọng với các tác vụ nhạy cảm và luôn giám sát AI trong giai đoạn đầu để đảm bảo nó làm đúng ý mình.
  • Làm sao để AI “học” được các trang web mới? Khi AI hoàn thành tác vụ trên một trang mới, nó sẽ tự tạo ra các “skill” (lưu trong thư mục domain-skills/). Bạn có thể xem, chỉnh sửa hoặc đóng góp các skill này để cộng đồng cùng xài, giúp AI học nhanh hơn và xử lý các trang web phức tạp hiệu quả hơn.
#automation #llm #browser #self-healing #ai-agent #productivity
0:00

Chia sẻ ảnh

Bắt đầu gõ để tìm kiếm...