Khám phá Learn Stream About Jokes
INSIDER Tony's Friends — Insider — ~2 playbook/tuần, Discord riêng, tài nguyên dựng sẵn Tham gia →
Stream
Liên kết

CLI điều khiển browser tự động cho AI agent

· github

TL;DR

Tool CLI chạy trên Rust, giúp AI agent điều khiển browser (click, fill, navigate) nhanh gọn. Có snapshot lấy accessibility tree để AI hiểu page, không cần parse HTML.

Nói đơn giản: CLI để AI agent điều khiển browser như người thật — click, điền form, chụp hình, chuyển tab.


Bài này dành cho ai?

1. Người muốn AI tự động thao tác web

Vấn đề: AI cần login, điền form, click button nhưng không biết cách control browser

Khi nào cần: Build workflow tự động như đăng bài, scrape data, test UI

Được gì: CLI đơn giản, AI gọi vài command là xong — không cần viết Playwright code từ đầu

2. Người build sản phẩm AI

Vấn đề: Cần browser cho agent nhưng không muốn maintain infrastructure

Khi nào cần: Deploy AI agent lên production, cần browser runtime

Được gì: Tích hợp sẵn Vercel Sandbox, chạy ephemeral không cần server

3. Dev muốn tự động test/e2e

Vấn đề: Viết Playwright test code quá nhiều, khó maintain

Khi nào cần: Viết script test nhanh, không cần framework

Được gì: CLI thuần, gọi command là chạy được, không cần setup


Các điểm chính

  1. Refs — cách AI chọn element đáng tin cậy nhất AI không nên dùng CSS selector vì page đổi là hỏng. Thay vào đó: chụp snapshot lấy tree với ref @e1, @e2 rồi dùng ref đó click/fill. Đ deterministic, không re-query DOM. → Làm gì: Luôn dùng snapshot trước, lấy ref rồi mới interact.

  2. Snapshot — accessibility tree thay vì HTML Command snapshot trả về tree theo ARIA roles (button, textbox, link…) thay vì raw HTML. AI đọc hiểu ngay, không phải parse HTML. → Làm gì: Dùng agent-browser snapshot -i để lấy interactive elements thôi, giảm noise.

  3. Session persistence — giữ login across runs Dùng --session-name tự động save/restore cookies và localStorage. Login một lần, chạy script bao nhiêu lần cũng được. → Làm gì: agent-browser --session-name twitter open twitter.com — login 1 lần, sau đó reopen là còn logged in.

  4. Security features cho AI deployment AI chạy tự động cần bảo vệ: Auth Vault (credential mã hóa, LLM không thấy password), Domain Allowlist (chỉ navigation trong domain cho phép), Action Policy (chặn destructive actions). → Làm gì: Dùng --allowed-domains--action-policy khi deploy AI lên production.

  5. Serverless native — chạy trên Vercel microVM Không cần maintain server browser. Dùng Vercel Sandbox ephemeral microVM, browser chạy trong đó, kill khi xong. → Làm gì: Xem examples/environments/, có sẵn demo deploy-to-Vercel button.

  6. Rust daemon — sub-millisecond parsing Install global sẽ dùng native Rust CLI, nhanh hơn nhiều so với npx qua Node.js. Commands như click, fill gần như instant. → Làm gì: Install global npm install -g agent-browser, đừng dùng npx cho production.

  7. Annotated screenshots — AI nhìn được visual layout --annotate chụp hình có đánh số element. Multimodal AI có thể reason về icon buttons, canvas, visual state mà text tree không capture được. → Làm gì: agent-browser screenshot --annotate cho use cases cần visual reasoning.


Quick Start

  1. Cài đặt và chạy command đầu tiên tuần này:
npm install -g agent-browser
agent-browser install  # Download Chromium
agent-browser open example.com
agent-browser snapshot
  1. Thử AI workflow:
agent-browser open example.com
agent-browser snapshot -i --json   # AI parse được ref
agent-browser click @e2           # Click element có ref e2
agent-browser screenshot page.png
agent-browser close
  1. Dùng session để giữ login:
agent-browser --session-name myapp open myapp.com
# ... login thủ công 1 lần
# Lần sau:
agent-browser --session-name myapp open myapp.com/dashboard

#automation #cli #browser #ai-agent #rust #playwright #serverless---
0:00

Chia sẻ ảnh

Bắt đầu gõ để tìm kiếm...