CLI điều khiển browser tự động cho AI agent
TL;DR
Tool CLI chạy trên Rust, giúp AI agent điều khiển browser (click, fill, navigate) nhanh gọn. Có snapshot lấy accessibility tree để AI hiểu page, không cần parse HTML.
Nói đơn giản: CLI để AI agent điều khiển browser như người thật — click, điền form, chụp hình, chuyển tab.
Bài này dành cho ai?
1. Người muốn AI tự động thao tác web
Vấn đề: AI cần login, điền form, click button nhưng không biết cách control browser
Khi nào cần: Build workflow tự động như đăng bài, scrape data, test UI
Được gì: CLI đơn giản, AI gọi vài command là xong — không cần viết Playwright code từ đầu
2. Người build sản phẩm AI
Vấn đề: Cần browser cho agent nhưng không muốn maintain infrastructure
Khi nào cần: Deploy AI agent lên production, cần browser runtime
Được gì: Tích hợp sẵn Vercel Sandbox, chạy ephemeral không cần server
3. Dev muốn tự động test/e2e
Vấn đề: Viết Playwright test code quá nhiều, khó maintain
Khi nào cần: Viết script test nhanh, không cần framework
Được gì: CLI thuần, gọi command là chạy được, không cần setup
Các điểm chính
-
Refs — cách AI chọn element đáng tin cậy nhất AI không nên dùng CSS selector vì page đổi là hỏng. Thay vào đó: chụp snapshot lấy tree với ref @e1, @e2 rồi dùng ref đó click/fill. Đ deterministic, không re-query DOM. → Làm gì: Luôn dùng
snapshottrước, lấy ref rồi mới interact. -
Snapshot — accessibility tree thay vì HTML Command
snapshottrả về tree theo ARIA roles (button, textbox, link…) thay vì raw HTML. AI đọc hiểu ngay, không phải parse HTML. → Làm gì: Dùngagent-browser snapshot -iđể lấy interactive elements thôi, giảm noise. -
Session persistence — giữ login across runs Dùng
--session-nametự động save/restore cookies và localStorage. Login một lần, chạy script bao nhiêu lần cũng được. → Làm gì:agent-browser --session-name twitter open twitter.com— login 1 lần, sau đó reopen là còn logged in. -
Security features cho AI deployment AI chạy tự động cần bảo vệ: Auth Vault (credential mã hóa, LLM không thấy password), Domain Allowlist (chỉ navigation trong domain cho phép), Action Policy (chặn destructive actions). → Làm gì: Dùng
--allowed-domainsvà--action-policykhi deploy AI lên production. -
Serverless native — chạy trên Vercel microVM Không cần maintain server browser. Dùng Vercel Sandbox ephemeral microVM, browser chạy trong đó, kill khi xong. → Làm gì: Xem examples/environments/, có sẵn demo deploy-to-Vercel button.
-
Rust daemon — sub-millisecond parsing Install global sẽ dùng native Rust CLI, nhanh hơn nhiều so với npx qua Node.js. Commands như
click,fillgần như instant. → Làm gì: Install globalnpm install -g agent-browser, đừng dùng npx cho production. -
Annotated screenshots — AI nhìn được visual layout
--annotatechụp hình có đánh số element. Multimodal AI có thể reason về icon buttons, canvas, visual state mà text tree không capture được. → Làm gì:agent-browser screenshot --annotatecho use cases cần visual reasoning.
Quick Start
- Cài đặt và chạy command đầu tiên tuần này:
npm install -g agent-browser
agent-browser install # Download Chromium
agent-browser open example.com
agent-browser snapshot
- Thử AI workflow:
agent-browser open example.com
agent-browser snapshot -i --json # AI parse được ref
agent-browser click @e2 # Click element có ref e2
agent-browser screenshot page.png
agent-browser close
- Dùng session để giữ login:
agent-browser --session-name myapp open myapp.com
# ... login thủ công 1 lần
# Lần sau:
agent-browser --session-name myapp open myapp.com/dashboard
Đang tải nội dung...
Xây phần mềm không cần UI
Agent-first development: 3 buổi từ CLI commerce engine → MCP server → website trên Cloudflare.
Xem chi tiết & đăng ký →
Công ty một người: Present, Bán & Vận hành
3-pack cohort cho công ty một người: Skill làm slide, bán & vận hành workshop tự động, vault giữ tri thức compound.
Xem chi tiết & đăng ký →