Khám phá Learn Stream About Jokes
Stream
Liên kết

Điều khiển browser cho AI agent qua HTTP

· github

TL;DR

Tool để AI agent điều khiển Chrome qua HTTP API. 12MB binary, không cần config, token efficient hơn 5-13 lần so với screenshot. Giúp agent automation không bị phụ thuộc framework.

Nói đơn giản: Tool nhỏ giúp AI mở web, click, đọc nội dung — mà không cần screenshot tốn kém.


Bài này dành cho ai?

1. Người muốn AI làm việc thay mình

Vấn đề: Các tool như Playwright MCP, OpenClaw chỉ hoạt động trong framework của nó. Muốn script bằng bash hay ngôn ngữ khác thì không được. Khi nào cần: Automate tasks như scrape dữ liệu, đăng bài, monitor giá cả — mà không muốn bị khóa vào 1 framework. Được gì: Dùng được với mọi ngôn ngữ, mọi agent qua HTTP thuần.

2. Người muốn build sản phẩm AI

Vấn đề: Tích hợp browser automation vào product nhưng tốn quá nhiều token (screenshot ~2000 tokens/page). Khi nào cần: Cần browser control mà không muốn chạy vision model cho mỗi action. Được gì: Giảm 80-90% chi phí token, API đơn giản, integration dễ.

3. Dev muốn thử nghiệm automation

Vấn đề: Không muốn cài đặt phức tạp, không muốn chạy Docker nặng. Khi nào cần: Test nhanh idea, tạo prototype, hoặc chạy automation cá nhân. Được gì: 12MB binary, cài bằng 1 câu lệnh, chạy được ngay.


Các điểm chính

1. HTTP API — không bị lock vào framework Tool cũ chỉ chạy trong nội bộ. Pinchtab thì khác — gọi bằng curl cũng được:

curl localhost:9867/text?tabId=X  # Đọc trang ~800 tokens
curl -X POST localhost:9867/action -d '`{"kind":"click","ref":"e5"}`'  # Click

→ Làm gì: Dùng Pinchtab thay vì Playwright MCP nếu cần language-agnostic.

2. Token efficient — 5-13x rẻ hơn screenshot

MethodTokens
Screenshot (vision)~2,000
Full snapshot~10,500
/text (chỉ text)~800
Interactive filter~3,600

50 trang search monitoring: screenshot tốn $0.30, dùng /text chỉ $0.01. → Làm gì: Dùng /text cho read-heavy tasks, filter=interactive khi cần interact.

3. Stealth mode — tránh bị phát hiện là bot Pinchtab patch navigator.webdriver, spoof UA, hide automation flags. Vào được site khó như login pages, social media. → Làm gì: Set BRIDGE_STEALTH=full khi cần automate site chống bot.

4. Session persistence — login một lần, dùng mãi Cookie và session lưu trong profile directory. Khởi động lại vẫn logged in. → Làm gì: Đăng nhập lần đầu trong headed mode, sau đó để agent chạy tự động.

5. Headed mode — human + agent workflow Human xử lý login, 2FA, captcha. Agent tiếp tục qua HTTP API với cùng session. → Làm gì: Dùng headed mode cho tasks cần human intervention (login lần đầu, verify).

6. Self-contained — 12MB binary, zero config Không cần cài đặt Chrome riêng, không cần Docker nặng. Tự launch managed Chrome. → Làm gì: curl -fsSL https://pinchtab.com/install.sh | bash là chạy được.

7. Shared Chrome — tiết kiệm resource Nhiều agent dùng chung 1 Chrome instance qua CDP_URL, tiết kiệm 1.3GB RAM mỗi agent. → Làm gì: Set CDP_URL=http://localhost:9222 để chia sẻ browser.


Quick Start

  1. Cài đặt nhanh (macOS/Linux):
curl -fsSL https://pinchtab.com/install.sh | bash
pinchtab  # Start server
  1. Dùng CLI đơn giản:
pinchtab quick https://example.com  # Navigate + analyze tự động
pinchtab snap -i -c  # Xem snapshot
pinchtab click e5   # Click element
  1. Hoặc dùng HTTP trực tiếp:
curl localhost:9867/navigate -d '`{"url":"https://example.com"}`'
curl localhost:9867/text

#automation #browser #http-api #ai-agent #token-optimization #open-source
0:00

Chia sẻ ảnh

Bắt đầu gõ để tìm kiếm...