Bài viết

Đã đến lúc xây dựng các môi trường chuyên biệt cho agent

Tại sao chúng ta đang lặp lại sai lầm khi bắt AI agent phải 'khiên gạch' trong giao diện của con người, và tại sao AHI stack là lời giải cho một hệ điều hành nhân sự số thực thụ.

31 tháng 3, 2026

Trong kiến trúc, người ta gọi đó là “Form follows Function” — Hình thái đi sau Công năng. Nhưng trong cuộc sống và hệ thống vận hành, mình thích gọi nó là sự tương thích giữa “Cốt lõi” (Core) và “Không gian” (Space).

Chuyện ở đời: người giỏi mà đặt sai môi trường thì vật vã, tốn sức, kết quả không xứng. Ngược lại, đúng môi trường thì phát triển nhanh tới mức người ngoài tưởng là may mắn. Lựa chọn quan trọng hơn nỗ lực.

Hãy thử tưởng tượng một kiến trúc sư tài năng, người có tầm nhìn về những thành phố tương lai. Nếu bạn bắt người đó mỗi ngày phải trực tiếp đi bê từng viên gạch, trát từng xô vữa dưới cái nắng cháy da thịt để xây một cái nhà cấp bốn… anh ấy vẫn sẽ làm được. Nhưng đó là một sự lãng phí kinh khủng. Anh ấy héo mòn, nỗ lực bị bào mòn bởi những thứ vụn vặt không thuộc về sở trường.

Bản chất của anh ấy không đổi, năng lực nhìn nhận kiến trúc vẫn nguyên vẹn, nhưng môi trường xung quanh (những viên gạch và xô vữa) đã quyết định anh ấy chỉ là một người thợ xây trung bình thay vì một kiến trúc sư vĩ đại.

Trong kỷ nguyên AI hiện nay, chúng ta đang lặp lại chính xác sai lầm này với các AI agent. Chúng ta đang bắt những bộ não xử lý dữ liệu hàng tỷ phép tính mỗi giây phải loay hoay… đi “bê gạch” trong môi trường của con người.

Bản chất vs Thực tại: Tài năng đặt sai môi trường

Khi “Cá” bị ép phải học cách “Leo cây”

Hồi cuối năm 2024, cả giới công nghệ hào hứng với khái niệm “Computer Use”. Những video demo AI tự động capture screenshot, nhận diện giao diện (UI), rồi tự rê chuột, tự click vào các button y hệt con người khiến chúng ta sửng sốt. Cảm giác lúc đó thật sự sci-fi: cuối cùng thì AI đã có thể “thao tác máy tính như một người dùng thực thụ”.

Nhưng sau cơn hào hứng ban đầu, nếu lùi lại một bước để nhìn kỹ vào bản chất, bạn sẽ thấy một sự thật mỉa mai: chúng ta đang bắt một thực thể số (Digital Native) phải nỗ lực đến cùng cực để giả làm một thực thể sinh học (Biological Native) nhằm mục đích… giao tiếp với máy tính.

Giao diện đồ họa (GUI) được thiết kế từ hàng thập kỷ nay là để phục vụ cho mắt người, tay người, và bộ não vốn thiên về xử lý hình ảnh của chúng ta. Agent thì khác. Đối với một agent, việc “dùng” GUI là một quy trình cực kỳ cồng kềnh và thiếu hiệu quả. Nó phải chụp màn hình liên tục (Capture), gồng mình phân tích từng pixel để phỏng đoán xem cái button “Thanh toán” nằm ở toạ độ nào (Parse & Predict), rồi thực hiện lệnh click ảo và nín thở chờ màn hình render lại để chụp phát nữa kiểm tra kết quả.

Quy trình này không chỉ chậm chạp mà còn cực kỳ tốn token và cực kỳ mong manh (fragile). Chỉ cần một cái banner quảng cáo nhảy ra, một cái popup thông báo cookie xuất hiện, hay đơn giản là một sự thay đổi nhỏ về CSS layout ở giao diện web, agent sẽ “lạc lối” ngay lập tức.

Chúng ta đang chứng kiến sự nỗ lực “cá leo cây” ở mức độ cao nhất. Cá có thể leo cây được không? Có, nếu nỗ lực đủ lớn. Nhưng đó không phải thế mạnh của nó. Nếu bạn bắt một con cá leo cây, nó sẽ dành cả đời tin rằng mình ngu ngốc. Nếu bạn bắt agent dùng GUI, bạn sẽ dành cả đống ngân sách token để tin rằng AI chưa đủ ổn định cho công việc thực tế.

Tuần trước, khi Anthropic ship Computer Use v2, mình nhận ra một tín hiệu quan trọng từ những người build model hàng đầu: Họ tuyệt đối không push nó là kênh giao tiếp chính. Thứ tự ưu tiên (Priority) rõ ràng là: Connectors và CLI/MCP (giao tiếp trực tiếp qua lệnh và giao thức) đứng hàng đầu. Computer Use chỉ là một phương án cuối cùng (Visual Fallback) dành cho những trường hợp “không còn cách nào khác”.

Đây là sự thừa nhận ngầm định: Computer Use là một cây cầu nối cần thiết cho quá khứ (Legacy Systems), chứ không phải là giải pháp cho tương lai.

Ngôn ngữ thật sự của hiệu suất: Cấu trúc lên ngôi

Vậy nếu không phải là “nhìn” và “click”, thì agent thực sự giỏi cái gì? Thực tế, sức mạnh thật sự của agent nằm ở: Dữ liệu có cấu trúc (Structured Data), Lệnh chính xác (Exact Commands), và Khả năng thực thi song song (Parallel Execution).

Agent không cần nhìn thấy một cái nút màu xanh lá cây rực rỡ để biết cách gửi một email. Nó chỉ cần một cái endpoint API hoặc một lệnh CLI rõ ràng: gws mail send. Agent không cần đọc qua hàng ngàn dòng text trên website để tìm giá sản phẩm, nó chỉ cần một cấu trúc JSON trả về đúng field price.

Minh chứng rõ nhất cho sự dịch chuyển này chính là sự xuất hiện của Google Workspace CLI (gws). Tagline của nó rất “tỉnh”: “Built for humans and AI agents”. Hãy để ý cụm từ “và AI agents”. Google hiểu rằng trong tương lai gần, số lượng task được thực hiện bởi agent trên hệ sinh thái của họ sẽ vượt xa con người. CLI này không xuất ra những bảng biểu đẹp đẽ cho mắt người xem. Nó xuất ra JSON — thứ ngôn ngữ mà agent có thể tiêu hóa ngay lập tức với độ chính xác 100%.

Hãy nhìn vào sự khác biệt kinh khủng về hiệu quả token: Để một agent “hiểu” và thao tác trên một trang web phức tạp qua GUI, nó có thể tiêu tốn hàng chục ngàn tokens cho mỗi session — chỉ để phân tích cái mớ hỗn độn của UI. Trong khi đó, giao tiếp qua CLI/JSON chỉ tốn vài chục tokens.

Đây không đơn thuần là sự tối ưu nhỏ về chi phí. Đây là sự khác biệt giữa một hệ thống “chạy được trong demo” và một hệ thống “vận hành được trong thực tế” mà không làm doanh nghiệp phá sản vì tiền API.

Sự khác biệt giữa GUI Clutter và CLI Clarity

Đúng như Guillermo Rauch (CEO Vercel) đã nhận định: “2026 is the year of Skills and CLIs.”

Khi bạn cho agent đúng môi trường — một giao diện có cấu trúc thay vì GUI — nó không chỉ chạy nhanh hơn. Nó chạy khác hẳn. Nó bắt đầu thực thi một cách bản địa nhất, chính xác nhất. Đó mới là lúc sức mạnh của AI được giải phóng khỏi cái xiềng xích của “trải nghiệm người dùng” vốn chỉ được thiết kế cho con người.

Từ những công cụ lẻ tẻ đến một Hệ điều hành trung tâm

Thế nhưng, nếu chúng ta chỉ dừng lại ở việc cung cấp interface đúng (CLI/MCP) mà thiếu đi một bộ máy quản lý thống nhất, chúng ta vẫn sẽ kẹt trong sự hỗn loạn. Một đội quân toàn những binh sĩ tinh nhuệ nhưng mỗi người cầm một cái bản đồ khác nhau và không ai nói chuyện với ai là một đội quân cầm chắc thất bại.

Tuần này mình đọc bài chia sẻ của Akshay Pachaar, anh ấy đặt một câu hỏi rất đúng trọng tâm: “Tại sao chúng ta rất giỏi build agent, nhưng lại rất tệ khi chạy (run) chúng ở quy mô lớn?”

Nếu soi chiếu vào lịch sử, bạn sẽ thấy phần mềm luôn đi qua 3 giai đoạn: Scripts (đoạn mã) lẻ tẻ → Applications (ứng dụng) hoàn chỉnh → Operating System (hệ điều hành). Khi một hệ thống đạt đến độ phức tạp nhất định, bạn không thể chỉ “add thêm script” hay “build thêm app”. Bạn cần một lớp OS để quản trị tài nguyên dùng chung, điều phối tiến trình và cung cấp một bề mặt (Interface) điều khiển thống nhất.

AI agent hiện tại đang ở chính cái giai đoạn “Scripts lẻ tẻ”. Hầu hết các business hiện nay đang sở hữu một đống agent rời rạc. Một con chuyên viết content social, một con chuyên research tài liệu, một con chuyên trả lời email khách hàng… Vấn đề là chúng không hề biết sự tồn tại của nhau. Chúng không dùng chung một kho lưu trữ kiến trúc (Knowledge base), chúng không có shared state, và quan trọng nhất: không có một nơi nào để người quản trị (Orchestrator) có thể theo dõi, gán quyền và điều phối toàn bộ đội ngũ đó như một thực thể thống nhất.

Thứ chúng ta thiếu là một “OS for AI Workforce” — một lớp trung tâm đảm nhận vai trò:

Tập trung hóa tài nguyên: Mọi agent đều có thể truy cập vào cùng một luồng dữ liệu và công cụ.
Quan sát toàn diện (Observability): Một nơi duy nhất để xem ai đang làm gì, tại sao họ làm vậy, và chi phí là bao nhiêu.
Quản lý quyền hạn (Access Control): Đảm bảo agent A không “đọc trộm” dữ liệu nhạy cảm của agent B hoặc thực hiện những lệnh ngoài tầm kiểm soát.

Tuy nhiên, mình muốn bổ sung thêm một điểm mà Akshay chưa nhấn mạnh: Một hệ điều hành (OS) chỉ có ý nghĩa tối thượng khi các nền tảng (Platform) bên dưới đã sẵn sàng để hoạt động “không hình ảnh”.

Nếu platform của bạn vẫn chỉ có GUI, thì cái OS layer phía trên dù hiện đại đến đâu cũng chỉ là một cái dashboard ngồi xem các binh sĩ của mình… loay hoay leo cây. Để giải quyết triệt để, chúng ta cần một kiến trúc đồng bộ từ dưới lên trên.

Tầm nhìn AHI: Thiết kế thế giới cho Agent

Đây là lúc mình muốn nhắc lại triết lý AHI stack (Agent → Human → Inter-agent) mà mình đã theo đuổi. Kiến trúc này không coi agent là một add-on hay một “người dùng ảo”. Nó coi agent là đối tượng người dùng tiên khởi (First-class user).

Một hệ thống vận hành AI thực thụ cần được phân lớp như sau, theo đúng thứ tự ưu tiên:

Tầng 1: Platform Layer (Tầng nền tảng Agent-first)

Mỗi công cụ, mỗi website, mỗi cơ sở dữ liệu đều phải hỗ trợ agent giao tiếp qua CLI/MCP server. Thay vì bắt agent phải login Chrome, platform phải cung cấp những “ống dẫn dữ liệu” trực tiếp. Đây chính là việc tạo ra “nước” cho cá. Nếu không có lớp này, mọi nỗ lực ở các lớp trên đều là lãng phí.

Tầng 2: OS Layer (Lớp điều hành - Command Center)

Khi đã có nhiều platform hỗ trợ giao tiếp cấu trúc ở Tầng 1, lớp OS Layer bắt đầu xuất hiện để làm nhiệm vụ điều phối toàn bộ “đội quân” AI (fleet). Lớp này xử lý việc “Ai làm gì?”, “Dùng chung file nào?”, “Audit trail ra sao?”. Đây là bộ não trung tâm của một business vận hành bằng AI.

Tầng 3: Computer Use (Lớp Visual Fallback)

Lớp này chỉ giữ vai trò “phiên dịch” cho những hệ thống cũ (Legacy) chưa kịp chuyển đổi sang Tầng 1. Nó là một cái bridge để quá trình chuyển đổi không bị đứt đoạn, nhưng chúng ta phải hiểu rằng đây là lớp có hiệu suất thấp nhất và chi phí cao nhất.

Kiến trúc 3 lớp cho lực lượng lao động AI

Thứ tự triển khai là chìa khóa: Đúng môi trường (Tầng 1) → Đúng bộ điều hành (Tầng 2) → Cầu nối tạm thời (Tầng 3).

Akshay hỏi: “Command center cho AI trông như thế nào?”. Mình hỏi ngược: “Cái trung tâm điều phối đó sẽ điều phối cái gì, nếu các binh sĩ agent của bạn vẫn đang loay hoay đoán xem cái nút ‘Submit’ nằm ở tọa độ nào trên màn hình hình ảnh?”

Hệ điều hành cho AI chỉ thực sự mang lại lợi điểm cạnh tranh tuyệt đối khi các “nhân sự số” có một không gian làm việc bản địa, nơi chúng không phải gồng mình để mô phỏng hành vi của con người.

Một sự thật không thoải mái (Uncomfortable truth)

Hãy thành thật với nhau: Phần lớn các “AI agent demo” ấn tượng mà bạn thấy hiện nay thực chất vẫn là các GUI-bound agents (agent bị kẹt trong màn hình). Chúng trông rất “người”, chúng rất thông minh trên video, nhưng trong vận hành thực tế (Production), chúng cực kỳ mong manh.

Tại sao? Vì chúng vẫn đang phải sống trong môi trường của chúng ta. Chúng giống như những chuyên gia tài năng đang phải làm việc trong một văn phòng mà mọi thứ đều được dán nhãn bằng mật mã mà họ không hiểu.

Tương lai của một “Công ty 1 người” vận hành mượt mà không nằm ở việc AI biết rê chuột thay bạn. Nó nằm ở một sự dịch chuyển cấu trúc sâu sắc hơn:

Các Platform chuyển dịch triệt để sang triết lý AHI stack.
Đội ngũ AI được vận hành bởi một OS layer thống nhất.
Chúng ta — những con người — lùi hẳn về vai trò Điều phối (Orchestrator) và Ra quyết định (Judgment) thay vì là Người thực thi (User/Bricklayer).

Đúng môi trường không phải là một sự lựa chọn mang tính option. Đối với cả con người và AI, đó là điều kiện tiên quyết (Prerequisite) để chuyển đổi từ “làm việc cật lực” sang “vận hành mượt mà”.

Bản thân mình đang build Vibery Edu và mọi công cụ trong hệ sinh thái của mình theo triết lý AHI stack này. Mình chấp nhận tốn thời gian hơn ở lớp Backend, chấp nhận xây dựng các Agent Interface cực chuẩn trước khi làm Dashboard cho người dùng. Bởi mình tin rằng: nếu lớp nền không sẵn sàng cho Agent, thì hệ thống đó sớm muộn cũng sẽ trở thành “kẻ lạc hậu” trong chính thế giới mà nó đang cố gắng phục vụ.

Chúng ta không cần những con robot biết cầm chuột. Chúng ta cần những hệ thống biết cách tự vận hành một cách có cấu trúc.

#ai #agents #ahi-stack #workflows #orchestration

Claude Code làm orchestrator

idea

Khi Codex và agy có thể chạy headless, câu hỏi quan trọng là ai giữ toàn cảnh. Với mình, Claude Code nên là orchestrator còn worker chỉ nhận ticket hẹp.

50 năm của Email: Từ hộp thư cho người đến giao diện cho Agent