Bài viết

AI harness là gì

AI không chỉ mạnh nhờ model, mà còn nhờ phần mềm bao quanh model. Bài này giải thích harness, skill, MCP và vì sao đổi model thường không sửa được một AI đang làm việc kém.

23 tháng 5, 2026

AI harness là gì

Một model mạnh đặt một mình trên bàn thường không làm được nhiều việc thật. Nó có thể trả lời hay, viết câu mượt, đoán bước tiếp theo khá chính xác, nhưng giữa một câu trả lời trong khung chat và một trợ lý biết đọc file, chạy lệnh, hỏi quyền, nhớ bối cảnh dự án, rồi sửa lỗi qua nhiều vòng, có một lớp phần mềm rất quan trọng. Lớp đó là AI harness (bộ khung điều khiển AI). Nếu chỉ nhìn vào tên model, mình sẽ bỏ qua phần quyết định cách AI thật sự làm việc.

Cách dễ hình dung nhất là một động cơ Ferrari đặt trên bàn. Động cơ đó có sức mạnh lớn, nhưng chưa phải một chiếc xe. Để chạy được, nó cần khung xe, vô lăng, bánh, ghế lái, đồng hồ cảnh báo, dây an toàn và một cách truyền lực xuống mặt đường. Trong ẩn dụ này, LLM (large language model, mô hình ngôn ngữ lớn) giống động cơ, vì lõi của nó là dự đoán token (đơn vị văn bản AI dùng để tính và xử lý ngôn ngữ) tiếp theo. Harness giống phần khung điều khiển khiến động cơ thành một cỗ máy có thể đi đâu đó, còn môi trường làm việc là con đường, trạm xăng, bản đồ, dữ liệu và mọi thứ bên ngoài chiếc xe.

Simon Willison từng tóm gọn một công thức rất hữu ích: AI agent = LLM + harness. Agent (tác tử AI, phần mềm có thể tự chọn bước và dùng công cụ để làm việc) không chỉ là model biết nói chuyện. Nó là model được đặt vào một bộ khung có vòng lặp hành động, có công cụ, có bộ nhớ, có quyền hạn và có cách quan sát kết quả sau mỗi bước. Nếu thiếu harness, AI giống chatbot thông minh. Nếu có harness tốt, nó bắt đầu giống một cộng sự có thể thao tác trong phần mềm thật.

Harness vs môi trường — đừng nhầm

Điểm dễ nhầm là harness không phải “môi trường cho AI”. Environment (môi trường) là nơi AI làm việc: file trong máy, terminal, web, database, email, Figma, Notion, Drive. Sandbox (hộp cát bảo vệ) là lớp giới hạn để nếu AI làm sai, nó không dễ phá máy hoặc chạm vào thứ không được phép. Runtime là nơi code chạy và nơi API được gọi. Harness là lớp chủ động nối tất cả những thứ đó với “bộ não” LLM, rồi dạy nó nên quan sát thế nào, gọi công cụ ra sao, dừng ở đâu để hỏi quyền, và giữ bối cảnh bằng cách nào.

Nói ngắn hơn, sandbox giữ mình an toàn, environment là nơi file và dữ liệu sống, còn harness là phần mềm dạy AI cách dùng môi trường đó. “Môi trường cho AI” là bối cảnh thụ động. Harness là logic chủ động. Nó không chỉ mở cửa cho AI nhìn vào dữ liệu, mà còn đặt tay AI lên vô lăng và giới hạn lực đánh lái khi cần.

Các phần của một harness chuẩn

Một harness chuẩn thường có vài phần gần như luôn xuất hiện, dù mỗi sản phẩm đặt tên khác nhau. Nó có tool loop, tức vòng lặp nghĩ, hành động, quan sát, rồi lặp lại. Nó có context management, tức cách quản lý context window (cửa sổ ngữ cảnh, vùng trí nhớ ngắn hạn mà model có thể đọc trong một lượt), vì không có model nào nhớ vô hạn. Khi lịch sử quá dài, harness phải cắt, nén, tóm tắt hoặc chọn lại phần quan trọng. Nếu làm kém, AI bắt đầu quên yêu cầu, lặp lỗi cũ, hoặc trả lời bằng thứ nghe hợp lý nhưng lạc khỏi dự án.

Nó cũng có permissions, tức các điểm dừng để hỏi trước hành động rủi ro. Một cảnh báo như “AI muốn xóa file này, cho phép không?” chính là dây an toàn trong xe. Nó có long-term memory, nơi lưu sở thích, cấu trúc dự án, quyết định cũ, hoặc những quy ước lặp lại. Nó có system prompt, giống một bản hiến pháp mềm, nói cho AI vai trò, giới hạn và cách ưu tiên. Những phần này nghe có vẻ phụ trợ, nhưng khi dùng AI cho công việc dài hơi, chúng quyết định AI có giữ được nhịp hay không.

Skills: chuyên môn nạp khi cần

Skills cũng là một phần ngày càng quan trọng. Skill ở đây có thể hiểu là một gói hướng dẫn, script và template cho một loại việc cụ thể, chỉ được nạp khi cần. Thay vì nhồi toàn bộ kiến thức về viết báo cáo, sửa CI, làm slide, đọc spreadsheet và publish WordPress vào context ngay từ đầu, harness có thể chờ đúng từ khóa hoặc đúng tình huống mới lấy skill tương ứng. Cảm giác giống như đưa cho AI một chứng chỉ nghề theo yêu cầu, nhưng chỉ khi nghề đó thật sự cần dùng. Đây là cách tiết kiệm context mà vẫn làm AI có vẻ “chuyên nghiệp” hơn trong từng miền.

Context window và skill nạp khi cần

MCP: cánh tay nối ra dịch vụ thật

MCP (Model Context Protocol, giao thức kết nối ngữ cảnh model) là một mảnh khác, và nó không nên bị trộn với Skill. MCP là chuẩn Anthropic đưa ra cuối 2024 để harness kết nối model với dịch vụ bên ngoài theo một cách thống nhất. Gmail, Notion, Drive, Figma, database công ty hoặc một hệ thống nội bộ đều có thể xuất hiện như nguồn dữ liệu và hành động qua MCP. Skill trả lời câu “AI nên làm việc này theo phương pháp nào”, còn MCP trả lời câu “AI đọc và ghi dữ liệu thật ở đâu”.

Một harness mạnh thường là harness cộng với đúng Skills và đúng MCP cho các dịch vụ mình thật sự dùng. Nếu thiếu Skill, AI biết nói nhưng thiếu cẩm nang nghề. Nếu thiếu MCP, AI có phương pháp nhưng không có dữ liệu thật, nên dễ đoán mò. Nếu thiếu harness, Skill và MCP chỉ là tài liệu và cổng kết nối rời rạc, chưa thành một quy trình làm việc.

Cùng model, kết quả khác nhau

Đây là lý do cùng một model có thể cho cảm giác rất khác trong các công cụ khác nhau. Claude trong Claude Code không giống Claude trong một khung chat trống. GPT trong một sản phẩm có Code Interpreter không giống GPT trong một cửa sổ chỉ có textbox. Cursor, Windsurf, Aider, Cline, ChatGPT với Code Interpreter, Codex CLI (giao diện dòng lệnh để điều khiển AI) đều có thể dùng những model quen thuộc, nhưng kết quả khác nhau vì harness khác nhau. Có nơi quản lý context tốt hơn, có nơi đọc repo khéo hơn, có nơi hỏi quyền hợp lý hơn, có nơi vòng lặp tool chậm và dễ lạc hơn.

Khi AI “ngu đi” — chẩn đoán đúng lớp

Khi AI “tự nhiên ngu đi”, phản xạ phổ biến là đổi model. Mình thấy phản xạ đó dễ hiểu nhưng thường đặt sai chỗ. Model có thể yếu, có thể bị thay đổi, có thể không hợp việc, nhưng trong nhiều trường hợp vấn đề nằm ở harness và cách harness đang cho model nhìn thế giới. Một người rất giỏi cũng làm việc đuối nếu bàn làm việc đầy giấy cũ, sổ tay thiếu trang, điện thoại không gọi được cho ai, và mỗi lần cầm bút đều phải xin phép qua ba cửa.

Chẩn đoán nên bắt đầu từ context. Nếu AI quên yêu cầu, nhắc lại lỗi đã sửa, trả lời bằng một phiên bản quá chung, khả năng cao context đã tràn hoặc bị stale. Context window có giới hạn; khi vượt quá, harness phải chọn bỏ gì và giữ gì. Một chat mới, một bản tóm tắt sạch, hoặc một harness có cơ chế nén bối cảnh tốt hơn thường sửa được nhiều hơn việc đổi từ model A sang model B. Vấn đề không phải bộ não không biết, mà là nó đang đọc một bàn giấy lộn xộn.

Chat cũ tràn vs context sạch — sửa context trước khi đổi model

Sau context, mình nhìn vào domain skill. Nếu mình yêu cầu AI review một hợp đồng, thiết kế một hệ thống permission, viết proposal SEO, hoặc sửa một pipeline phức tạp mà không cho nó quy tắc nghề, nó sẽ dựa vào mẫu chung. Mẫu chung có thể đủ cho bản nháp, nhưng chưa đủ cho việc cần tiêu chuẩn. Một Skill tốt không biến model yếu thành chuyên gia thật, nhưng nó giảm rất nhiều suy đoán. Nó nói rõ checklist, format, tiêu chuẩn lỗi, script phụ trợ và ví dụ đầu ra, nhờ đó model dùng năng lực ngôn ngữ vào đúng đường ray.

Sau đó là dữ liệu thật. Nếu AI không có MCP tới CRM, Gmail, Drive hay database, nó không biết trạng thái thật của công việc. Nó chỉ biết những gì mình dán vào chat. Khi câu trả lời nghe tự tin nhưng sai dữ kiện, có thể nó đang bị buộc phải trả lời trong bóng tối. Gắn MCP phù hợp thường làm AI “thông minh” lên ngay, dù model giữ nguyên, vì nó chuyển từ tưởng tượng sang quan sát. Đây là khác biệt giữa hỏi một người ngoài đường về lịch họp công ty và đưa họ quyền đọc calendar đúng phạm vi.

Permissions cũng có thể làm AI kém đi theo cách âm thầm. Nếu mọi thao tác đều bị chặn, AI sẽ chọn đường vòng, trả lời thay vì làm, hoặc dừng giữa chừng. Ngược lại, mở quyền quá rộng thì rủi ro tăng. Harness tốt không phải là harness cho AI làm tất cả, mà là harness biết phân loại hành động nào an toàn, hành động nào cần xác nhận, hành động nào không bao giờ được phép. Cảm giác “AI chậm và nhát” đôi khi đến từ một bộ quyền được đặt quá hẹp so với công việc.

Chỉ sau các lớp đó mình mới xem model có thật sự là nút thắt không. Có những việc cần model mạnh hơn, nhất là reasoning dài, codebase lớn, lập luận nhiều bước hoặc văn phong tinh tế. Nhưng nếu context bẩn, thiếu Skill, không có MCP và permission sai, đổi model giống thay động cơ trong một chiếc xe có lốp xẹp và vô lăng lệch. Nó vẫn có thể chạy hơn một chút, nhưng lỗi chính chưa được sửa.

Cầu thang chẩn đoán — context, skill, MCP, permissions trước khi đổi model

Từ Model Wars sang Harness Wars

Cuộc đua AI vì vậy đã đổi hình. Giai đoạn 2023-2024 phần lớn xoay quanh Model Wars, tức ai có model mạnh hơn, benchmark cao hơn, trả lời trôi hơn. Giai đoạn 2025-2026 nghiêng nhiều sang Harness Wars, tức ai đóng gói model thành sản phẩm làm việc tốt hơn. Cursor, Claude Code hay các công cụ coding agent có giá trị không chỉ vì chúng gọi được model tốt, mà vì chúng xây một hệ thống đọc repo, sửa file, chạy test, hỏi quyền, nhớ mục tiêu và lặp qua lỗi.

Điều này cũng giải thích vì sao các sản phẩm dùng “model có sẵn” vẫn có thể tạo giá trị thật. Nếu chỉ nhìn vào model, ta tưởng mọi sản phẩm AI sẽ nhanh chóng giống nhau. Nhưng harness là nơi tích lũy kinh nghiệm sản phẩm: cách chọn file nào đưa vào context, cách viết diff, cách gọi terminal, cách tránh phá project, cách tóm tắt một phiên làm việc, cách nạp Skill đúng lúc, cách nối MCP tới hệ thống công ty. Những chi tiết đó ít hào nhoáng hơn benchmark, nhưng lại quyết định công việc có xong hay không.

Công thức 2026

Công thức đầy đủ cho 2026, theo mình, không còn chỉ là AI agent = LLM + harness. Nó gần hơn với: một AI agent tốt = LLM + harness + đúng Skills + đúng MCP. Thiếu LLM, không có bộ não. Thiếu harness, bộ não không có tay lái. Thiếu Skill, nó thiếu phương pháp nghề. Thiếu MCP, nó thiếu dữ liệu thật. Mỗi phần thiếu làm AI “ngu” theo một kiểu khác nhau, và nếu mình gọi tất cả những kiểu đó bằng một chữ “model yếu”, mình sẽ sửa sai chỗ.

Kỹ năng quan trọng khi dùng AI bây giờ không chỉ là chọn model. Nó là khả năng nhìn một lỗi làm việc và hỏi: đây là lỗi suy luận, lỗi bối cảnh, lỗi công cụ, lỗi quyền, lỗi dữ liệu, hay lỗi hướng dẫn? Khi phân biệt được, mình bớt nóng vội đổi công cụ và bắt đầu sửa đúng lớp. Một ngày nào đó model sẽ tiếp tục mạnh lên, nhưng có lẽ câu hỏi thực tế hơn vẫn là: chiếc xe mình đang lái có thật sự có khung, bánh, bản đồ và dây an toàn tương xứng với động cơ chưa?

#ai-harness #ai-agent #mcp #llm #ai-workflows

Code mode đừng bắt AI gọi tool mãi

idea

Khi MCP server phình ra hàng chục tool, agent dễ chậm và lạc. Code Mode trong VibeWork chọn hướng ngược lại: chỉ search, execute, rồi để AI viết JavaScript an toàn trong sandbox.

Codex chạy ngầm trong Claude Code

idea

Khi Codex có thể chạy headless bên trong Claude Code, điều đáng chú ý không chỉ là thêm một công cụ mới, mà là một cách chia việc nhẹ hơn giữa các agent.

AI harness là gì

Harness vs môi trường — đừng nhầm

Các phần của một harness chuẩn

Skills: chuyên môn nạp khi cần

MCP: cánh tay nối ra dịch vụ thật

Cùng model, kết quả khác nhau

Khi AI “ngu đi” — chẩn đoán đúng lớp

Từ Model Wars sang Harness Wars

Công thức 2026

Bài viết liên quan

Code mode đừng bắt AI gọi tool mãi

Codex chạy ngầm trong Claude Code

Chia sẻ ảnh