Harness Engineering — Kỹ thuật phần mềm thời đại AI Agent

01 · Bối cảnh

Thí nghiệm thay đổi mọi thứ

Vào tháng 2 năm 2026, OpenAI công bố một bài viết kỹ thuật gây chấn động cộng đồng lập trình viên. Không phải vì họ ra mắt model mới hay tăng benchmark — mà vì họ vừa xây dựng xong một sản phẩm phần mềm hoàn chỉnh với hơn 1 triệu dòng code, 1.500 pull requests trong 5 tháng, bằng một đội chỉ 3–7 kỹ sư — mà không có một dòng nào do con người viết tay.

Tác giả Ryan Lopopolo — kỹ sư tại OpenAI — đặt tên cho phương pháp này là Harness Engineering. Khẩu hiệu: "Humans steer. Agents execute." (Con người định hướng. AI thực thi.)

"Thách thức khó nhất của chúng tôi bây giờ không còn là viết code nữa — mà là thiết kế môi trường, vòng phản hồi, và hệ thống kiểm soát." — Ryan Lopopolo, OpenAI Engineering Blog, Feb 2026

Đây không phải chuyện "AI giúp gợi ý code nhanh hơn". Đây là sự chuyển đổi mô hình hoàn toàn: kỹ sư không còn là người viết code — họ trở thành người thiết kế hệ thống để AI viết code đáng tin cậy.

· · ·

02 · Định nghĩa

Harness là gì?

Thuật ngữ "harness" (dây khai thác) xuất phát từ ý tưởng đơn giản: model AI là một con ngựa mạnh mẽ nhưng chưa được kiểm soát. Harness là bộ dây cương, yên ngựa, và toàn bộ hệ thống giúp con ngựa đó làm việc hữu ích một cách an toàn và có định hướng.

AI Agent = Model + Harness

Nói cách khác: mọi thứ không phải model chính là harness. Điều này bao gồm:

📄

Guides (Feedforward)

AGENTS.md, system prompts, design docs, coding conventions — định hướng cho agent trước khi nó hành động để tăng khả năng ra kết quả đúng ngay từ đầu.

🔬

Sensors (Feedback)

Linters, tests, code review agents, logs, CI/CD checks — quan sát sau khi agent hành động và giúp nó tự sửa lỗi trước khi con người nhìn thấy.

⚙️

Tools & Execution

Sandbox, shell access, filesystem, trình duyệt, MCP servers — hạ tầng thực thi cho phép agent thực sự làm được việc, không chỉ nói về nó.

🔄

Orchestration

Vòng lặp điều phối (ReAct loop), spawn subagent, quản lý context, routing giữa các model — kiến trúc kiểm soát toàn bộ luồng làm việc.

Insight cốt lõi từ Addy Osmani (Google Chrome)

"Model tốt với harness tồi sẽ thua model bình thường với harness tốt. Tôi đã chứng kiến điều này nhiều lần trong công việc của mình. Khoảng cách giữa những gì model hiện tại có thể làm và những gì bạn đang thấy nó làm — phần lớn là do harness gap."

· · ·

03 · Nguyên tắc

6 trụ cột của Harness Engineering

1. Application Legibility — Khả năng "nhìn thấy" của agent

Đây là yếu tố quan trọng nhất. Agent không thể sửa thứ mà nó không nhìn thấy. Trong thí nghiệm của OpenAI, mỗi branch Git được chạy trên một worktree riêng biệt, cho phép Codex:

• Boot một instance app hoàn chỉnh cho riêng nó
• Xem giao diện thực tế qua Chrome DevTools Protocol (screenshot, DOM)
• Truy vấn logs, metrics, traces trực tiếp từ local instance
• Validate kết quả trước khi mở PR — đôi khi một task chạy tới 6 tiếng

"Kỹ sư viết prompt như 'đảm bảo service startup hoàn thành trong dưới 800ms' — và Codex tự validate điều đó bằng cách thực sự đo thời gian startup." — SWE Quiz, phân tích thí nghiệm OpenAI

2. Progressive Documentation — Tài liệu là hạ tầng

File instruction khổng lồ là dead end: gây context overload và lỗi thời nhanh chóng. OpenAI thay thế bằng cấu trúc phân tầng:

Cấu trúc repository agent-first

AGENTS.md              # Mục lục — agent đọc đầu tiên
docs/
  design-docs/         # Kiến trúc tổng thể, ADRs
  product-specs/       # Yêu cầu sản phẩm, user stories
  exec-plans/          # Technical debt, execution plan
  references/          # API docs, third-party specs
src/                   # Code được sinh ra bởi agent
linters/               # Custom rules enforce architecture

Agent chỉ đọc những gì cần thiết cho task hiện tại. Tài liệu lỗi thời được phát hiện tự động bằng CI jobs và "doc-gardening" agents.

Nguyên tắc then chốt

Từ góc nhìn của agent: bất kỳ thông tin nào không có trong context thực tế không tồn tại. Knowledge trong Slack, Google Docs hay đầu người kỹ sư — agent không nhìn thấy. Repository phải là single source of truth.

3. Layered Architecture — Kiến trúc phân lớp cứng

Toàn bộ codebase được tối ưu cho cách Codex suy luận, không phải cho cách người đọc. Ưu tiên công nghệ "nhàm chán" — API ổn định, documentation rõ ràng, tính composable cao. Nếu thư viện ngoài quá khó đoán, team tự implement lại trong-repo.

Types

Định nghĩa kiểu dữ liệu, interfaces — nền tảng của mọi thứ

Config

Cấu hình ứng dụng, environment variables, constants

Repo

Data access layer, database queries, external API calls

Service

Business logic, domain rules, use cases

Runtime

HTTP handlers, queue workers, background jobs

Components, pages, presentation layer

Code chỉ được import xuôi chiều — UI không bao giờ gọi trực tiếp vào Repo. Custom linters enforce điều này ngay lập tức và cung cấp hướng dẫn sửa trực tiếp cho agent. Đây là "prompt injection tích cực": agent nhận được thông báo lỗi kèm cách khắc phục.

4. Agent-Speed Merge Philosophy — Triết lý merge mới

Khi agent mở hàng chục PR mỗi ngày, quy trình review cũ trở thành nút cổ chai. OpenAI áp dụng:

• Minimal blocking gates: chỉ block những gì thực sự quan trọng
• Test flake: trigger re-run, không block merge
• Agent-to-agent review: thay thế phần lớn human review
• Human review: optional, chỉ khi cần phán đoán thực sự

Logic cốt lõi: chi phí của một correction nhanh thấp hơn nhiều so với chi phí block mọi merge vì validation chưa hoàn hảo. Thiết kế cho fast recovery, không phải perfect prevention.

5. Golden Principles — Chống entropy tự động

Agent tự nhiên sẽ copy và mở rộng các pattern hiện có trong codebase — kể cả những pattern tệ. Kết quả là "pattern drift" hay còn được gọi là "AI slop": pattern xấu lan khắp codebase vì nó xuất hiện nhiều trong training distribution.

Vòng lặp Ratchet — Mỗi lỗi trở thành quy tắc

🔴

Agent gây lỗi (ví dụ: comment out test thay vì xóa)

Phát hiện trong review hoặc CI pipeline

📝

Thêm rule vào AGENTS.md

"Never comment out tests; delete them or fix them."

🔧

Thêm hook vào pre-commit

grep cho `.skip(` và `xit(` trong diff, fail build nếu tìm thấy

🤖

Review agent được cập nhật

Flag commented-out tests là blocker tự động

✅

Lỗi này không thể xảy ra nữa

Harness đã được tăng cường — ratchet siết lại một nấc

Giải pháp cho AI slop là "golden principles": quy tắc chuẩn hóa được encode vào repository, và background agents chạy liên tục để quét drift và tự mở cleanup PRs — phần lớn được auto-merge vì quá nhỏ để cần review. Ban đầu OpenAI dùng mỗi thứ Sáu để dọn dẹp thủ công — tốn 20% thời gian mà vẫn không đủ. Tự động hóa là bắt buộc.

6. The Steering Role — Kỹ sư thành người thiết kế hệ thống

Đây là thay đổi sâu sắc nhất. Kỹ sư cấp cao không còn được đánh giá bằng "viết code tốt" mà bằng khả năng:

• Thiết kế feedback loops hiệu quả
• Xây dựng tooling giúp agent hoạt động đáng tin cậy
• Định nghĩa constraints ngăn agent đi sai hướng
• Đọc tín hiệu lỗi và cải thiện harness liên tục

· · ·

04 · Lịch sử

Thuật ngữ này đến từ đâu?

THÁNG 8 NĂM 2025

AGENTS.md trở thành open standard

Được phát triển bởi cộng đồng bao gồm OpenAI, Google, Cursor, Factory và nhiều tổ chức khác — AGENTS.md trở thành chuẩn chung cho cấu hình agent trên nhiều tool.

THÁNG 12 NĂM 2025

Andrej Karpathy đặt tên "Context Engineering"

Karpathy coin thuật ngữ context engineering — nghệ thuật cung cấp đúng thông tin vào context window của agent. Là nền tảng để harness engineering phát triển.

THÁNG 2 NĂM 2026

Mitchell Hashimoto đề xuất nguyên tắc cốt lõi

Co-founder HashiCorp, tác giả Terraform phát biểu nguyên tắc: "Bất cứ khi nào agent mắc lỗi, hãy engineer một giải pháp để agent đó không bao giờ mắc lỗi đó nữa."

11 THÁNG 2 NĂM 2026

OpenAI công bố bài viết chính thức

Ryan Lopopolo formalize khái niệm Harness Engineering qua case study thực tế: 1 triệu dòng code, zero code viết tay, 5 tháng. Cộng đồng kỹ thuật chấn động.

THÁNG 4 NĂM 2026

Martin Fowler, Addy Osmani publish phân tích sâu

Các kỹ sư hàng đầu ngành publish framework chi tiết: Birgitta Böckeler (Thoughtworks), Addy Osmani (Google) standardize harness engineering thành discipline chính thức.

· · ·

05 · Chuyển đổi

Trước và sau Harness Engineering

Khía cạnh	Trước Cách cũ	Sau Harness Engineering
Vai trò kỹ sư	Người viết code trực tiếp	Người thiết kế môi trường và hệ thống kiểm soát
Tài liệu	Thứ tốt có thì hay, không có cũng được	Hạ tầng bắt buộc — tài liệu lỗi thời là bug
Lỗi agent	"Model tệ, chờ version mới"	"Harness thiếu rule, hãy thêm ngay vào AGENTS.md"
Architecture	Enforce bằng code review (cultural)	Enforce bằng custom linters (mechanical)
Technical debt	Sprint dọn dẹp định kỳ	Background agent quét và auto-fix liên tục
Code review	Mọi PR đều cần human approve	Agent review → human chỉ can thiệp khi cần phán đoán
Tech selection	Mới nhất, hype nhất	"Boring tech": API ổn định, docs rõ, nhiều training data
Test flakes	Block merge, cần người sửa	Trigger re-run tự động, không block

· · ·

06 · Tác động

Ý nghĩa với ngành phần mềm

🚀 Năng suất tăng vọt

3–5 PR/kỹ sư/ngày so với mức trung bình 0.5–1. Đội nhỏ có thể ship sản phẩm quy mô lớn trong thời gian ngắn chưa từng có.

🎓 Upskill bắt buộc

Gartner dự báo 80% kỹ sư cần upskill vào 2027. Kỹ năng viết code không còn đủ — cần hiểu systems design, observability, agent orchestration.

⚠️ Rủi ro "AI Slop"

Không có harness tốt, agent sẽ sao chép và khuếch đại pattern xấu. Codebase có thể phình to, nhất quán thấp, khó maintain.

🔧 Vai trò mới nổi

"Harness Engineer" xuất hiện như một role độc lập, trả cao hơn 10–20% so với SE cùng cấp do kỹ năng khan hiếm và nhu cầu cao.

📦 Công nghệ "nhàm chán" thắng

Agent hoạt động tốt hơn với stack có nhiều documentation và training data. React > Svelte, Python > Rust trong nhiều context — không phải vì kỹ thuật, mà vì legibility.

🏭 Áp lực lên công ty nhỏ

Công ty có harness tốt sẽ ship nhanh hơn đáng kể. Gap về năng suất giữa tổ chức biết và không biết harness engineering sẽ ngày càng lớn.

"Harness Engineering không có nghĩa là lập trình viên mất việc. Ba kỹ sư OpenAI không bị thay thế — họ thay đổi cách làm việc: từ 'người viết code' thành 'người thiết kế hệ thống và kiểm soát chất lượng.'" — DEV Community, phân tích thí nghiệm OpenAI, 2026

· · ·

07 · Thực hành

Bắt đầu từ đâu?

Bạn không cần codebase 1 triệu dòng để áp dụng harness engineering. Framework 5 bước để bắt đầu ngay hôm nay:

5 bước khởi động harness cơ bản

①

Tạo AGENTS.md (hoặc CLAUDE.md)

Định nghĩa: agent được phép làm gì, không được làm gì, conventions của codebase, cách chạy tests. Mỗi lỗi agent gây ra → thêm rule vào đây.

②

Cải thiện Legibility

Đảm bảo agent có thể boot app, chạy tests, xem logs. Nếu agent không thể validate kết quả của chính nó — bạn cần giải quyết điều này trước.

③

Setup Computational Sensors

Linters, type checkers, architectural tests (ArchUnit, dep-cruiser). Chúng chạy ngay sau khi agent hoàn thành và cung cấp feedback nhanh chóng.

④

Định nghĩa Layer Architecture

Vẽ sơ đồ phụ thuộc, encode thành linter rules. Agent phải tuân thủ — không phải vì convention, mà vì build sẽ fail nếu vi phạm.

⑤

Iterate: Steering Loop

Mỗi khi agent lỗi → phân tích → cải thiện harness. Đây là vòng lặp vô tận: harness ngày càng tốt hơn, agent ngày càng đáng tin cậy hơn.

Nguồn tham khảo chất lượng cao

openai.com/index/harness-engineering — Bài gốc của Ryan Lopopolo (OpenAI) · martinfowler.com/articles/harness-engineering.html — Framework chi tiết của Birgitta Böckeler (Thoughtworks) · addyosmani.com/blog/agent-harness-engineering — Phân tích thực tế của Addy Osmani (Google Chrome)

✦ ✦ ✦

Thí nghiệm thay đổi mọi thứ

Harness là gì?

Guides (Feedforward)

Sensors (Feedback)

Tools & Execution

Orchestration

Insight cốt lõi từ Addy Osmani (Google Chrome)

6 trụ cột của Harness Engineering

1. Application Legibility — Khả năng "nhìn thấy" của agent

2. Progressive Documentation — Tài liệu là hạ tầng

Nguyên tắc then chốt

3. Layered Architecture — Kiến trúc phân lớp cứng

4. Agent-Speed Merge Philosophy — Triết lý merge mới

5. Golden Principles — Chống entropy tự động

Agent gây lỗi (ví dụ: comment out test thay vì xóa)

Thêm rule vào AGENTS.md

Thêm hook vào pre-commit

Review agent được cập nhật

Lỗi này không thể xảy ra nữa

6. The Steering Role — Kỹ sư thành người thiết kế hệ thống

Thuật ngữ này đến từ đâu?

AGENTS.md trở thành open standard

Andrej Karpathy đặt tên "Context Engineering"

Mitchell Hashimoto đề xuất nguyên tắc cốt lõi

OpenAI công bố bài viết chính thức

Martin Fowler, Addy Osmani publish phân tích sâu

Trước và sau Harness Engineering

Ý nghĩa với ngành phần mềm

🚀 Năng suất tăng vọt

🎓 Upskill bắt buộc

⚠️ Rủi ro "AI Slop"

🔧 Vai trò mới nổi

📦 Công nghệ "nhàm chán" thắng

🏭 Áp lực lên công ty nhỏ

Bắt đầu từ đâu?

Tạo AGENTS.md (hoặc CLAUDE.md)

Cải thiện Legibility

Setup Computational Sensors

Định nghĩa Layer Architecture

Iterate: Steering Loop

Nguồn tham khảo chất lượng cao

Bạn muốn áp dụngHarness Engineering?

Bạn muốn áp dụng
Harness Engineering?