type
Post
status
Draft
date
Apr 3, 2026
slug
summary
tags
category
icon
password
Harness Engineering
核心定位:AI工程领域继Prompt Engineering、Context Engineering后的第三次重心迁移,是决定AI Agent在真实场景稳定落地、交付的核心系统,模型决定AI系统上限,Harness决定落地可行性。
核心目标:让AI模型在长链路、低容错的真实执行中不跑偏、跑得稳,出错后能及时拉回并恢复。
一、AI工程三次重心迁移(层层包含)
工程类型 | 核心解决问题 | 本质 | 核心局限/特点 |
Prompt Engineering | 模型能否听懂指令 | 塑造局部概率空间,对指令工程化 | 仅解决表达问题,无法弥补知识缺失、处理动态信息、管理长链路状态 |
Context Engineering | 模型能否获取足够且正确的信息 | 按需供给信息,对输入环境工程化 | 需解决信息稀缺性问题,核心是“分层、按需、适时”供给 |
Harness Engineering | 模型能否在真实场景持续做对事 | 驾驭模型执行全流程,对整体运行系统工程化 | 包含前两者,聚焦执行过程的监督、约束、纠偏,是真实场景的必备能力 |
通俗类比(客户拜访任务):
- Prompt:讲清拜访步骤(寒暄→介绍方案→提需求→确认下一步)
- Context:准备齐全资料(客户背景、报价、竞品情况、会议目标)
- Harness:建立全流程机制(带检查清单、关键节点汇报、会后核实、偏差及时纠正、结果验收)
二、Harness 核心定义
- 本义:缰绳、约束装置,在AI中是模型外驾驭执行全流程的整套运行系统;
- 官方定义(LUNCHA工程师):Agent=Model+Harness,即Harness=Agent-Model,是除模型外决定AI系统稳定交付的所有要素。
三、成熟Harness的六层核心构成
- 上下文管理:把控模型思考边界,做好角色目标定义、信息裁剪选择、信息结构化组织,避免模型漏重点、忘约束;
- 工具系统:解决工具配置(不多不少)、调用时机(该查才查)、结果回传(提炼筛选后喂回)问题,让模型对接真实世界;
- 执行编排:规划任务执行轨道(理解目标→补全信息→分析→生成→检查→修正),让模型有序串联步骤,避免半成品输出;
- 记忆和状态:区分并管理当前任务状态、会话中间结果、长期记忆/用户偏好,避免系统混乱,让Agent具备持续工作能力;
- 评估和观测:实现输出验证、自动测试、日志指标监控、错误归因,让系统“知道自己做得好不好”,避免自我感觉良好;
- 约束校验&失败恢复:明确行为约束(能做/不能做)、结果校验规则,设计失败后重试、切入口、回滚机制,应对真实场景的常态性失败。
四、一线公司核心实践案例
1. Anthropic(安索普)
- 解决长任务上下文过载:采用Context Reset,不压缩原有上下文,直接更换干净Agent并恢复状态,避免模型丢细节、急收尾;
- 解决模型自评失真:拆分角色实现生产与验收分离,planner拆需求为规格、generator逐步实现、evaluator模拟真实操作验收,形成生成-检查-修复-再检查的有效循环。
2. OpenAI
- 重新定义工程师工作:人类无需写代码,专注拆解任务、补充环境能力、建立反馈链路;
- 信息供给:采用渐进式披露,将大文档拆为目录+子文档,模型按需钻取,避免上下文资源浪费;
- 自验证能力:让Agent接入浏览器、日志/指标系统,独立隔离环境运行,实现自主截图、模拟操作、查日志、修Bug、验证结果;
- 自动治理系统:将资深工程师经验写成系统规则(模块分层、依赖限制、问题修复方法),规则不仅报错,还将修复方法反馈给模型,形成可持续循环。
五、核心结论
- 三者非替代关系,而是边界逐层扩大的包含关系,适配不同任务场景:单轮生成靠Prompt,依赖外部信息靠Context,长链路低容错真实场景必须靠Harness;
- AI落地核心挑战迁移:从“让模型看起来更聪明”,转向“让模型在真实世界里稳定工作”;
- 同款模型效果差异的核心原因:并非模型、提示词或参数,而是模型外的Harness系统设计。
📎 参考文章
- 一些引用
- 引用文章
欢迎您在底部评论区留言,一起交流~
Loading...
