type
Post
status
Draft
date
Apr 3, 2026
slug
summary
tags
category
icon
password
😀
 

Harness Engineering

核心定位:AI工程领域继Prompt Engineering、Context Engineering后的第三次重心迁移,是决定AI Agent在真实场景稳定落地、交付的核心系统,模型决定AI系统上限,Harness决定落地可行性。 核心目标:让AI模型在长链路、低容错的真实执行中不跑偏、跑得稳,出错后能及时拉回并恢复。

一、AI工程三次重心迁移(层层包含)

工程类型
核心解决问题
本质
核心局限/特点
Prompt Engineering
模型能否听懂指令
塑造局部概率空间,对指令工程化
仅解决表达问题,无法弥补知识缺失、处理动态信息、管理长链路状态
Context Engineering
模型能否获取足够且正确的信息
按需供给信息,对输入环境工程化
需解决信息稀缺性问题,核心是“分层、按需、适时”供给
Harness Engineering
模型能否在真实场景持续做对事
驾驭模型执行全流程,对整体运行系统工程化
包含前两者,聚焦执行过程的监督、约束、纠偏,是真实场景的必备能力
通俗类比(客户拜访任务):
  • Prompt:讲清拜访步骤(寒暄→介绍方案→提需求→确认下一步)
  • Context:准备齐全资料(客户背景、报价、竞品情况、会议目标)
  • Harness:建立全流程机制(带检查清单、关键节点汇报、会后核实、偏差及时纠正、结果验收)

二、Harness 核心定义

  1. 本义:缰绳、约束装置,在AI中是模型外驾驭执行全流程的整套运行系统;
  1. 官方定义(LUNCHA工程师):Agent=Model+Harness,即Harness=Agent-Model,是除模型外决定AI系统稳定交付的所有要素。

三、成熟Harness的六层核心构成

  1. 上下文管理:把控模型思考边界,做好角色目标定义、信息裁剪选择、信息结构化组织,避免模型漏重点、忘约束;
  1. 工具系统:解决工具配置(不多不少)、调用时机(该查才查)、结果回传(提炼筛选后喂回)问题,让模型对接真实世界;
  1. 执行编排:规划任务执行轨道(理解目标→补全信息→分析→生成→检查→修正),让模型有序串联步骤,避免半成品输出;
  1. 记忆和状态:区分并管理当前任务状态、会话中间结果、长期记忆/用户偏好,避免系统混乱,让Agent具备持续工作能力;
  1. 评估和观测:实现输出验证、自动测试、日志指标监控、错误归因,让系统“知道自己做得好不好”,避免自我感觉良好;
  1. 约束校验&失败恢复:明确行为约束(能做/不能做)、结果校验规则,设计失败后重试、切入口、回滚机制,应对真实场景的常态性失败。

四、一线公司核心实践案例

1. Anthropic(安索普)

  • 解决长任务上下文过载:采用Context Reset,不压缩原有上下文,直接更换干净Agent并恢复状态,避免模型丢细节、急收尾;
  • 解决模型自评失真:拆分角色实现生产与验收分离,planner拆需求为规格、generator逐步实现、evaluator模拟真实操作验收,形成生成-检查-修复-再检查的有效循环。

2. OpenAI

  • 重新定义工程师工作:人类无需写代码,专注拆解任务、补充环境能力、建立反馈链路
  • 信息供给:采用渐进式披露,将大文档拆为目录+子文档,模型按需钻取,避免上下文资源浪费;
  • 自验证能力:让Agent接入浏览器、日志/指标系统,独立隔离环境运行,实现自主截图、模拟操作、查日志、修Bug、验证结果;
  • 自动治理系统:将资深工程师经验写成系统规则(模块分层、依赖限制、问题修复方法),规则不仅报错,还将修复方法反馈给模型,形成可持续循环。

五、核心结论

  1. 三者非替代关系,而是边界逐层扩大的包含关系,适配不同任务场景:单轮生成靠Prompt,依赖外部信息靠Context,长链路低容错真实场景必须靠Harness;
  1. AI落地核心挑战迁移:从“让模型看起来更聪明”,转向“让模型在真实世界里稳定工作”;
  1. 同款模型效果差异的核心原因:并非模型、提示词或参数,而是模型外的Harness系统设计。
 

📎 参考文章

  • 一些引用
  • 引用文章
 
💡
欢迎您在底部评论区留言,一起交流~
上一篇
第一节 大脑:重新认识你自己
下一篇
Harness Engineering - 搭建Mini Harness
Loading...