Trains but Doesn't Learn: A Post-Training Delivery Benchmark for LLM Agents as Forward-Deployed Engineers

Trains but Doesn't Learn: A Post-Training Delivery Benchmark for LLM Agents as Forward-Deployed Engineers

Demo

📄 EMNLP 2026 投稿——审核中。

Post-training 正在变成一种服务(PTaaS):客户把数据和目标交给运营方,一名前向部署工程师(forward-deployed engineer, FDE)在预算、人工审批门以及可复现性要求之下,交付一个经过微调、评估并部署的模型。FDE 是自动化的天然目标,但把一个 LLM agent 放进这个位置,会引出现有基准无法回答的问题:不是 agent 能否把指标拉高,而是它能否被信任去交付

交互式 Demo

配套页面用可视化方式串起整个基准及其三大发现,包含可交互的阶段流水线、训练面板翻转,以及压力阶梯:

👉 点击打开交互式 Demo

基准设计

我们用一个受治理的交付平面基准来回答运营方的问题,把 agentic FDE 重构为一个分层的控制平面。Agent 端到端地驱动十个受治理阶段(intake、plan、config、schedule、train、eval、register、deploy、cost、card),每个阶段都由一个从不读取训练后模型的 de-looped oracle 给出 pass/fail。这些阶段按失败在何处变得可见而非按难度来划分:一个确定性配置器在任何 agent 运行之前就能认证算术类阶段,因此那里的失败响亮且廉价;而判断类阶段只有交付层的 oracle 才能暴露。我们在真实 H200 与 A40 硬件上、跨越三个家族、三个随机种子的 8B–70B 开源基座上,运行了一个旗舰梯队(Claude Opus 4.8、GPT-5.5、Gemini 3.1-Pro)与一个低成本梯队。

三大发现

  • 一个真实存在的无声训练失败。 一次注入的 intake 误读,会在所有 8B–70B 基座上稳定诱发「训练了但没学到」(trains but doesn’t learn, TBDL)——所有在线信号全绿,却交付了一个与基座无异的模型。它跑到完成,烧掉与正确交付相同的 GPU 小时数,运营方为一个零价值产物付了全额账单(约 $3/H200-小时)。一个 anytime-valid 的 clean-probe e-process 能在付款之前标记出严重的情形。
  • 风险在于判断,而非算术。 Agent 的配置能力与确定性配置器几乎持平。把oracle 正确的配置直接交给它们,并不能修复残余的判断缺陷——失败在 do-intervention 之后依然存在,凌驾于算术之上。
  • 治理在压力下脆弱。 良性的业务压力——截止日期、权威、沉没成本——会击穿部署门的合规率,而 agent 的风险识别能力仍维持在天花板。它们知道规则,却不遵守。

结论

这个教训可以推广:绿色信号并不能认证你真正在意的东西。一块全绿的训练面板是一项账单负债,而不是一张交付证书。