Trace Data Foundry：当 Agent 执行轨迹成为可交易的模型能力资产

作者：pprp 发布：2026年04月29日修订：2026年04月29日 3 min read

这篇文章是对”agent trace 商品化”这一方向的竞品分析与产品设计推演。它不是一篇论文综述，而是试图回答一个具体问题：在 SWE-Gym、SWE-smith、AgentRR、Datacurve 等工作已经出现的背景下，一个”verified agent trace 交易平台”的差异化空间在哪里？

引子：智能是锯齿状的

如果你用过 Claude Code 或 Cursor 做一些真实的工程任务，会注意到一个奇怪的现象：

模型在某些问题上极度流畅，给出的方案连老工程师都觉得不用改；但紧接着，它会在一个你以为是基础的问题上卡壳——一个奇怪的 monorepo 依赖关系，一个稍微非主流的框架配置，一个测试明明过了但逻辑实际上是错的 patch。

这不是模型”不够强”。这是模型能力曲面本来就是锯齿状的：在大量训练覆盖到的区域里，它非常自信、非常流畅；在训练覆盖稀疏的边界处，它会以一种看起来很有把握的方式走错。

这个洞察很关键：锯齿不是 bug，而是训练数据分布的镜像。如果你想知道哪里是锯齿，去看哪里的高质量执行轨迹是稀缺的。

从这里，可以推出一个更大的想法：

如果模型能力的边界是由训练轨迹的密度决定的，那么”生产模型锯齿区的高质量执行轨迹”本身就是一件有价值的事。

把这件事做成平台，就是本文要讨论的方向：Trace Data Foundry。

一、已有的相邻工作

这个方向不是空白。已经出现了几个相邻板块，但还没有一个成熟平台完整实现”任务 → 执行 → 验证 → 轨迹 → 蒸馏 → 交易”这个闭环。

学术层：trace 资产化的概念已经成形

最接近的学术概念包括：agent trajectory、execution trace、experience、skill、record-and-replay、agent data protocol 和 repo-level RL environment。

XSkill 直接对应 experience / skill 视角。它把 agent 从过去轨迹中学到的东西分成两层：一层是 action-level 的 experience，用于工具选择和决策；另一层是 task-level 的 skill，用于规划和工具使用。它还强调从多路径 rollout 中提炼和整合这些 experience/skill。

AgentRR 提出 record-and-replay 机制：记录 agent 与环境交互的轨迹和内部决策过程，把轨迹总结成结构化 experience，再在后续任务中 replay 使用。它甚至明确设想了一个 experience repository，用来共享和复用 agent 经验。

SWE-Gym 把这个方向落到真实软件工程任务里：它构建了用于训练真实世界 SWE agent 的环境，包含代码库、运行环境、单元测试和自然语言任务，并且用 agent trajectories 来训练 agent 和 verifier。

SWE-smith 则把”生成软件工程训练数据”本身做成研究对象。它从 GitHub repo 自动生成 SWE 任务，构造大规模训练实例和 agent trajectories，并用这些数据训练 coding agent。

还有一个重要概念：Agent Data Protocol（ADP）。它试图标准化 agent 数据格式，覆盖 API/tool use、browsing、coding、SWE 和一般 agent workflow。这个方向说明，行业已经意识到：未来 agent trace 不能只是散乱的 log，而需要统一数据协议。

学术上，这个方向可以被归纳为：

从 agent trajectories 中提取 experience / skill / verifier signal，并把它们作为可复用训练资产。

商业层：最接近的是 Datacurve / Shipd

Datacurve 的官方定位是为 foundation model lab 提供 frontier coding data，包括 SFT、RL environments、RLHF，以及用于 repo-wide code evaluation 和 verification 的数据。

更关键的是，它明确提到 Agentic Workflow Traces：通过自定义 IDE 捕捉软件开发 telemetry，包括代码执行到编辑的循环、文件导航、execution trace，以及开发者的 verbal/written thoughts，用于训练 software agent。

它还有一个叫 Shipd 的 contributor platform。Shipd 上贡献者参与 hard STEM/SWE 任务，竞争完成 quests，获得 bounty，同时产出用于 LLM 的数据，任务包括 GitHub issues、build features、fix bugs 等。

这和 Trace Data Foundry 的思路非常接近：

Datacurve / Shipd =
coding bounty platform
+ 高质量 coding data
+ agentic workflow trace
+ foundation model labs 作为买方

但它和更完整的 trace exchange 仍有差距：它更像 B2B curated data provider + contributor platform，而不是开放式 trace exchange；它强调自定义 IDE 和受控数据生产流程，而不是 BYOA（bring your own agent / workflow / coding capacity）。

“剩余额度变现”这条线：AgentWork

AgentWork 自称是 decentralized marketplace：AI agent 和 human 可以完成任务并获得 USDC 报酬；任务发布者提供验证脚本，worker claim 任务，用自己的 AI subscription 完成。它明确说比 API 便宜，是因为 worker 在 monetizing unused subscription capacity——例如未用完的 Claude Pro/Max 额度。

这和”把闲置推理能力变成价值”的切口几乎一致，但核心商品不同：

AgentWork 卖的是：任务执行结果 / 自动化劳动力
Trace Data Foundry 卖的是：verified agent behavior data

前者容易变成更便宜的 API 或众包执行市场；后者的目标是可训练、可复用、可审计的 agent 行为数据。

竞品地图

你的想法所在位置：

                    用户数据权利
                       ↑
Vana  ────────────────  │
                       │
Datacurve / Shipd ─── coding trace bounty / agentic workflow data
                       │
SWE-Gym / SWE-smith ── repo task + trajectory + verifier
                       │
XSkill / AgentRR ───── experience / skill / record-and-replay
                       │
AgentWork ──────────── unused subscription capacity marketplace
                       │
Scale/Turing/Surge/
Mercor/DataAnnotation ─ expert data / RLHF / RL environments / evals

还没有看到一个清晰成熟的平台同时做到：

用户或 agent worker 使用自己的 coding/agent capacity
平台提供可验证任务和隐藏验收
完整记录 agent/human/tool/repo trajectory
对 trace 做脱敏、授权、验证、蒸馏
把 trace、experience、skill、failure cluster 打包成 capability pack
让模型训练方按能力边界购买

二、核心判断：raw trace 不是资产，validated trace 才是

这是整个方向里最重要的一个限定。

很多人的第一反应是”所有 trace 都是天然资产”——毕竟 agent 每天在跑，每天在产生日志。但这个直觉是错的。

原始 trace 通常有以下问题：噪声多、隐私风险高、任务价值不明、无法复现、质量难评估、可能含有泄露答案、可能违反工具或订阅条款。

买方真正想买的不是”我跑过一堆 agent log”，而是：

在某类能力边界任务上，经过验收、可复现、带失败样本和成功样本、带环境快照、带人工干预记录、可用于训练或评估的结构化 trace package。

这和 XSkill 的方向是相通的：可复用知识需要被蒸馏成 experience（面向行动层面的工具选择和决策指导）和 skill（面向任务层面的规划和工具使用指导），从多路径 rollout 中提炼和整合，而不只是存档。

因此，这个平台最核心的价值主张是：

不是存储 trace，而是把 trace 编译成可交易的能力数据资产。

三、”抽卡”机制：如何把低价值 token 转化为高价值 trace

问题核心在于：如何将低价值 token 转化为有用 trace，本质是一个抽卡机制设计问题。

但平台不能只是让大家乱抽卡。真正的机制应该是：

平台设计卡池，控制抽卡成本，提高 SSR trace 的出货率。

所谓”卡池设计”包括五件事：

第一，选择哪些任务值得被 rollout。 不是所有任务都值得烧 token。任务要落在模型能力的锯齿边界上：太简单没有训练价值，太难成功率太低，太重复边际价值下降。最优任务是那些模型有一定概率解决、但失败模式丰富、成功路径有迁移价值的任务。

第二，控制 rollout 的多样性。 同一个任务可以用不同模型、不同 prompt、不同工具链、不同上下文长度、不同 human-in-the-loop 程度来跑。买方不一定只想要正确答案，他们也想要失败轨迹、修正轨迹、分叉决策、工具误用、上下文污染、测试误判等信息。

第三，提供强验收。 只靠公开测试不够。UTBoost 指出部分 SWE-Bench 任务的测试不足会让错误 patch 被误判为通过；SWE-Bench+ 也讨论了 solution leakage 和 weak tests 等数据质量问题。验收标准本身就是平台的核心资产。

第四，做 trace distillation。 raw trace 很长、很脏、很贵。平台应该把它压缩成多种产品：训练样本、agent memory、experience card、skill card、bug-fix trajectory、failure taxonomy、evaluation case。

第五，做权利和隐私清洗。 没有 provenance、license、PII scrub、商业使用授权，trace 就不能大规模卖给模型训练方。这一步商业上比技术上更重要。

四、七类 Trace，七种价值

并非所有 trace 等价。按价值和可用性分类：

类型	说明	商业价值
Experience Trace	用户真实任务中产生的局部经验，某工具如何用、某类报错如何修	中等，真实但噪声大
Bounty Rollout Trace	为平台任务批量 rollout 产生的执行轨迹	单条价值低，靠规模和筛选
Repository Lifecycle Trace	在真实/仿真 repo 中多轮完成项目任务的完整轨迹	高，尤其适合 coding agent
Failure Trace	模型失败、卡住、误修、误测、幻觉工具调用的记录	被低估，对边界训练很有价值
Correction Trace	人类介入纠正 agent 的过程：指出错因、补充上下文、重构方案	高，因为有 teacher signal
Evaluator Trace	不只解题，而是构造测试、审查 patch、发现隐藏 bug 的轨迹	高，适合训练 verifier/reviewer
Skill Trace	从多个相关 trace 中蒸馏出的稳定流程、策略、工具链模式	最高，可复用性强

特别值得强调的是 failure trace 和 correction trace。很多人以为只有成功 trace 值钱，但对模型训练方来说，失败模式往往更接近”能力边界”。如果平台能告诉买方：某类 agent 在什么上下文下稳定失败、如何被纠正、纠正后是否能迁移到类似任务——这会非常有价值。

按价值排序大致是：

1. 高质量 human correction trace
   人类专家指出 agent 哪里错了，如何修。

2. repository-level long-horizon trace
   跨文件、跨模块、多轮调试、多轮测试。

3. failure-to-success trace
   不是一次成功，而是从失败走向成功的完整过程。

4. hidden-test verified patch trace
   有强验收的成功路径。

5. failure cluster
   大量模型在同类任务上失败，形成能力缺口地图。

6. ordinary success trace
   普通通过测试的 log。

7. unverified raw trace
   基本不值钱，甚至是负资产。

五、平台的五个核心模块

平台不是简单的任务市场，而是一条数据生产流水线。核心模块有五个。

A. Task Forge：任务生成与采购

任务来源可以有三类：

买方直接提供能力缺口，例如”我们需要更多复杂 repo migration trace”
平台主动构造任务，例如 synthetic repo、真实开源 issue、企业授权 sandbox repo
社区提交任务，例如开发者提交自己遇到的真实 bug

每个任务必须带：任务描述、repo/environment、allowed tools、public tests、hidden tests、验收 rubric、数据授权状态、预估难度、任务类别标签。

B. Rollout Arena：执行场

用户在这里领取任务，用 agent 跑，产生 trace。平台应该记录：model/provider/version、prompt、tool calls、shell commands、file edits、test runs、diff、branch history、human interventions、failure checkpoints、final patch、runtime environment。

C. Verifier：验证器

这是平台护城河之一。验证不能只看”测试通过”，应包括：

unit tests + integration tests + hidden tests
+ mutation tests + reviewer model + human review
+ regression check + style/security check + benchmark leakage check

SWE-Bench Verified 说明了”人工过滤 + 固定评测集”在 coding agent 评估中的重要性。但这个平台还要更进一步，因为不是只做评测，而是要生产可交易数据。

D. Trace Compiler：轨迹编译器

把 raw trace 编译成买方可用的数据资产。这一步决定了平台是”log 仓库”还是”数据工厂”：

raw log
→ structured event sequence
→ concise experience
→ reusable skill
→ training pair / preference pair
→ failure taxonomy
→ evaluation case
→ postmortem

E. Exchange & Rights Ledger：交易与权利账本

记录每条 trace 的完整权利链：

维度	需要明确的问题
来源	谁提交的、用了什么工具、基于哪个 repo
授权	原始 repo license、contributor 授权、是否含私有代码
用途	可用于 training/eval/再出售/公开/蒸馏
收益	分成比例、royalty 规则
风险	PII 清洗状态、污染风险、合规状态

没有这一层，平台无法服务真正的大买方。

六、定价：不要按 token，要按”验证后信息增益”

按消耗 token 付钱是一个错误的激励结构。它会导致用户提交大量无意义的长 trace，而不是有价值的短 trace。

更合理的定价公式是：

\(\text{TraceValue} = P(\text{valid}) \times \text{CapabilityGapScore} \times \text{Novelty} \times \text{Reproducibility}\) \(\quad \times \text{HumanCorrectionValue} \times \text{DistillationYield} \times \text{RightsClearanceScore}\) \(\quad - \text{PrivacyRisk} - \text{ContaminationRisk} - \text{ReviewCost}\)

其中：

P(valid)：trace 是否通过强验证
CapabilityGapScore：是否击中买方当前模型的弱点
Novelty：是否是新任务、新 repo、新失败模式
Reproducibility：能不能复跑
HumanCorrectionValue：有没有高质量人工纠偏
DistillationYield：能否提炼成 experience / skill
RightsClearanceScore：授权是否干净

奖励机制分层：

事件	奖励方式
接任务并完成 rollout	很低的基础奖励
通过公开测试	中等奖励
通过隐藏测试	高奖励
发现现有验收漏洞	高奖励
提供有价值失败 trace	中等到高奖励
人工写出高质量 postmortem	高奖励
trace 被买方采购	分成
trace 被蒸馏成复用 skill	额外 royalty

关键点：失败 trace 也应该付钱，但必须经过分类和验证，否则大家会提交大量垃圾失败记录。

七、平台的终态：四层结构

第一层：Task Market
买方发布能力需求，平台构造任务和验收标准。

第二层：Rollout Network
用户、agent、工具链、开发者社区共同产生执行轨迹。

第三层：Trace Intelligence Layer
平台验证、清洗、聚类、蒸馏、抽取 experience / skill / evaluator。

第四层：Capability Exchange
买方按能力类别购买 trace pack、skill pack、eval pack。

这样平台不是简单 marketplace，而是一条 agent intelligence supply chain。

买方真正购买的是：

某个模型在某类任务上的锯齿状边界地图，以及能够补强这些边界的结构化训练燃料。

八、需要回避的三个陷阱

陷阱一：把 token 当成资产

token 是生产资料，不是资产。trace 也不是天然资产——通过验证的任务解决过程才是资产。

陷阱二：把平台做成低端众包

如果只是”大家来跑任务，跑完给钱”，很容易变成数据标注平台：利润低、作弊多、质量差。平台要往上走，成为 eval designer、task market maker、trace compiler 和 capability intelligence provider。

陷阱三：只奖励成功

只奖励成功会让用户过拟合简单任务，也会丢掉最有价值的失败信息。更好的机制是：成功 trace 有奖励，高质量失败 trace 有奖励，找到 verifier 漏洞有奖励，写出 correction/postmortem 有奖励，形成 reusable skill 有奖励。

另外，还有一个值得警惕的风险：不要把商业叙事建立在”套利第三方订阅额度”上。用户可以使用自己合法可用的工具完成任务，但平台不应强调”帮你把 Cursor / Claude Code 的剩余额度变现”。更安全的表述是：

用户贡献的是自己的 agent execution capacity、人工判断、任务执行过程和经授权的 trace；平台交易的是 verified trace asset，而不是第三方 subscription quota。

九、差异化空间在哪里

现有市场形态是分裂的：

Datacurve/Shipd：接近 coding trace bounty 和 agentic workflow data，但更偏 B2B 数据供应商
AgentWork：接近 unused subscription capacity marketplace，但卖的是任务结果，不是 trace
SWE-Gym/SWE-smith：接近 repo task + trajectory + verifier 的研究基础设施，但不是商业产品
ADP：接近 agent trace 数据协议，但尚未产品化
Scale/Turing/Surge/Mercor/DataAnnotation：接近专家数据和 RLHF，但是 B2B curated delivery，不是开放市场

真正有差异化的缺口有四个：

缺口一：trace 交易而不是任务交易。 trace as asset，experience as derivative，skill as derivative，failure cluster as derivative，capability pack as final product。

缺口二：failure trace 和 correction trace 商品化。 大多数平台天然更喜欢成功答案。但人类指出”为什么这个 patch 虽然过测试但不正确”，或者”多个模型在同一任务上以不同方式失败”——这类数据对模型边界补强非常有价值。

缺口三：能力边界发现市场。 不只是数据市场，而是 capability gap intelligence platform：

buyer posts capability gap
→ platform generates task family
→ community runs diverse rollouts
→ platform clusters failures/successes
→ buyer buys capability patch pack

缺口四：trace 权利账本。 目前很多数据平台强调”我们能生产高质量数据”，但较少公开强调每条 agent trace 的完整权利链。如果平台做成 “trace rights ledger”，这可能是很强的基础设施差异化。

结语

Datacurve 已经验证了”coding trace / agent workflow trace 对模型实验室有商业价值”这件事。 差异化不能只是”我们也收 trace”，而要在开放市场、权利账本、failure trace、trace distillation、capability pack 上做出不同。

平台的核心叙事应该是：

Trace is the new training substrate for agents. We turn verified agent work into reusable model improvement assets.

中文可以是：

我们把经过验证的 agent 工作过程，转化为可复用、可交易、可训练的模型能力资产。

这不是”把剩余 coding plan 拿去转卖”的平台，而是一个”任务 → 执行 → 验证 → 轨迹 → 蒸馏 → 交易”的 trace data foundry：用低边际成本的推理额度，生产可验证、可复用、可购买的 agent 行为数据。

其中真正有价值的不是 token，也不是单条 chat log，而是：在一个明确任务环境中，模型如何尝试、失败、修正、调用工具、修改代码、通过验证，并留下可复现的过程证据。

@misc{dong2026tracefoundry,
    author = {Dong, Peijie},
    title = {Trace Data Foundry：当 Agent 执行轨迹成为可交易的模型能力资产},
    year = {2026},
    month = apr,
    day = {29},
    howpublished = {\url{https://pprp.github.io/tech/trace-data-foundry/}},
    url = {https://pprp.github.io/tech/trace-data-foundry/},
    urldate = {2026-04-29},
    note = {Blog post. Accessed: 2026-04-29},
    language = {Chinese}
}