1美元Token撬动4800美元收益!AI挑战百万美元级基准,最赚钱的Agent出现了

如果有价值100万美元的顶级专家任务,今天的AI能完成其中多少?
答案是:48万美元,而你只需要支付约100美元的Token费用。
这个数字并非凭空捏造。xbench联合Humanlaya Data Lab、北京通用人工智能研究院(BIGAI)、M-A-P,招募了来自Morgan Stanley、世达(Skadden)、协和医院、中国电网、清华大学等顶级机构与学府的100多位资深专家,耗时2000余小时,构建了等价于人类专家工作价值百万美元级的评测基准——$OneMillion-Bench。
xbench的双轨评估体系分为AGI Tracking赛道与Profession Aligned赛道,分别用于追踪模型的智能上限,以及在真实商业工作流中的效用价值。此次发布的 $OneMillion-Bench,正是xbench中Profession Aligned的重要实践,覆盖金融、法律、医疗、自然科学与工业五大领域,均为是真实行业场景下的开放专家任务。
随着OpenClaw的爆火,人们越来越关注AI Agent到底能真正在业务线上替人类扛下多少KPI。$OneMillion-Bench的核心逻辑极其直接:用“人类专家的时间与成本”给任务定价,再用“是否满足专家要求”来衡量模型的交付质量。如果把AI当成“数字白领专家”,面对总价值100万美元的任务池,大模型到底能凭真本事赚到多少钱?

Agent能挣钱成为日常,但行业更缺一把尺
可交付、可复核、可控
从2025年Agent元年至今,AI正迅速从“答题机”进化为“数字员工”。但业界现有的评测集普遍存在缺乏对实际经济价值的衡量,区分度不足,且往往局限于英文语境。为此,$OneMillion-Bench构建了一套兼备高经济价值×高区分度×可自动评测的全新基准。
该基准包含400道高难度的题目(200道英文+200道中文),深度覆盖金融、法律、医疗、自然科学与工业五大硬核领域的的92个三级领域。与常见的考试题不同,这里的每一道题都是真实行业场景下的开放式专家任务,采用Rubrics +LLM as Judge进行评测。在这些开放问题上,不仅回答“是什么”,更要说明“怎么做、按什么顺序做、为什么这么做”。

为什么是$OneMillion?因为这些任务在现实中真的很“贵”。
不同于传统只评估模型准确率的榜单,我们用“钱”来标价每一道题的现实劳动价值 :
任务经济价值=资深专家完成该任务的耗时×专家时薪。
时薪锚定官方或行业权威数据,如中国部分城市人社局、美国劳动统计局,任务的耗时来自多个领域专家的共同评估。据此,把所有任务的经济价值加和计算后,超过了100万美元。如果在现实世界里把这些工作交给资深专家团队完成,你需要支付的成本就是百万美元量级。这样一来,模型评测不再停留在分数上,而是更直观地回答:AI现在到底能稳定交付多少“可兑现价值”,以及距离真正上岗还差什么。

$OneMillion-Bench经济价值计算
四大关键设计
还原真实商业环境
- 高价值任务:经济价值出发,构建高真实性、高含金量专家任务
我们在评测中引入用货币度量的“经济价值”,核心是衡量模型在真实世界中能创造多少可交付的经济价值。开放式问题很难用单一标准答案衡量,我们邀请一线资深专家将真实工作流拆解为细颗粒度考点:每道题设计15–35个考点,累计 7000+考点。题目覆盖5–15年经验从业者在真实场景中常见的典型任务,专家来自各类头部机构,不只考知识点,更考验特定场景下的专家级决策能力。
- 非对称负分机制:引入负分项,防止Reward Hacking
在开放式任务里,模型最容易走向“越说越多、看起来越专业”,企图盲猜考点得分。为了避免虚高,我们加入行文逻辑和结构、扣分项考点。模型如果只是堆砌内容,没有合理的逻辑展开,无法“撞到”高分。在考点分值设置上,我们采取+10~ -20的非对称考点分值:正向能力给分更克制,明确或致命错误惩罚更重。这完美贴合了真实职场体感:做对是本分,做错代价惨痛。
- 多样化真实场景:覆盖92个三级分类,含CN+Global两大子集单独区分中国大陆题目
将任务细化到覆盖92个三级分类的真实岗位工作流。设立独立的中文(CN)和英文(Global)子集,收集本地化、真实的题目,高度还原本土真实的法规、流程与业务语境,更精准刻画不同模型在特定地域业务场景中的能力差异。
- 高质量与一致性:一套“像生产线”的专家Pipeline,让高难Rubrics题可规模化、可质控
为了确保数据场景真实、考点合理,团队在专家招募、选拔与培训上投入大量成本,专家平均整体通过率低于5%,题目最终质检通过率38.1%。数据生产采用3-4名专家协作的Pipeline,包含对抗性评审与仲裁机制。在难度控制上,我们采取双向截断策略,剔除过易样本,对于过难样本二次复审,确保数据质量。

题目示例
成绩单解读
SOTA的分数已经合格,但距离交付仍有距离
成绩单显示,目前最强模型的通过率已超过40%。在100万美元的任务池中,它们大约能产出等价于50万美元的工作量,而消耗的API成本仅约100美元!AI在极高难度、极高单价的专业任务里,已经可以交付相当客观的价值。

模型的平均通过率、平均分和可以产生的总经济价值
- Insight 1:成绩已经合格,但离“可托付”还很远
如果只看平均分,头部模型已经进入了合格区间(60%+),第二梯队也普遍在 50%以上,说明AI在专业任务上确实能覆盖不少关键点。但在真实工作里,平均分其实不够用,未达到一定质量需要返工。因此,我们引入了更贴近落地的指标 ——通过率(Pass Rate):单题得分达到70%及以上,本题才算“通过”。
基于这个定义,本榜单的Economic Value(经济价值)也不是按平均分线性折算,而是严格按“可交付”口径计算,只有通过的任务才计入“能赚到的钱”。平均分像“考试成绩”,而通过率才是“上岗证”。
而从通过率的视角来看,即使是排名第一的Claude Opus 4.6 Web Search,也骤降到43.5%,即只有45%左右的任务可以通过验收,第二梯队多在25~30%区间徘徊。换句话说,平均分看起来“能用”,但能在一半以上任务里稳定达到可交付标准的模型,目前还不存在。
目前,AI已经能稳定交付一部分题目、并且能赚到很可观的价值,但榜单也清楚告诉我们另一半真相:举例放心交给它完成白领的完整工作流”还有相当一段路程。
- Insight 2:Web Search是一把双刃剑
Web Search工具调用通常能显著补齐事实,尤其在经济金融领域的时效性问题,同样适用于医疗、工业、法律的条文与定义。
但它也会引入噪声与“看似权威的错误来源”,从而出现波动甚至回退。下一阶段竞争不只是“有没有搜索”,而是“会不会搜索”以及搜索工具的效果如何:会不会选源、会不会交叉验证、会不会把证据链写进推理、会不会在噪声下保持一致性。
- Insight 3:复杂推理仍是通用瓶颈,方向正确但缺乏可执行的细节
模型擅长写一段看起来连贯的解释,但一旦任务需要深层理解、多步演绎、或在巨大可能空间里探索,就仍会出现深度不足与准确性波动。典型例子包括软件工程、机器学习相关任务中的探索式问题。这类任务必须先建立结构,再做推导,再做反证,再回溯修正。模型往往会在中途跳步,或者用看似合理的叙述替代真正的推理。
此外,模型容易给出方向正确但是缺乏可执行细节的回复。比如在医疗场景下,需要的是可执行的临床要素,但模型容易泛泛而谈,遗漏关键点。自然科学任务里存在类似的对实验条件的预期不足、对约束不够细、机制链条理解浅。这种失败在真实落地里杀伤力很大,因为它看起来“很对”,但没有可实践的信息量。
One Step Further
将模型推进到“可交付”的下一步
AI已经从实验室的学术概念真正走向了大众的日常生活,如今的AI在日常问答、通用文本生成、编程等领域展现出了惊人的能力。$OneMillion-Bench期待能评估AI在更多高门槛的专家任务中发挥核心价值,变得更稳定、更可复核、更可控,让智能的边际提升,直接且无缝地转化为企业的生产力与真实收入。AI不再仅仅是一个提高基础效率的辅助工具,而是进化为能与各领域顶尖人类专家并肩作战的数字员工。
更多详细内容,欢迎进入Humanlaya官网Blog:
Website
xbench: https://xbench.org/
Humanlaya:www.humanlaya.com
BIGAI:https://www.bigai.ai
M-A-P:https://huggingface.co/m-a-p
Blog
Paper
https://arxiv.org/abs/2603.07980
Github
https://github.com/humanlaya/OneMillion-Bench
Huggingface
https://huggingface.co/datasets/humanlaya-data-lab/OneMillion-Bench