Claude Opus 4.8登顶ScienceQA｜xbench 快报

发表2026.6.1

北京时间2026年5月29日，Anthropic发布新一代旗舰模型Claude Opus 4.8。Opus 4.8是Opus 4.7的升级版，定位是在保持价格不变的前提下，提供跨基准的全面提升与更可靠的工作质量。官方同时预告Mythos级模型将在数周内陆续向客户开放。

在Opus 4.8的官方公开评测中，Anthropic称其在agentic coding、跨学科推理、agentic computer use、知识工作与agentic金融分析等方向较Opus 4.7全面提升，computer use在Online-Mind2Web上达到84%。与此同时，Anthropic将模型诚实度（honesty）作为本代重点优化方向：模型在发现自身代码存在缺陷时选择隐瞒或未主动指出问题的概率，已降至上一代的约1/4。

在xbench的榜单中，Claude Opus 4.8以76.4的平均分登顶ScienceQA，且性价比很高。较GPT-5.5 Pro与上一代Opus 4.7（同为73.0）高3.4分，且跑完500题仅花费$25.6，约为GPT-5.5 Pro（$471.1）的1/18。但视觉理解仍是它的短板，在 BabyVision上以23.45%分数位列中游。

ScienceQA Leaderboard更新

Claude Opus 4.8以76.4的平均分登顶ScienceQA：是榜单上第一个突破75分的模型。较并列前位的GPT-5.5 Pro与上一代Opus 4.7（同为73.0）高3.4分，较Gemini 3 Pro（71.6）高4.8分，较国内最强的Qwen3.7-max（70.8）领先5.6 分。
Claude Opus 4.8的性价比远高于第二名GPT 5.5 pro：Opus 4.8跑完500题 Opus 4.8花费$25.6、单题响应24.27秒，而GPT-5.5 Pro要$471.1、156.99 秒。Claude Opus 4.8便宜约18倍、快约6.5倍。

Claude Opus模型ScienceQA分数趋势

在一年时间里，Claude的知识和推理能力提升明显。从Claude 3.7 Sonnet的46.6到Opus 4.8的76.4，把ScienceQA平均分抬高了近30分。提升分布并不平均，Opus 4.6到4.7单代跳涨14.2分，是整条曲线的拐点，其余各代多为个位数推进。
平均分与BoN的分差收窄，模型稳定性提升。两者差距从Claude 3.7 Sonnet的25.4分差收窄到Claude Opus 4.8的7.6分差，模型不再靠「五次里挑中一次」，而是单次作答就能稳定逼近上限；稳定性是峰值分数外，能体现模型能力的一个重要维度。
在模型平均分不断上升的情况下，推理速度一直保持在的较快的水平。除最早的3.7Sonnet（82.85秒）偏慢，此后各代都在13到40秒之间较为一致，均做了较好的推理效率和Token消耗的优化。

BabyVision Leaderboard更新

视觉理解仍是Anthropic的短板，Claude Opus 4.8以23.45%排在榜单中游。距榜首Doubao-Seed-2.0-pro（62.60%）差39.15分，也大幅落后于Gemini 3.5 Flash（61.86%）与GPT-5.5（54.64%）。

Claude Opus模型BabyVision分数趋势

视觉能力较自家上一代仅微增。Opus 4.8（23.45%）较Opus 4.7（22.94%）提升0.51分，较Opus 4.5（14.20%）提升9.25分。Claude Opus的视觉理解与视觉推理能力仍在持续提升，但相较于OpenAI GPT-4o与Gemini系列，其多模态能力并非当前主要竞争优势。

Claude Opus 4.8：定位与技术看点

Claude Opus 4.8是Anthropic面向复杂推理与长程agentic任务的旗舰模型，本代核心是以相同价格换取跨基准的全面提升与更高的工作可靠性。标准定价维持 $5/M输入、$25/M输出不变，fast mode则以2.5×速度运行、价格较上代fast mode降到约1/3（$10/M输入、$50/M输出）；API模型名为claude-opus-4-8。

Effort控制成为默认入口，按需加码：模型选择器旁新增effort档位，默认 high，可上调extra（或max以多花token换更优结果；high档在编程任务上的 token消耗与Opus4.7默认相近、但表现更好。这与OpenAI让开发者直接设推理深度、Google的Dynamic Thinking自动分配是同一条思考预算可控路线，Anthropic的做法是把默认档调到high并保持与上一代相近的token开销。
Dynamic workflows：单session跑数百并行子agent：Claude Code新增dynamic workflows（research preview，面向Enterprise/Team/Max），可先规划任务、再在单个session内运行数百个并行子agent，自检输出后回报，已能完成跨数十万行代码的codebase级迁移，以现有测试套件为验收标准。
诚实度成为本代重点升级：Opus 4.8更倾向标注不确定、减少无依据断言；官方评测显示其放任自身代码缺陷不被指出的概率约为上一代的1/4，把可靠性而非单纯分数作为卖点。
Computer use进一步整合进主模型：本代强化agentic computer use，官方公布Online-Mind2Web达到84%，延续Anthropic把computer use内置进主模型、而非拆成独立模型的路线。

Opus 4.8这次的信号是同价提质：在定价、推理token路线都不变的情况下，Anthropic把升级重心放到了agentic规模（数百并行子agent、codebase级迁移）与工作可靠性（诚实度提升4倍）上，而不是堆叠跑分。叠加数周内将推出的 Mythos级模型预告，Anthropic在agentic coding赛道上的节奏是先把旗舰做稳、再向上拉代际。

落到xbench实测，Opus 4.8的进步集中在它本就擅长的推理与agentic方向：它登顶了ScienceQA，而在BabyVision代表的视觉任务上仍明显落后于头部模型。Anthropic这一代延续了推理强、视觉弱的整体格局，把提升放在了优势项上。

xbench是红杉中国推出的一款全新的AI基准测试工具。xbench采用双轨评估体系，构建多维度测评数据集，旨在同时追踪模型的理论能力上限与Agent的实际落地价值。并采用长青评估的机制，通过持续维护并动态更新测试内容，以确保时效性和相关性。

网站：https://xbench.org/

联系方式：team@xbench.org