Gemini 3.5 Flash性价比惊艳｜xbench 快报

发表2026.5.22

北京时间2026年5月19日，Google I/O 2026开发者大会正式开幕。Google一次性放出了两款新模型，面向agent与coding的Gemini3.5 Flash，以及”any-to-any”原生多模态生成模型Gemini Omni（首发版本Omni Flash）。

在Gemini3.5 Flash的官方公开评测中，其在Terminal-Bench2.1、MCP Atlas、Finance Agent v2等agentic与coding基准上的得分全面超越上一代Gemini3.1 Pro，同时官方API价格仅为3.1Pro的约60%，输出速度被官方描述为”4x faster than other frontier models”。在xbench的榜单中，在Gemini 3.5 Flash的性能没有明显下降的情况，性价比、推理token消耗、响应速度方面，显著好于GPT5.5 pro和Opus4.7，同样任务的API花费只有GPT-5.5 Pro的1/100。

ScienceQA Leaderboard更新

Gemini3.5 Flash在xbench-ScienceQA榜单上的位置：

Gemini3.5 Flash在ScienceQA上为70分，位列第四，仅次于GPT5.5 pro、Opus4.7和Gemini3 pro；较上代Gemini3 pro分数略有降低，但是速度提升3倍，花费下降近40%。
同样500道题目，SOTA的GPT-5.5 Pro花费$471，Gemini3.5 Flash分数相近的情况下，仅仅花费$1.9，不足GPT的1/100，甚至比大部分国内模型还便宜。Token消耗数量，也只有其他模型的10-20%。体现了极致的性价比。

Gemini3.5 Flash：用Flash的价格做Pro级别的Agent

Gemini3.5 Flash在平均分上接近Gemini3 Pro，但响应时间缩短至1/3、500 题花费降至$1.9，把Pro级别的科学问答能力下放到Flash价位。

从上图可以看出，新发布的3.5 Flash模型在能力上紧贴着Gemini3 Pro，但同时在价格和延迟上显著优于Pro模型。

平均分70.0 vs Gemini 3 Pro的71.6，差距只有1.6分。但往前看一代Pro（Gemini 2.5 Pro 59.4），差距是10.6分。也就是说，今天的Flash模型从能力上看，基本已经能盖过去年同期的旗舰Pro，且优势接近一个完整代际。
价格和延迟才是这次的杀手锏。Gemini3.5 Flash把单题响应时间从Gemini3 Pro的48.62秒压到15.4秒，快3倍；跑完500题的总账单从$3.0降到$1.9，便宜37%。

BabyVision Leaderboard更新

Gemini3.5 Flash在BabyVision榜单位列第二，仅次于Doubao Seed2.0 pro，优于GPT5.5与Gemini3.1 pro。
Gemini3.5 Flash在能力和性价比方面均优于国外其他主流模型。虽然对比Doubao Seed2.0 pro，Gemini3.5 Flash的得分略低，同时价格也并不占优，但是对比GPT5.5和Gemini3.1 pro，3.5 Flash模型在得分和性价比方面都是更优秀的。

OneMillion-Bench Leaderboard更新

Gemini3.5 Flash

Gemini3.5 Flash是Google针对agent时代推出的高并发、低延迟Frontier模型，核心定位是在保持极致速度与高性价比的同时，下放旗舰级的智能体（Agentic）与编程执行力。专为快速迭代的agentic loop设计，在长周期、复杂repo的多轮代码调试与子智能体部署中，提供不输旗舰大模型的交付质量。同时，相较于同级别旗舰模型，其有4倍的高吞吐、超低延迟以及更具优势的API价格。

Agentic execution栈被进一步前置，用最低价位的Flash模型跑完整agent loop成为现实。Gemini3.5 Flash把此前pro版本才有的long-horizon planning、tool calling、parallel agent execution下放到Flash层级。在xbench的实测中，在ScienceQA的复杂推理任务中，3.5 Flash用极低的成本，达到头部梯队的分数；BabyVision视觉任务上3.5 Flash直接以61.86的平均分大幅领先 Gemini 3 Pro的49.70。

Dynamic Thinking默认开启3.5Flash默认开启动态推理预算分配，可以根据任务复杂度自动调节思考长度。这与OpenAI/Anthropic对thinking token的精细控制策略有所不同：Anthropic的路线分歧明显：OpenAI的o-series和GPT-5.x让开发者直接设置推理深度，Anthropic的Opus4.7有thinking budget，可以在agent loop里被task budget进一步约束。
3.5 Flash的发布同步配的是Antigravity2.0。这次的更新点有三个。（1）新增CLI，把agent能力搬到命令行，直接对位Codex CLI和Claude Code。（2）新增SDK，开发者可以把Antigravity的agent loop嵌进自己的服务，不再只能在Antigravity IDE里跑。（3）最后是Managed Execution，Google托管的agent运行时支持并行子agent编排，一个主agent fan out到多个子任务的形态，
仍缺席的能力Computer Use：值得注意的是，Gemini3.5 Flash本次未携带Computer Use能力，仍需调用单独的Gemini2.5 Computer Use模型。这与Anthropic把computer use整合进Opus4.7主模型的路线形成对比。

Gemini Omni：从”理解多模态”到”生成多模态”

Gemini Omni是Google本次发布的另一条关键路线，定位为any-to-any原生多模态生成模型：用户可以同时输入图像、音频、视频与文本，模型不是把这些素材拼接起来，而是在一个统一的表征空间内跨模态推理后再生成视频/图像输出。首发版本Gemini Omni Flash面向消费级用户，可生成10秒视频。

统一表征而非桥接：与”文本预训练后再外挂视觉/听觉编码器”的方案不同，Omni从预训练阶段就让多模态共同演化。这呼应了我们在4月月报中提出的判断——视觉正在从”补丁”变成模型推理链条的原生组成部分。
物理一致性与世界知识：官方demo强调Omni在物理、文化、历史、科学等维度的世界知识，是对Veo此前主打”视觉质量”的明显进阶。
首版限制：10秒时长、消费级渠道优先、API延后发布。Google同时宣布将推出Omni Pro，但暂未给出时间表。
可追溯性：所有Omni生成内容自带SynthID水印；涉及Avatar生成需身份验证。

Omni的发布对当前多模态生成赛道的影响在于：原先在视频生成上各家分别拥有的能力（Sora-2、Veo、Pika、Runway、Kling等），将被Google以一个统一any-to-any接口重新整合进Gemini产品线，且首发即接入YouTube Shorts这种亿级日活分发渠道。