榜单更新!Kimi K2.5表现突出|xbench月报

截至2026年1月底,xbench的3个leaderboard已完成分数更新。Kimi K2.5悉数上榜,表现突出。
xbench近期发布了2个新的benchmark,分别是用来评估模型多模态理解能力的BabyVision,和Agent复杂任务指令遵循能力的AgentIF-OneDay。
- BabyVision:评估大模型的多模态视觉理解能力的基准评测集,https://xbench.org/agi/babyVision
- AgentIF-OneDay:评估通用智能体在日常场景、多附件、复杂任务中的指令遵循基准评测集,https://xbench.org/agi/agentif
xbench采用长青评估机制,持续汇报最新模型的能力表现,更多榜单未来将陆续更新,期待你的关注。你可以在xbench.org上追踪我们的工作和查看实时更新的Leaderboard榜单排名。如果公司已上线发布的产品想参与xbench评测和Leaderboard榜单,欢迎通过team@xbench.org与我们取得联系,反馈意见。
xbench-ScienceQA Leaderboard更新

备注:
- 汇率取 1 USD = 7.1491 CNY
- 本次评估基本涵盖了截至排行榜发布之日主流大语言模型(LLMs)的公开可用应用程序编程接口(APIs),未公开发布的内测模型未列入榜单。
- 如果一家公司有多个模型,优先测试最新版本和官方网站推荐的模型。所有模型均关闭搜索功能。
- 一家公司有多个模型时,排名中保留每家公司的最新模型版本。当同一推理模型存在不同的推理成本时,仅保留得分最高的版本。
截至2026年1月底,Kimi K2.5平均分达到63.2分,与此前的K2相比提升明显,BoN(N=5)达到77分,位于leaderboard第4,在国内大模型中排名第1。在性能提升的同时,运行速度也有提升,同时Token价格下降,更具性价比。

xbench-DeepSearch Leaderboard更新
截至2026年1月底,模型分数更新如下:

- Kimi K2.5:Kimi K2.5达到40+分,跻身榜单第二,仅次于ChatGPT,成为国内模型SOTA。每道题推理仅耗时2-3min,速度提升明显。
BabyVision Leaderboard更新
截至2026年1月底,模型分数更新如下:

- Kimi K2.5:Kimi K2.5得分为36.5,仅次于Gemini 3 Pro排名第二,国内大模型中排名第一。
近期新发布模型和产品总结
Kimi K2.5
Kimi K2.5是月之暗面于2026年1月27日发布的最新一代大语言模型。Kimi K2.5是一款原生多模态模型,将视觉理解、逻辑推理、编程及Agent能力深度集成。
- K2.5 基于约15万亿(15T)混合视觉和文本token进行持续预训练。它能原生理解和处理视觉信息,支持跨模态推理。
- 采用混合专家架构(MoE),模型总参数量约为1万亿(1 Trillion),在推理时激活参数约为320亿(32B),在保证高性能的同时维持了推理效率。
- 支持超长上下文,有版本的均支持256k token的上下文窗口,能够处理长文档和复杂的上下文记忆。
- 集成多模态视觉编码器,用于将图像/视频等非文本信号转换为模型可理解的向量表示。
Kimi K2.5正在从长文本向着多模态+智能体的全面进化,它不仅能“读”和“写”,还能通过视觉“看”懂需求,并组织多个AI智能体协作完成复杂工作。
Google Genie 3开放测试
Genie 3是Google DeepMind 2025年推出的通用世界模型(general-purpose world model):你给它一段文本描述(也可结合图片提示),它就能生成可实时(24 fps)探索、可交互的环境,可用于快速生成“类游戏”的可探索世界、交互式内容创作,以及作为智能体/机器人在仿真环境中训练与测试的基础设施。
Environment: “34th Street–Penn Station”
Character: “Discarded pack of cigarettes”
Google 4D Model
Google DeepMind 的 D4RT(Dynamic 4D Reconstruction and Tracking) 提出一种把“静态3D重建+动态物体追踪”统一起来的4D建模框架:模型先用大型 Transformer对整段视频编码成全局场景表征(可理解为长期记忆),再用“时空查询(spatiotemporal querying)”的方式对任意时间、任意像素/视角发起并行查询,直接输出对应的几何信息(如深度、3D位置、跨帧3D轨迹等),从而把传统多模块串联的流程变成一个统一的可并行推理接口。可成为为Genie系列的4D数据引擎。
Runway GWM
Runway 的GWM(通用世界模型)乃是基于Runway Gen 4.5模型架构,通过将双向扩散模型进行蒸馏处理,进而将其转换为自回归扩散模型。具体应用如下:
- 机器人:GWM Robotics是一个学习性模拟器,用于生成合成数据,以实现可扩展的机器人训练和政策评估,从而消除物理硬件的瓶颈。具体来说,它是一个在机器人数据上训练的世界模型,能够根据机器人动作预测视频序列。并且,这个模型支持反事实生成,能够探索替代的机器人的轨迹和结果。
- 实时世界模拟与探索:开放式交互式世界模拟,能够在实时中构建无限可探索现实的方法。
- 实时虚拟形象:GWM虚拟形象是一种音频驱动的交互式视频生成模型。它能够模拟自然的人类动作和表情,适用于任意逼真或风格化的角色。该模型在说话和倾听时,都能够渲染逼真的面部表情、眼球运动、口型同步和手势,并且支持长时间对话而不出现质量下降。