跳到主要内容

AI Agents:从工具到伙伴 | 2025 HongShan AI Day

当大模型成为AI时代的基础设施,Agents将走向哪里?

昨天,我们在刚刚结束的AI Day上给出一个参考答案。红杉中国第三届AI Day以“AI Agents:From Copilot to Colleague”为主题,为200多位成员企业CEO和技术高管组织了一场脑力交锋和技术激荡的峰会。

在Agentic AI临近“从工具到伙伴”的转折点时,AI创业公司的发展迎来巨大的结构性机遇。在大会上,致力于彻底改变具身AI和物理AI的Genesis,以及要为用户提供“全能执行”的Manus分享了他们背后鲜为人知的故事;全球化的讨论给中国AI创业者未来发展模式带来全新思考;此外,我们把AGI的发展主线横切开来,带来具有纵深感的“温故知新”,更是探讨了如何在AI的“下半场”,用“更好的问题”去判断基础模型和Agent的能力。

红杉中国合伙人周逵在开场致辞中,从AI技术进化、AI产品特征、AI公司特征、AI商业模式以及未来智能公司的竞争态势和结果等多个维度,分享了他对AI当下发展与未来走向的思考和见解。他表示,AI是人类技术进步的新里程碑, “具身”的含义好似给现实生活的各类存在都能带上“大脑”的机会。他说:“无论是‘硬’的机器人还是软的‘Agent’,共同特点都是在获得信息同时有进一步交付的能力。企业选择Level 2还是Level 4的智能目标,导致的智能能力和商业结果大不相同。”他尤其期待看到“世界模型”的重要进展,期待下一个AI智能的Aha Moment出现。

Genesis创始人及CEO周衔和红杉中国合伙人公元进行了连线对话。周衔表示,具身人工智能技术的发展,大概率不会出现陡然的转折点。人们或许会目睹机器人逐步渗透进一些To B的应用场景,在这一阶段,它暂时无需与人类开展复杂的交互。随着技术的经年打磨与渐次升级,其能力将得到稳步提升,逐步迈向家庭领域,成为人们日常生活中的得力助手。若持乐观态度,机器人技术有望在约3年左右实现关键性突破,迎来真正意义上的商业化转折。

红杉中国合伙人郑庆生在演讲中表示,目前,全球贸易中约四分之三仍由货物贸易主导,服务贸易尤其是高端脑力劳动的全球流动,仍面临语言、流程、规则等多重障碍。然而,随着AI Agent的兴起,这一格局正悄然改变。Agent能够直接承载知识、技能与决策能力,绕开传统结构化流程,将智力劳动以“结果”的形式跨越边界、高效传递。这意味着,未来的贸易不仅是货物在流动,更是思维和创意在流动。我们正站在“智力全球化”的起点。因此,创业者应该“忘记出海,生而全球”。

Manus Al联合创始人及CPO张涛在新加坡通过视频连线向大家介绍了Manus的核心理念和诞生故事。他表示,人类的大脑是有局限的,所以人们才会有分工,但对于AI而言则没有这些局限。但是,语言模型相对于人类而言,处理context(上下文、语境)的能力存在很大不足。所以,Manus的核心设计思想就是打造一个“Single Agent”,把重点放在“context”上面,不会过多干涉语言模型的思维过程,专注于“more context,less control”。

红杉中国合伙人公元以“如何在AI下半场定义‘好问题’”为主题,向参会嘉宾介绍了红杉中国推出的一款全新AI基准测试工具xbench。

“当大家纷纷考满分的时候,到底是学生变聪明了还是卷子出问题了?”公元问大家。

她表示,此前市场上针对大模型的各种评测集,都快速地被大模型做出满分,并形成了一个循环:当一套题被大模型“刷爆”到满分以后,新的考试卷又推出越来越难的题目,过段时间这些题再度被大模型“刷爆”。这就引出了两个问题:一是大模型的解题能力虽强,但实际效用(例如经济价值)是否与之相匹配;二是不同时间维度上的大模型能力如何比较——“今年得到20分的大模型真的比去年得满分的大模型差吗?”

公元表示,xbench想要打造AI能力评估的新范式,致力于解决这些问题。其具有双轨评测长青评估体系等两大特点。

一方面,xbench打破惯性,为现实世界的实用性开发新颖的任务设置和评估方式,打造了双轨测评体系:AGI track用于验证AI基础能力;Profession Aligned聚焦现实生产场景,从市场和业务视角来评估实用性。据她介绍,xbench Profession Aligned评估集的每个任务预设TMF(Technology-Market Fit)目标,一旦Agent达标则停止更新,评估难度追求实际匹配,而不是持续变难。

另一方面,xbench通过数学模型,将此前波动分数转化为单调递增的能力曲线,这样就能在评估题库和模型都在迭代的情况下,清晰看到AI能力的真实成长轨迹。(请点击此处阅读更多xbench相关内容)

由红杉中国副总裁李广平主持,璇星科技CEO胡世超、言创万物联合创始人及COO刘晓春和ONE2X CEO王冠就“AI Agent的演进与突破”进行了一场圆桌对谈。

王冠表示,Agent的关键所在是具有“泛化性”,能完成传统模型无法覆盖的任务,其定义包含三个层次:模型智能、专家智慧(行业私有知识)与用户智慧(使用反馈)。关于Agent领域的创业机会,核心是要考虑项目的经济价值和生产成本,此外还必须要有可以抽象的生产方法,例如艺术类的项目,只要能抽象出方法,这个项目就能变成一个模型,任务就可以学习和优化,就可以随着数据积累享受到模型技术的发展。

刘晓春对“泛化性”表示了肯定,并表示Agent的核心在于其自主完成较大颗粒度任务的能力。他强调,Agent的本质特性是“思考能力”与“工具使用”的结合,它突破了专业壁垒——可以让个体发挥团队级能力。创业机会上,他看好需要和真实世界产生多重连接的方向,尤其在结合真实世界知识(如教育、旅游行业)等垂直场景中,Agent将成为连接通用大模型与行业落地的关键枢纽,可以为通用大模型提供更多的真实世界的知识。

胡世超认为,Agent和以前的模型、软件的区别一方面在于交互方式——从传统按钮操作转向多模态自然交互,另一方面在于它总会给人带来“惊喜”——它会充分利用工具,通过自主决策与工具链调用完成端到端任务,例如在求职的场景中,Agent能够据不同公司的品牌特点生成个性化的简历。技术方向上,他提出,Agent需突破上下文管理的瓶颈以实现更长期的连续性任务执行,如果在2-3年内在此方向有所突破的话,Agent领域将实现爆炸性的发展;同时,Agent与工作流应融合而非对立,通过协同解决实际问题。

拾象科技CEO李广密则为大家分享了在基础模型训练视角下和硅谷视角下关于AGI主线的最新思考。

他分享了对2025年LLM的7个关键判断:一是智能本身就是最大的应用,应该围绕智能本身去投入;二是Pre-training(预训练)的空间仍然巨大,基础模型的预训练远未结束,而预训练是新能力涌现的关键;三是AGI的路线图已经开始分化,头部玩家如OpenAI和Anthropic选择了不同的发展路径;四在LLM的竞争格局中,OpenAI和Anthropic占据了绝对的领先优势;五是Online-learning(在线学习)允许模型自主探索并学习,会造就“堪比爱因斯坦的AGI”,是一种新的范式级路线;六是Coding+Agentic AI将成为AGI时代类似抖音和微信级别的机会,现在离各种Agent应用大爆发还差一步——就等“Long Context”问题得到解决,未来3年将是这一领域发展的关键窗口期;七是到2030年前,将有多家市值超过10万亿美元的公司诞生,这将标志着AI时代经济价值的巨大增长。

在主题为“搭建未来型企业”的圆桌论坛上,红杉中国合伙人张涵、红杉中国董事总经理丁飞洋和红杉中国合伙人缪海源进行交流并分享了各自的观点。

张涵表示,目前AI Agent的热潮和十几年前移动互联网应用大量出现时的状态很相似,各类新产品如雨后春笋般出现。当下AI agent领域早期公司融资市场情绪偏乐观,企业想要寻求投资,需要创始人对人工智能、大模型相关技术发展有深刻认知和足够的趋势判断力,对业务切入方向洞察深入且细致,团队强执行力和高迭代速度,就有可能打动投资人。此外,张涵提到,如果企业未来想要发展成一个国际化的公司,构建包含人力、品牌、财务、合规、法务等模块的海外架构是必要的。同时,除了用AI和新技术的构建提高企业的流程效率和竞争力,国际化企业更重要的是高效的人才吸引及管理,并通过全球人才协同创造价值。

丁飞洋分享了她对AI时代品牌传播变化的思考和洞察。她表示,AI技术深刻重塑了内容创造和品牌传播的方法论,但品牌护城河的建立“万变不离其宗”,依然是持续与用户建立健康的、可持续的互动,不断展现自己独特和有辨识度的品牌调性。AI时代,信息传播的渠道和方式正在发生快速变化,这就要求企业更加精准地把握核心受众与各相关方的关注点,把握好信息分发的源头和渠道,让新技术去持续赋能品牌与人的互动。此外,她认为,对于AI领域的创业者而言,技术创新和能力领先很重要,扎实丰富的品牌内容和社群加持同样很重要。

针对AI时代的组织形态变革,缪海源指出,未来很多企业的规模可能趋向小型化,组织架构更趋扁平化,公司尤其是创业公司的人效将显著提升。在此趋势下,企业管理成本虽有望降低,但管理难度也会相应增加。对于创始人CEO而言,精准匹配岗位人才的价值将愈发凸显,这对其招聘能力提出了更高要求。当组织成员人效持续提升且普遍运用AI工具时,CEO的个人领导力也将面临全新挑战。另外,如果企业要进入全新海外市场,一定要“谋定而后动”,把团队搭建和人才布局像沙盘一样推演一遍。

除了上述嘉宾外,我们还邀请了Google Cloud北亚区AI业务总经理陈雷和亚马逊云科技(AWS)首席人工智能专家邓明轩,他们各自就谷歌的AI策略和LLM Agent自然语言的解析与执行等两个话题进行了分享。陈雷表示,2025是AI创新的真正开始。他结合谷歌的AI策略,阐述了“AI不是构建一个模型,而是构建端到端的平台”的深刻洞察。邓明轩在演讲中提出,LLM Agent不应仅是副驾驶,而应成为数字员工,解析和执行复杂任务。因此,创业公司需要在新的技术环境下重新定位自身价值。