多年来,科技巨头的首席执行官们一直宣扬AI智能体(AI agents)的愿景 —— 这类智能体可自主使用软件应用为人类完成任务。但如今将消费者级 AI 智能体(无论是 OpenAI 的 ChatGPT Agent,还是 Perplexity 的 Comet)投入实际使用便会发现,这项技术的局限性仍十分明显。要让 AI 智能体具备更强的稳健性,或许需要行业尚未完全探索出的一系列新技术支持。
其中一项技术便是精心模拟 “工作空间”,让智能体在其中接受多步骤任务训练 —— 这种 “工作空间” 被称为强化学习(reinforcement learning,简称 RL)环境。正如带标签的数据集推动了上一波 AI 发展浪潮,强化学习环境正逐渐成为智能体开发过程中的关键要素。
AI 研究人员、创业者及投资者透露,目前顶尖 AI 实验室对强化学习环境的需求大幅增加,而有意提供此类技术的初创公司也不在少数。
“所有大型 AI 实验室都在内部搭建强化学习环境,” 安德森・霍洛维茨基金(Andreessen Horowitz)普通合伙人珍妮弗・李表示,“但可想而知,创建这类数据集的复杂度极高,因此 AI 实验室也在寻找能打造高质量环境与评估体系的第三方供应商。整个行业都在关注这一领域。”
对强化学习环境的需求催生了一批资金雄厚的新兴初创公司,例如 Mechanize Work 和 Prime Intellect,这些公司均致力于在该领域占据领先地位。与此同时,Mercor、Surge 等大型数据标注公司表示,随着行业正从静态数据集向交互式模拟转型,它们也在加大对强化学习环境的投入以跟上趋势。大型实验室同样在考虑巨额投资:据《The Information》报道,Anthropic 的管理层已讨论计划在未来一年内,为强化学习环境投入超 10 亿美元。
投资者与创业者们期望,这些初创公司中能诞生出 “强化学习环境领域的 Scale AI”—— 这里的 Scale AI 是估值 290 亿美元的数据标注巨头,曾为聊天时代的发展提供了重要支撑。
目前的核心问题在于,强化学习环境是否真能推动 AI 技术突破现有边界。
什么是强化学习(RL)环境?
从本质上讲,强化学习环境是模拟 AI 智能体在真实软件应用中操作场景的 “训练场”。一位创业者在近期采访中形容其构建过程 “就像制作一款非常枯燥的电子游戏”。
例如,某个环境可模拟 Chrome 浏览器,并向 AI 智能体下达 “在亚马逊上购买一双袜子” 的任务。系统会对智能体的表现进行评分,若任务成功(即买到合适的袜子),便会向其发送 “奖励信号”。
尽管这类任务听起来相对简单,但 AI 智能体在执行过程中仍可能在多个环节出错:可能在网页下拉菜单中 “迷路”,也可能误购多双袜子。由于开发者无法精准预测智能体可能出现的失误,环境本身必须具备足够的稳健性,既能捕捉所有意外行为,又能提供有效的反馈 —— 这使得构建环境的复杂度远高于创建静态数据集。
部分强化学习环境设计十分复杂,可支持 AI 智能体使用工具、访问互联网或调用各类软件应用完成指定任务;另有部分环境则定位更细分,专注于帮助智能体学习企业级软件应用中的特定任务。
尽管强化学习环境如今是硅谷的热门技术,但使用这类技术的先例早已有之。2016 年,OpenAI 的首批项目之一便是构建 “RL Gyms”(强化学习场馆),其理念与现代强化学习环境高度相似;同年,谷歌 DeepMind 的 AlphaGo AI 系统击败围棋世界冠军,该系统同样在模拟环境中采用了强化学习技术。
如今的强化学习环境之所以具有独特性,在于研究人员正尝试结合大型 Transformer 模型,打造能 “使用计算机” 的 AI 智能体。与 AlphaGo(仅适用于封闭环境的专用 AI 系统)不同,如今的 AI 智能体旨在具备更通用的能力。当前的 AI 研究人员虽拥有更坚实的技术起点,但目标也更为复杂,可能出现的问题也更多。
竞争激烈的领域
Scale AI、Surge、Mercor 等 AI 数据标注公司正积极顺应趋势,着力打造强化学习环境。这些公司不仅比该领域多数初创企业拥有更充足的资源,还与 AI 实验室建立了深厚的合作关系。
Surge 首席执行官埃德温・陈(Edwin Chen)表示,近期已观察到 AI 实验室对强化学习环境的需求 “显著增长”。他透露,Surge 去年通过与 OpenAI、谷歌、Anthropic、Meta 等 AI 实验室合作,营收据称达到 12 亿美元;该公司近期已成立专门的内部团队,负责强化学习环境的搭建工作。
紧随 Surge 之后的是估值 100 亿美元的初创公司 Mercor,该公司同样与 OpenAI、Meta、Anthropic 有合作。TechCrunch 获取的营销材料显示,Mercor 正向投资者推介其核心业务 —— 为编程、医疗、法律等特定领域任务打造强化学习环境。
Mercor 首席执行官布伦丹・富迪(Brendan Foody)在采访中表示:“很少有人真正意识到,强化学习环境领域蕴含的机遇究竟有多大。”
Scale AI 曾在数据标注领域占据主导地位,但自 Meta 投资 140 亿美元并挖走其首席执行官后,该公司的市场份额逐渐下滑。此后,谷歌和 OpenAI 不再将 Scale AI 列为数据供应商,甚至在 Meta 内部,Scale AI 也面临数据标注业务的竞争压力。尽管如此,Scale AI 仍在努力适应趋势,投身强化学习环境的构建。
“这正是(Scale AI)所处行业的本质,”Scale AI 负责智能体与强化学习环境的产品负责人切坦・拉内(Chetan Rane)表示,“Scale 已证明其快速适应的能力:在我们的首个业务板块 —— 自动驾驶领域的早期阶段,我们做到了这一点;ChatGPT 问世后,Scale AI 也成功适应了新趋势;如今,我们再次在智能体、环境等新前沿领域进行调整。”
部分新兴企业从创立之初便专注于强化学习环境领域。成立约 6 个月的初创公司 Mechanize Work 便是其中之一,该公司提出了 “实现所有工作自动化” 的大胆目标。不过,联合创始人马修・巴尼特(Matthew Barnett)向 TechCrunch 透露,其公司目前正从为 AI 编程智能体打造强化学习环境起步。
巴尼特表示,Mechanize Work 计划为 AI 实验室提供少量高稳健性的强化学习环境,而非像大型数据公司那样打造大量简单的强化学习环境。为此,该初创公司为软件工程师开出了 50 万美元的年薪(用于构建强化学习环境),这一薪资远高于在 Scale AI 或 Surge 从事小时工性质工作的报酬。
两位知情人士透露,Mechanize Work 已开始与 Anthropic 合作开发强化学习环境。对此,Mechanize Work 与 Anthropic 均拒绝就合作细节置评。
另有部分初创公司押注强化学习环境在 AI 实验室之外的领域也将产生影响力。由 AI 研究员安德烈・卡帕西(Andrej Karpathy)、Founders Fund 风投、Menlo Ventures 风投支持的初创公司 Prime Intellect,正将其强化学习环境定位为服务中小型开发者。
上个月,Prime Intellect 推出了强化学习环境中心,目标是打造 “强化学习环境领域的 Hugging Face”(Hugging Face 为 AI 领域知名开源社区)。该平台旨在让开源开发者获得与大型 AI 实验室同等的资源支持,同时在此过程中向开发者出售计算资源访问权限。
Prime Intellect 研究员威尔・布朗(Will Brown)表示,在强化学习环境中训练具备通用能力的智能体,所需的计算成本可能高于以往的 AI 训练技术。因此,除了打造强化学习环境的初创公司,为这一过程提供算力支持的 GPU 供应商也将迎来机遇。
“没有任何一家公司能独自主导强化学习环境领域,其规模太大了,” 布朗在采访中说,“我们目前所做的部分工作,只是尝试围绕该领域搭建良好的开源基础设施。我们的核心服务是提供计算资源,这确实是使用 GPU 的便捷入口,但我们更着眼于长期发展。”
能否实现规模化发展?
关于强化学习环境,目前尚未有定论的问题是:这项技术能否像以往的 AI 训练方法那样实现规模化发展?
过去一年,强化学习推动了 AI 领域多项重大突破,包括 OpenAI 的 o1 模型、Anthropic 的 Claude Opus 4 模型等。这些突破意义重大,因为此前用于改进 AI 模型的方法如今正显现出 “收益递减” 的趋势。
强化学习环境是 AI 实验室对强化学习技术 “更大押注” 的一部分 —— 许多人认为,随着在该技术中投入更多数据与计算资源,强化学习将持续推动 AI 进步。OpenAI 负责 o1 模型的部分研究人员此前透露,该公司最初之所以投资 AI 推理模型(通过对强化学习和测试时计算的投入开发而成),正是因为他们认为这类模型具备良好的规模化潜力。
目前,强化学习实现规模化的最佳路径尚不明确,但强化学习环境似乎是颇具潜力的方向。与仅通过文本回复奖励聊天机器人不同,强化学习环境能让智能体在模拟场景中操作工具、使用计算机完成任务 —— 这种方式虽然对资源的消耗远更高,但潜在的回报也更大。
也有部分人士对强化学习环境的发展前景持怀疑态度。曾担任 Meta AI 研究负责人、现联合创立 General Reasoning 公司的罗斯・泰勒表示,强化学习环境容易出现 “奖励作弊”(reward hacking)现象 —— 即 AI 模型为获得奖励而 “作弊”,并未真正完成任务。
“我认为人们低估了环境规模化的难度,” 泰勒说,“即便是目前公开可用的最佳(强化学习环境),若不进行大幅修改,通常也无法正常使用。”
OpenAI API 业务工程负责人舍温・吴(Sherwin Wu)在近期播客中表示,他对强化学习环境领域的初创公司 “持看空态度”。吴指出,该领域竞争异常激烈,且 AI 研究发展速度极快,要为 AI 实验室提供优质服务难度很大。
卡帕西(作为 Prime Intellect 的投资者,曾称强化学习环境可能成为突破性技术)也对整个强化学习领域表达了谨慎态度。他在社交平台 X 的帖子中提出疑问:通过强化学习技术,AI 还能实现多大程度的进步?
“我对环境与智能体交互持乐观态度,但对强化学习本身持悲观态度。” 卡帕西表示。
还没有评论,来说两句吧...