Dynalang——一种使用语言学习世界模型的AI新技术

译者 | 朱先忠
审校 | 重楼
简介这篇文章是我们对人工智能最新研究报道的一部分 。
人工智能梦寐以求的目标之一是创造出能够通过遵循自然语言指令在现实世界中有效完成任务的智能体 。大型语言模型(LLM)在实现这一目标方面取得了重大进展,展示了处理定义明确的任务的令人印象深刻的能力 。然而,它们的能力目前还是有限的——在面临需要更广泛了解世界的任务时往往达不到要求 。
加州大学伯克利分校科学家的一篇新研究论文提出了应对这一挑战的创新方法 。本文介绍了一种名为Dynalang的新技术,旨在设计能够借助自然语言学习世界模型的强化学习代理 。这种方法不仅仅是教人工智能执行任务;而且还使得人工智能能够理解其所在环境的上下文,并更有力、更高效地执行任务 。
物理世界中的大型语言模型PaLM-SayCan使用大型语言模型(LLM)使机器人能够用自然语言执行指令(来源:谷歌博客,地址:https://AI.googleblog.com/2023/02/google-research-2022-beyond-robotics.html) 。
LLM的最新进展在各个领域引发了一波热潮,包括机器人和现实世界中的任务执行代理 。LLM的一个非常有前景的方面是它们能够弥合语言和视觉数据之间的差距,从而产生视觉语言模型(VLM) 。
VLM能够将文本映射到视觉数据;反之亦然,这一功能已在不同的应用领域中得到利用,包括文本到图像模型和AI图像搜索领域 。这项技术的一个更先进的应用是将自然语言命令映射到现实世界中的动作 。这有时被称为“具身语言模型”(Embodied Language Models) 。
如今,已经出现一些技术,其将强化学习与VLM相结合,以训练能够执行特定指令的代理 。
然而,当前的模型有它们明显的局限性,例如,它们擅长执行非常特定的任务的命令,例如“拿起蓝盒子” 。不过,最近的进一步研究成果能够为这些命令添加上一层抽象,使VLM驱动的代理能够理解和执行更复杂的指令,例如“捡起代表灭绝动物的玩具” 。
但在现实世界中,命令和话语往往与上下文有关 。例如,如果是洗碗或上菜,“我把碗收起来了”这句话对代理来说可能意味着不同的事情 。加州大学伯克利分校的研究人员指出,“当语言不谈论任务时,它只与代理应该采取的最佳行动弱相关 。”
最近,研究人员提出了一种不同的方法 。他们建议,与其训练代理立即完成任务,不如先训练他们在语言指令的帮助下学习世界模型来预测未来 。研究人员写道:“与下一个表征预测如何允许语言模型形成世界知识的内部表征类似,我们假设预测未来表征为主体理解语言及其与世界的关系提供了丰富的学习信号 。”
这种方法可以帮助人工智能代理了解其环境的上下文,从而更有力、更高效地执行任务 。
Dynalang

Dynalang——一种使用语言学习世界模型的AI新技术

文章插图
Dynalang使用语言更好地学习世界模型(来源:Github)
加州大学伯克利分校的研究人员提出了一种名为Dynalang的技术,他们将其描述为“一种从在线体验中学习语言和图像世界模型并使用该模型学习如何行动的代理 。”这项技术的方法独特,并提供了两种不同的训练模式 。
首先,Dynalang学习通过文本和视觉观察来对世界进行建模 。研究人员解释说,“我们训练世界模型,当代理在环境中行动时,利用在线收集的经验来预测未来的潜在表征 。”这种方法反映了人类用来将环境中的观察结果映射到语言的一种自我监督学习形式 。研究人员称之为“语言条件世界模型” 。值得注意的是,Dynalang是多模态的,这意味着它不仅预测文本,还支持预测未来的视觉表现 。
其次,Dynalang通过对世界模型和任务表征的强化学习来学习其行动策略 。研究人员写道:“我们训练政策采取行动,最大限度地提高任务回报,将世界模型的潜在代表性作为输入 。” 。
【Dynalang——一种使用语言学习世界模型的AI新技术】从本质上讲,Dynalang旨在通过语言和视觉观察来学习一个世界模型,然后使用这个模型来学习如何在各种环境中有效地行动 。这种方法可能会在不同的环境中增强人工智能代理的稳健性和效率 。
Dynalang的工作原理加州大学伯克利分校的研究人员利用不同机器学习技术的巧妙组合开发了Dynalang 。Dynalang的核心是一个旨在执行动作的人工智能系统,其结构基于强化学习循环 。这个循环由代理、环境、操作、状态和奖励组成 。Dynalang的根本目标是培养一个能够最大限度地提高回报的代理 。


推荐阅读