新闻动态

  

具身智能(Embodied Artificial Intelligence, ,,, ,, ,简称 EAI)将人为智能融入机械人等物理实体, ,,, ,, ,赋予它们感知、进建和与环境动态交互的能力。。。。。。。本文简要回首了 EAI 的汗青、当前发展以及将来瞻望。。。。。。。

具身智能(Embodied Artificial Intelligence, ,,, ,, ,简称 EAI)将人为智能融入机械人等物理实体, ,,, ,, ,赋予它们感知、进建和与环境动态交互的能力。。。。。。。本文简要回首了 EAI 的汗青、当前发展以及将来瞻望。。。。。。。

EAI 的早期基础

罗德尼·布鲁克斯(Rodney Brooks, ,,, ,, ,现代机械人之父)在 1991 年颁发的钻研论文〖有表征的智能》[1]提出了一种对智能的底子性沉新思虑。。。。。。。布鲁克斯否决传统的以为智能必须基于复杂算法或内部数据模型(即“表征”)的概想。。。。。。。他以为, ,,, ,, ,智能行为能够直接从自主机械与其环境的单一物理交互中产生, ,,, ,, ,而这种交互不依赖于预先设定的复杂算法。。。。。。。

布鲁克斯的这一理论基于他对虫豸行为的观察, ,,, ,, ,提出了一个称为“行为主义智能”(Behavior-based AI)的概想, ,,, ,, ,该概想强调通过与环境的直接物理交互来天生行为, ,,, ,, ,而不是通过内部世界模型。。。。。。。这种步骤的主题在于, ,,, ,, ,智能系统不应该首先处置抽象的内部世界表征, ,,, ,, ,而是应该可能直接响应表部环境的刺激。。。。。。。

这一理想对后续的机械人钻研产生了深远影响, ,,, ,, ,尤其是在自主移动机械人和实时处置系统的设计方面。。。。。。。布鲁克斯的工作推动了一系列以“底层智能”(即从单一的感知反映机造逐步累积到复杂行为的天生)为基础的钻研, ,,, ,, ,这种钻研试图仿照生物体中观察到的天然和自适应行为。。。。。。。他在麻省理工学院的人为智能尝试室进行的钻研, ,,, ,, ,出格是他开发的移动机械人“Genghis”, ,,, ,, ,展示了这种设计哲学的现实利用, ,,, ,, ,该机械人可能在没有复杂中央节造系统的情况下, ,,, ,, ,在复杂环境中导航。。。。。。。

在 1999 年, ,,, ,, ,罗尔夫·普费弗(Rolf Pfeifer)和克里斯蒂安·谢尔(Christian Scheier)合著的《理解智能》("Understanding Intelligence")一书中, ,,, ,, ,他们提出了一种全新的智能理解方式, ,,, ,, ,这种方式突破了传统以为智能仅仅源得意脑或算法的局限[2]。。。。。。。普费弗和谢尔的概想是, ,,, ,, ,智能是行为主体的整个身段结构和职能的综合体现, ,,, ,, ,他们强调了身段对智能形成的底子影响, ,,, ,, ,这一理论后来被称为“身段化智能”(Embodied intelligence)或“身段化认知”(Embodied cognition)。。。。。。。

这本书以为, ,,, ,, ,智能行为是通过身段与环境的直接相互作用产生的, ,,, ,, ,而不仅仅是大脑内部的推算过程。。。。。。。这种概想与传统的以大脑或推算为中心的智能理解形成了鲜明对比。。。。。。。例如, ,,, ,, ,普费弗和谢尔指出, ,,, ,, ,动物和机械人的移动能力不仅仅是通过中央节造系统指令的了局, ,,, ,, ,而是其身段结构与特定环境成分相互作用的直接了局。。。。。。。身段的状态和物理性质, ,,, ,, ,如状态、质量散布、弹性等, ,,, ,, ,城市直接影响智能行为的天生。。。。。。。此表, ,,, ,, ,书中还探求了智能系统设计中的“状态推算”(Morphological computation)概想, ,,, ,, ,即利用物理身段结构来简化节造问题, ,,, ,, ,这种方式能够削减必要通过传感器输入和神经节造处置的信息量。。。。。。。例如, ,,, ,, ,虫豸的步态节造就大量依赖于其身段结构的被动动态个性, ,,, ,, ,而不齐全依赖于神经反馈机造。。。。。。。

琳达·史女士(Linda Smith)在 2005 年提出的“具身假说”(Embodiment Hypothesis)是从认知科学的角度对智能的理解提出了新的视角[3]。。。。。。。这一理论主张, ,,, ,, ,人类的认知过程不仅仅是大脑内部的抽象思虑, ,,, ,, ,更多地是通过身段与物理环境的直接互动实现的。。。。。。。

凭据“具身假说”, ,,, ,, ,z6首页思想、感知能力以及其他各类能力的发展, ,,, ,, ,都是人们通过身段与环境的持续互动而逐步形成的。。。。。。。这种概想强调, ,,, ,, ,身段不仅是感知世界的工具, ,,, ,, ,更是影响和塑造认知结构的主体。。。。。。。例如, ,,, ,, ,婴儿通过触摸和操作物体进建物理法规, ,,, ,, ,或者通过视觉和活动的协调来理解空间关系。。。。。。。这些行为展示了身段在认知过程中的积极作用。。。。。。。

具身假说还出格强调了环境在认知发展中的作用, ,,, ,, ,以为环境的结构和个性不仅提供了感官输入, ,,, ,, ,还直接参加了认知能力的形成。。。。。。。例如, ,,, ,, ,一个物理环境中的对象和空间布局会影响个别的作为选择和感知发展, ,,, ,, ,进而影响认知结构的成立。。。。。。;;;;;;肪车恼庵植渭幼饔茫 ,,, ,, ,使得认知发展与环境的特定前提缜密有关。。。。。。。

琳达·史女士的工作扩大了我们对认知科学的理解, ,,, ,, ,将传统关注点从大脑的内部机造转移到了身段与环境的动态交互上。。。。。。。这种概想对教育、人机交互设计以及人为智能等领域提供了新的钻研方向和实际战术, ,,, ,, ,强调了设计与环境适应性的沉要性。。。。。。。此表, ,,, ,, ,具身假说对于理解特定身段前提下的认知差距(如残疾人的感知和认知履历)提供了沉要的视角, ,,, ,, ,有助于我们更全面地理解人类的多样性和复杂性。。。。。。。

这些基础钻研提出的三个准则, ,,, ,, ,为开发具身人为智能(EAI)系统提供了沉要的领导思想。。。。。。。下面是这三个准则的具体发展 :

1. EAI 系统不能依赖预约义的复杂逻辑来治理特定场景。。。。。。。

这一准则强调, ,,, ,, ,EAI 系统该当可能矫捷应对多变的环境, ,,, ,, ,而不是仅仅执行固定的、预设的法式。。。。。。。这要求系统可能在没有详尽预设前提的情况下, ,,, ,, ,通过实时的感知和处置, ,,, ,, ,对环境做出反映。。。。。。。例如, ,,, ,, ,一个自动导航的机械人, ,,, ,, ,在未知的环境中, ,,, ,, ,该当可能凭据当前的阻碍物和地形, ,,, ,, ,实时规划出最佳的前进路线, ,,, ,, ,而不是单纯依赖于预先编程好的蹊径。。。。。。。

2. EAI 系统必须蕴含进化进建机造, ,,, ,, ,使其可能不休适应运行环境。。。。。。。

进化进建机造允许 EAI 系统从经验中进建, ,,, ,, ,并随着功夫的推移优化其机能。。。。。。。这类进建机造通常涉及一些机械进建算法, ,,, ,, ,如强化进建, ,,, ,, ,这些算法能够使系统凭据其与环境的互动进行自我调整。。。。。。。例如, ,,, ,, ,一个清洁机械人在不休清洁的过程中, ,,, ,, ,会进建哪些区域更容易堆集污垢, ,,, ,, ,从而在将来的清洁过程中调整其排除路线, ,,, ,, ,提高清洁效能。。。。。。。   

3. 环境在塑造物理行为和认知结构方面起着关键作用。。。。。。。

这一准则以为, ,,, ,, ,环境不仅仅是 EAI 系统操作的舞台, ,,, ,, ,更是影响和塑造该系统行为和认知发展的关键成分。。。。。。;;;;;;肪车拿恳桓鲎槌刹棵牛 ,,, ,, ,从物理结构到社会互动, ,,, ,, ,都可能对 EAI 系统的发展产生深远的影响。。。。。。。因而, ,,, ,, ,理解和利用这种环境影响, ,,, ,, ,能够显著提高系统的适应性和智能性。。。。。。。例如, ,,, ,, ,一个合用于户表接济的机械人, ,,, ,, ,必要可能鉴别分歧的天然环境特点(如河道、泥泞地面等), ,,, ,, ,并凭据这些特点调整其接济战术, ,,, ,, ,以确保操作的安全性和有效性。。。。。。。

这三个准则共同组成了一个壮大的框架, ,,, ,, ,领导钻研人员和工程师设计出更为智能、自主和适应性强的 EAI 系统。。。。。。。通过不休地进建和适应, ,,, ,, ,这些系统有望在各类复杂和动态的环境中阐扬关键作用。。。。。。。

EAI 发展示状

大型说话模型(LLMs)、视觉说话模型(VLMs)等基础模型的最新进展, ,,, ,, ,以及 ChatGPT 等技术在人形机械人中的利用[4], ,,, ,, ,使人们普遍以为 EAI 仅仅是让这些基础模型在机械人中执行推理工作, ,,, ,, ,以加强机械人的认知能力, ,,, ,, ,这种设法是不齐全的。。。。。。。

GPT-4、BERT、CLIP 和 DALL-E 等基础模型加强了机械人解读视觉和文本信息的能力, ,,, ,, ,显著提高了机械人的感知能力。。。。。。。这些模型使机械人可能通过理解高低文、物体和指令来执行复杂的工作, ,,, ,, ,更靠近于人机交互[5]。。。。。。。此表, ,,, ,, ,这些基础模型也切合 EAI 系统设计的准则一, ,,, ,, ,即这些基础模型的推论不依赖于治理特定场景的预约义逻辑。。。。。。。

具体来说, ,,, ,, ,只管这些模型提供了壮大的信息处置能力, ,,, ,, ,使得 EAI 系统可能在没有预设特定逻辑的情况下处置复杂场景, ,,, ,, ,但它们自身并没有解决机械人若何从物理环境中持续进建和适应的问题。。。。。。。为了真正实现自适应的 EAI 系统, ,,, ,, ,必须将这些基础模型与进化进建机造相结合, ,,, ,, ,通过不休的试验和谬误来优化行为战术。。。。。。。此表, ,,, ,, ,我们还必要开发一个虚构环境, ,,, ,, ,以有效地与 EAI 系统进行交互, ,,, ,, ,由于获取真实世界的交互数据成本极高, ,,, ,, ,效能极低[6]。。。。。。。

图 1  深度进化强化进建(DERL) 框架[7]

深度进化强化进建(Deep Evolutionary Reinforcement Learning, ,,, ,, ,DERL)框架[7]的开发就是准则二的一个别现。。。。。。。此框架不仅可能演化出适应各类环境挑战的代理状态, ,,, ,, ,还能够在这些状态基础上优化神经节造器的参数, ,,, ,, ,以实现高效的工作进建。。。。。。。这一过程体现了环境复杂性、状态智能与节造进建能力之间的深刻联系。。。。。。。

通过 DERL 框架, ,,, ,, ,钻研者可能在分歧的环境复杂性中, ,,, ,, ,测试和优化代理的状态设计, ,,, ,, ,使其更适应环境赐与的物理挑战。。。。。。。例如, ,,, ,, ,在变动的地形中, ,,, ,, ,代理必要可能适应分歧的阻碍和地面前提, ,,, ,, ,这要求它们拥有更复杂和适应性强的状态结构。。。。。。。DERL 通过模拟演化过程中的天然选择, ,,, ,, ,急剧筛选出可能更快进建的状态, ,,, ,, ,从而在代理的性命周期早期就能阐发出进建后期的行为。。。。。。。这一过程也被视为状态鲍德温效应(morphological Baldwin effect)的初次证明。。。。。。。

此表, ,,, ,, ,DERL 框架的设计使其在进行状态演化和进建节造工作的同时, ,,, ,, ,削减了所需的进建数据, ,,, ,, ,提高了进建效能。。。。。。。这一特点尤其沉要, ,,, ,, ,由于它不仅降低了从生物传感数据中直接进建节造器的样本低效问题, ,,, ,, ,还可能在多个新工作中实现更好的泛化能力。。。。。。。这批注, ,,, ,, ,通过在模拟环境中同时进前进建和演化, ,,, ,, ,能够系统地索求智能状态若何通过物理互动简化节造问题, ,,, ,, ,从而加快代理的进建过程, ,,, ,, ,并最终提高其在多种工作中的阐发。。。。。。。

图 2  Habitat 仿真平台[8]

有了扩大机械人认知能力的基础模型和适应新环境的进化进建框架, ,,, ,, ,一个能有效模拟真实世界并与 EAI 系统交互的虚构环境对于满足准则三是必不成少的。。。。。。。最近的一个例子是 Habitat 平台[8], ,,, ,, ,Habitat 平台为 EAI 系统的开发提供了一个高效且真切的三维模拟环境, ,,, ,, ,极大地推进了虚构机械人训练的实现和发展。。。。。。。Habitat 平台蕴含 Habitat-Sim 和 Habitat-API 两个重要组成部门, ,,, ,, ,前者是一个高机能的 3D 模拟器, ,,, ,, ,可能以极高的速度渲染复杂场景, ,,, ,, ,后者则是一个高级库, ,,, ,, ,用于界说、配置、训练和评估 EAI 算法。。。。。。。

通过 Habitat 平台, ,,, ,, ,钻研者可能在一个节造且可复造的环境中进行大规模尝试, ,,, ,, ,这在以往是不切现实或者说只是理论上可能的。。。。。。。例如, ,,, ,, ,平台已经用于比力分歧的进建和 SLAM(同时定位与地图构建)步骤在点指标导航工作上的阐发。。。。。。。钻研批注, ,,, ,, ,当扩大到远超以往尝试的经验规模时, ,,, ,, ,基于进建的步骤可能超过 SLAM 步骤。。。。。。。此表, ,,, ,, ,Habitat 还进行了初次的跨数据集泛化尝试, ,,, ,, ,测试了多种传感器配置下的代理在分歧数据集间的泛化能力。。。。。。。了局显示, ,,, ,, ,建设深度传感器的代理可能更好地在分歧数据集之间泛化。。。。。。。

将来瞻望

通过整合上述三个组件, ,,, ,, ,我们能够成立一个职能齐全的 EAI 系统, ,,, ,, ,该系统可能动态适应分歧的操作环境。。。。。。。下一步天然是教机械人理解物理世界, ,,, ,, ,例如沉力的概想。。。。。。。我们以为, ,,, ,, ,通过数据向机械人教授物理定律是故障机械人在日常生涯中宽泛利用的直接阻碍。。。。。。。

只管人为智能和机械人技术获得了长足进取, ,,, ,, ,但目前的机械人系统依然不足对物理世界深刻、直观的理解。。。。。。。钻研批注, ,,, ,, ,固然机械人能够执行某些工作或仿照人类行为的某些方面, ,,, ,, ,但它们并不具备真正的类人理解能力[9]。。。。。。。要解决这个问题, ,,, ,, ,能够天生与虚构环境的精确物理交互数据, ,,, ,, ,并通过进化进建机造利用这些交互数据改进基础模型。。。。。。。

图 3  通过数据教授机械人物理定律[12]

人们已经索求了几种教授机械人物理定律的步骤[10][11][12]。。。。。。。好比, ,,, ,, ,PLATO 就是解决这一问题的步骤之一, ,,, ,, ,它被提出通过旁观模拟视坡反进建物理, ,,, ,, ,视频中的物体依照物理定律进行交互[10]。。。。。。。该系统能够分辨现实场景和非现实场景, ,,, ,, ,例如物体隐没或出现不成能的行为。。。。。。。通过用物体遵循可预测物理定律的视频训练 PLATO, ,,, ,, ,人为智能学会了预测和理解根基物理概想, ,,, ,, ,从而加强了对物理世界的通常推理能力。。。。。。。

PLATO 系统利用了发展生理学的中心见解, ,,, ,, ,即物理是在离散对象及其相互作用的水平上理解的。。。。。。。PLATO 通过进建从视觉数据直接进建物理知识, ,,, ,, ,该系统不仅仿照儿童的视觉认知进建, ,,, ,, ,并且通过违反进展(VoE)范式来评估对直观物理的概想性理解。。。。。。。PLATO 通过观察模拟的物理不成能(例如物体穿过墙壁或瞬间移动到另一个地位)和物理可能的事务来造就对根基物理概想的理解。。。。。。。系统通过度析这些场景, ,,, ,, ,进建预测哪些场景是物理不成能的, ,,, ,, ,从而提高了对物理世界的通常推理能力。。。。。。。

此表, ,,, ,, ,PLATO 使用了一个对象跟踪系统(通过一个被称为 ComponentLSTM 的结构化递归神经网络), ,,, ,, ,它不仅追踪每个对象的汗青, ,,, ,, ,还预测了下一功夫步的对象状态。。。。。。。这种步骤允许 PLATO 对动态环境进行建模, ,,, ,, ,并在功夫上跟踪对象的相互作用和状态变动。。。。。。。这个系统的训练涉及使用大量的模拟视频数据, ,,, ,, ,这些数据展示了各类物理事务, ,,, ,, ,例如对象的活动、碰撞和遮挡。。。。。。。通过这种方式, ,,, ,, ,PLATO 可能从复杂的视觉输入中进建并构建出一组物理概想, ,,, ,, ,这些概想在现实作为、概想知识和组成表征中至关沉要。。。。。。。

结论

本文追忆了 EAI 从概想基础到现代利用和将来挑战的演变过程。。。。。。。我们出格强调了开发 EAI 系统的三个准则:

首先, ,,, ,, ,EAI 系统不得利用预约义的复杂逻辑来治理特定场景。。。。。。。

其次, ,,, ,, ,EAI 系统必要纳入进化进建机造, ,,, ,, ,以持续提供反馈。。。。。。。

第三, ,,, ,, ,必要一个与 EAI 系统交互的虚构环境来天生交互数据。。。。。。。

最近的钻研进展已经别离满足了这三个准则, ,,, ,, ,但我们还没有看到一个职能美满的贸易系统将所有三个部门都整合在一路。。。。。。。倒剽样的系两全备就绪时, ,,, ,, ,一个火烧眉毛的挑战就是教会 EAI 系统理解物理定律, ,,, ,, ,使它们可能在物理世界中顺利运行。。。。。。。

参考文件: 

1. Brooks, R.A., 1991. Intelligence without representation. Artificial intelligence, 47(1-3), pp.139-159.

2. Pfeifer, R. and Scheier, C., 2001. Understanding intelligence. MIT press.

3. Smith, L.B., 2005. Cognition as a dynamic system: Principles from embodiment. Developmental Review, 25(3-4), pp.278-298.

4. OpenAI and Figure AI develop humanoid robot, BBC News, https://www.youtube.com/watch?v=cjVMQl9pVB0, accessed 4/23/2024

5. Hu, Y., Xie, Q., Jain, V., Francis, J., Patrikar, J., Keetha, N., Kim, S., Xie, Y., Zhang, T., Zhao, Z. and Chong, Y.Q., 2023. Toward general-purpose robots via foundation models: A survey and meta-analysis. arXiv preprint arXiv:2312.08782 

6. Liu, S, The Value of Data in Embodied Artificial Intelligence, Communications of the ACM, https://cacm.acm.org/blogcacm/the-value-of-data-in-embodied-artificial-intelligence/

7. Gupta, A., Savarese, S., Ganguli, S. and Fei-Fei, L., 2021. Embodied intelligence via learning and evolution. Nature communications, 12(1), p.5721.

8. Savva, M., Kadian, A., Maksymets, O., Zhao, Y., Wijmans, E., Jain, B., Straub, J., Liu, J., Koltun, V., Malik, J. and Parikh, D., 2019. Habitat: A platform for embodied ai research. In Proceedings of the IEEE/CVF international conference on computer vision (pp. 9339-9347). 

9. Torresen, J., 2018. A review of future and ethical perspectives of robotics and AI. Frontiers in Robotics and AI, 4, p.75.

10. Piloto, L.S., Weinstein, A., Battaglia, P. and Botvinick, M., 2022. Intuitive physics learning in a deep-learning model inspired by developmental psychology. Nature human behaviour, 6(9), pp.1257-1267.

11. Buschoff, L.M.S., Schulz, E. and Binz, M., 2023, July. The acquisition of physical knowledge in generative neural networks. In International Conference on Machine Learning (pp. 30321-30341). PMLR. 

12. Kadambi, A., de Melo, C., Hsieh, C.J., Srivastava, M. and Soatto, S., 2023. Incorporating physics into data-driven computer vision. Nature Machine Intelligence, 5(6), pp.572-580.

作者 | 刘少山、吴双、丁宁
责编 | 唐幼引
出品丨《新法式员》编纂部

 *本文经授权转载自微信公家号「AI科技大本营」(ID:rgznai100)