具身智能(EAI)是指将人为智能嵌入机械人蹬仔形实体,,,,,,,,使其具备感知、进建和动态参加周围环境的能力。。。。。在本文中,,,,,,,,我们将深刻探求为 EAI 系统构建基础模型的技术方向选择。。。。。相对于预训练好的世界模型系统,,,,,,,,我们以为元进建 + GPICL(通用高低文进建)步骤为具身智能系统提供更好的进建能力,,,,,,,,拥有更好的持久适应性和泛化能力,,,,,,,,因而有可能是最适合具身智能系统基础模型技术路线。。。。。
布景知识
- 元进建
元进建(Meta-Learning)是一种机械进建步骤,,,,,,,,其指标是使模型可能急剧适应新工作并提高进建效能。。。。。元进建的主题思想是通过进建若何进建,,,,,,,,从而在面对新工作时可能迅速进行调整和适应。。。。。与传统的机械进建步骤分歧,,,,,,,,元进建不仅关注模型在单一工作上的阐发,,,,,,,,还关注模型在多个工作上的泛化能力。。。。。
在元进建中,,,,,,,,模型通常通过在多个工作上的训练来进建共享知识。。。。。每个工作能够被视为一个独立的进建过程,,,,,,,,模型通过这些工作来提高其元进建能力。。。。。这种训练方式使得模型可能捉拿到工作之间的共性,,,,,,,,从而在遇到新工作时可能利用这些共性进行急剧进建和调整。。。。。
元进建的一个关键组件是元训练(Meta-Training),,,,,,,,在这一阶段,,,,,,,,模型通过大量分歧工作的训练来进建元知识。。。。。这些工作可所以类似的,,,,,,,,也可所以齐全分歧的。。。。。通过在分歧工作上的反复训练,,,,,,,,模型能够提取出可能在各类工作中使用的通用模式和战术。。。。。在元进建过程中,,,,,,,,模型通常蕴含两个重要部门:急剧适应和元知识。。。。????<本缡视Σ棵耪乒茉诿扛鼍咛骞ぷ髦械慕ê偷髡,,,,,而元知识部门则保留和治理从所有工作中提取的共性知识。。。。。这种结构使得模型既可能进行具体工作的急剧进建,,,,,,,,又能从多个工作中获取和利用元知识。。。。。
元进建的一个沉要利用是具身智能(Embodied AI),,,,,,,,例如机械人技术。。。。。在这些利用中,,,,,,,,模型必要不休适应变动的环境和工作,,,,,,,,通过元进建,,,,,,,,机械人可能在分歧环境和工作中急剧调整和优化其行为,,,,,,,,而不必要每次都从零起头进前进建。。。。。
元进建的步骤有多种实现方式,,,,,,,,蕴含基于梯度的元进建、基于影象的元进建和基于模型的元进建。。。。;;;;;;;;谔荻鹊脑ú街瑁,,,,,如 MAML(Model-Agnostic Meta-Learning),,,,,,,,通过对多个工作的梯度信息进行优化,,,,,,,,使模型可能急剧适应新工作。。。。;;;;;;;;谟跋蟮脑ú街柰ü娲⒑图焖鞴ぷ饔泄氐男畔ⅲ,,,,,来提高模型的进建效能。。。。;;;;;;;;谀P偷脑ú街枇钔ü杓铺囟ǖ哪P徒峁梗,,,,,使其可能更好地进行元进建。。。。。
- 高低文进建
高低文进建(In-Context Learning)旨在使模型可能利用当前输入的高低文信息进行即时进建和推理。。。。。与传统的训练-测试分离的进建方式分歧,,,,,,,,高低文进建允许模型在推理过程中动态地使用输入数据进行调整和改进,,,,,,,,从而更好地理解和处置当前工作。。。。。
在高低文进建中,,,,,,,,模型通过接管一系列高低文信息(例如,,,,,,,,输入的句子、对话或工作描述)来调整其内部状态和参数。。。。。这种步骤使得模型可能在不必要额表训练的情况下,,,,,,,,利用高低文中的信息来进行推理和决策。。。。。这种即时进建的能力使得模型可能在处置新的和未见过的工作时阐发出更高的矫捷性和适应性。。。。。高低文进建的主题思造是模型利用输入序列中的信息来进行推理和调整。。。。。具体来说,,,,,,,,模型会在处置每一个输入时,,,,,,,,结合之前的高低文信息,,,,,,,,对当前输入进行分析和理解。。。。。这种步骤依赖于模型的内部影象机造,,,,,,,,如自把稳力机造(Self-Attention),,,,,,,,来捉拿和利用高低文中的关键信息。。。。。
高低文进建在大规模预训练说话模型中得到了宽泛利用。。。。。例如,,,,,,,,GPT 系列模型(如 GPT-3)通过大量的文本数据进行预训练,,,,,,,,进建到丰硕的说话暗示和知识。。。。。在现实利用中,,,,,,,,这些模型能够通过输入一段高低文(如问题和有关信息),,,,,,,,即时天生有关的回覆或解决规划,,,,,,,,而不必要进行额表的微调。。。。。这种能力使得高低文进建在天然说话处置、对话系统和其他必要动态适应的工作中阐发杰出。。。。。
高低文进建的一个沉要特点是其高效性和矫捷性。。。。。模型可能凭据高低文中的提醒和示例,,,,,,,,迅速调整其推理战术和行为,,,,,,,,从而在面对分歧工作和场景时阐发出更好的适应性。。。。。此表,,,,,,,,高低文进建还能够有效预防传统进建步骤中的苦难性忘却问题,,,,,,,,由于它不依赖于长功夫的训练和微调,,,,,,,,而是通过即时利用高低文信息进行推理和调整。。。。。
在高低文进建的实现中,,,,,,,,自把稳力机造起到了关键作用。。。。。自把稳力机造允许模型在处置每一个输入时,,,,,,,,关注和利用之前输入中的有关信息,,,,,,,,从而在高低文中成立起复杂的依赖关系和模式。。。。。这种机造使得模型可能捉拿到高低文中的长程依赖关系,,,,,,,,并在推理过程中矫捷利用。。。。。
- 模型预训练
模型预训练(Model Pretraining)通过在大规模数据集上训练模型,,,,,,,,使其进建到宽泛的特点暗示和通用知识。。。。。预训练的指标是通过在多种工作和大量数据上训练模型,,,,,,,,使其具备壮大的泛化能力和丰硕的知识储蓄。。。。。
在模型预训练过程中,,,,,,,,通;;;;;;;;嵫≡褚桓龃笮褪菁,,,,,这些数据集涵盖了分歧领域和主题,,,,,,,,确保模型可能进建到多样化的信息。。。。。常见的数据集蕴含文本、图像和音频等,,,,,,,,分歧类型的数据集对应分歧的预训练工作。。。。。例如,,,,,,,,文本数据集能够用于训练说话模型,,,,,,,,图像数据集能够用于训练卷积神经网络(CNN)。。。。。
预训练模型通常选取无监督进建或自监督进建的步骤进行训练。。。。。在无监督进建中,,,,,,,,模型通过对数据的内涵结构进行建模来进建特点暗示,,,,,,,,而不依赖于人为标注的数据。。。。。在自监督进建中,,,,,,,,模型通过天生部门标签或使用数据自身的结构信息来进行训练。。。。。例如,,,,,,,,说话模型能够通过预测句子中的下一个词来进行自监督进建。。。。。预训练过程通常蕴含以下几个步骤:
首先,,,,,,,,选择适当的数据集进行预处置。。。。。预处置步骤蕴含数据洗濯、去除噪声、体式转换等,,,,,,,,确保数据质量和一致性。。。。。
接下来,,,,,,,,界说预训练工作和模型结构。。。。。对于说话模型,,,,,,,,常见的预训练工作蕴含说话模型工作(预测下一个词)、掩码说话模型工作(预测被覆盖的词)和序列到序列工作(机械翻译、文本天生等)。。。。。对于图像模型,,,,,,,,常见的预训练工作蕴含图像分类、指标检测和图像天生等。。。。。
而后,,,,,,,,使用大规模数据集进行训练。。。。。预训练过程中通;;;;;;;;嵫∪〈笈垦盗泛蜕⒉际酵扑悖,,,,,以加快训练速度。。。。。通过反向传布算法,,,,,,,,不休调整模型参数,,,,,,,,使其在预训练工作上达到最优阐发。。。。。
在预训练实现后,,,,,,,,模型会具备壮大的特点提取能力和丰硕的知识储蓄,,,,,,,,这为后续的特定工作提供了优良的基础。。。。。例如,,,,,,,,预训练的说话模型能够在较幼的特定工作数据集上进行微调,,,,,,,,从而急剧适应新工作,,,,,,,,提高模型的机能。。。。。模型预训练的优势在于通过在大规模数据上进建,,,,,,,,使模型具备壮大的泛化能力和丰硕的知识储蓄,,,,,,,,削减了对特定工作数据的依赖,,,,,,,,提高了模型的训练效能和成效。。。。。此表,,,,,,,,预训练模型还能够迁徙到分歧的工作和领域,,,,,,,,实现跨工作和跨领域的知识共享。。。。。
- 模型微调
模型微调(Model Fine-Tuning)通过在预训练模型的基础上,,,,,,,,进一步使用特定工作的数据进行训练,,,,,,,,从而使模型在特定工作上达到更高的机能。。。。。微调的指标是使预训练模型适应特定利用场景,,,,,,,,提高模型在特定工作上的阐发。。。。。预训练模型通常是在大规模数据集上进行训练的,,,,,,,,这些数据集涵盖了宽泛的主题和领域。。。。。通过这种方式,,,,,,,,模型可能进建到丰硕的特点暗示和通用知识。。。。。然而,,,,,,,,在特定工作中,,,,,,,,通常必要越发详细和专门化的能力,,,,,,,,这就必要通过微调来实现。。。。。在微调过程中,,,,,,,,必要先将预训练模型的参数作为初始值,,,,,,,,而后使用特定工作的数据进前进一步训练。。。。。这个过程通常涉及以下几个步骤:
首先,,,,,,,,网络并筹备特定工作的数据集。。。。。这些数据通常是与特定利用场景有关的,,,,,,,,并且比预训练数据集要幼得多。。。。。数据集必要进行预处置,,,,,,,,蕴含洗濯、标注和体式转换等步骤。。。。。
接下来,,,,,,,,将预训练模型加载到微调框架钟祝。。。。预训练模型的参数已经在大规模数据上进建到了通常性的特点暗示,,,,,,,,因而在微调过程中,,,,,,,,能够急剧适应特定工作的数据。。。。。而后,,,,,,,,使用特定工作的数据进行训练。。。。。在这个阶段,,,,,,,,通过反向传布算法,,,,,,,,逐措施整模型的参数,,,,,,,,使其在特定工作上的阐发不休提升。。。。。训练过程中的进建率通常较低,,,,,,,,以预防对预训练参数进行过大的调整,,,,,,,,导致模型过拟合。。。。。在微调过程中,,,,,,,,常;;;;;;;;嵫∪∫恍┱蚧际酰,,,,,如权沉衰减和 Dropout,,,,,,,,以预防模型过拟合。。。。。此表,,,,,,,,还可能使用早停法(Early Stopping)来监控验证集上的机能,,,,,,,,以决定训练何时终场。。。。。微调的最终指标是使模型在特定工作上拥有较高的机能,,,,,,,,同时保留预训练模型所学到的通用知识。。。。。这种步骤的优势在于,,,,,,,,通过利用预训练模型的已有知识,,,,,,,,能够在较幼的数据集上急剧达到优良的成效,,,,,,,,而不必要重新起头训练一个新模型。。。。。
模型微调宽泛利用于各类天然说话处置工作,,,,,,,,如文本分类、感情分析、问答系统和机械翻译等。。。。。通过微调,,,,,,,,预训练模型能够有效地适应分歧的利用场景,,,,,,,,提高其在特定工作上的正确性和鲁棒性。。。。。
具身智能的基础模型
在此之前,,,,,,,,我们已经概述了开发具身人为智能(EAI)系统的三个领导准则[1]。。。。。EAI 系统不应依赖预约义的复杂逻辑来处置特定场景。。。。。相反,,,,,,,,它们必须结合进化进建机造,,,,,,,,从而可能不休适应运行环境。。。。。此表,,,,,,,,环境不仅会严沉影响物理行为,,,,,,,,还会影响认知结构。。。。。第三项准则侧沉于模拟仿真,,,,,,,,而前两项准则则强调成立可能从 EAI 系统运行环境中进建的 EAI 基础模型。。。。。
EAI 基础模型的常见步骤是直接利用预训练的大型模型。。。。。例如,,,,,,,,预训练的 GPT 模型能够作为基线,,,,,,,,而后通过微和谐高低文进建(ICL)来提高机能[2]。。。。。这些大型模型通常占有大量参数来编码宽泛的世界知识,,,,,,,,并拥有较幼的高低文窗口以实现急剧响应功夫。。。。。这种宽泛的预编码使这些模型可能提供杰出的 Zero-shot 机能。。。。。然而,,,,,,,,它们有限的高低文窗口给从 EAI 系统的运行环境中持续进建和衔接各类使用场景带来了挑战。。。。。
另一种步骤是利用参数少得多但高低文窗口更大的模型。。。。。这些模型并不编码全面的世界知识,,,,,,,,而是专一于进建若何进建,,,,,,,,即元进建[3]。。。。。有了大的高低文窗口,,,,,,,,这些模型就能够执行通用高低文进建(GPICL),,,,,,,,从而可能从其运行环境中不休进建,,,,,,,,并在宽泛的高低文中成立联系。。。。。
图 1 EAI 的基础模型选项
图 1 展示了这两种分歧的步骤。。。。。元训练 + GPICL 步骤固然 Zero-shot 机能较差,,,,,,,,模型规模较幼。。。。,,,,,但在不休从环境中进建方面阐发杰出,,,,,,,,最终使 EAI 系统专门用于特定工作。。。。。相比之下,,,,,,,,预训练 + 微调 + ICL 步骤的特点是模型规模较大,,,,,,,,高低文窗口较幼。。。。,,,,,Zero-shot 机能优越,,,,,,,,但进建能力较差。。。。。
GPT-3 论文中的经验证据支持了这一点,,,,,,,,在该论文中,,,,,,,,7B 少量进建模型优于 175B Zero-shot 进建模型[4]。。。。。若是用较长的高低文窗口来取代 Few-shot 进建,,,,,,,,使 EAI 系统可能从其运行环境中进建,,,,,,,,机能可能会进一步提高。。。。。
我们设想的 EAI 梦想基础模型应切合几个关键尺度。。。。。首先,,,,,,,,它应该可能从复杂的指令、演示和反馈中普遍进建,,,,,,,,而无需依赖精心设计的优化技术。。。。。其次,,,,,,,,它在进建和适应过程中应阐发出较高的样本效能。。。。。第三,,,,,,,,它必须具备通过高低文信息持续进建的能力,,,,,,,,有效预防苦难性忘却问题。。。。。因而,,,,,,,,我们以为元进建 + GPICL 步骤合用于 EAI 系统。。。。。不外,,,,,,,,在决定选取这种步骤之前,,,,,,,,我们先来看看这两种步骤之间的衡量。。。。。
构建具身智能基础模型的关键衡量
在本节中,,,,,,,,我们将回首以通用高低文进建为基础的 EAI 预训练大模型规划和现有主流技术规划的差距。。。。。该技术规划布景能够参考“Benchmarking General-Purpose In-Context Learning”[5]。。。。。这篇论文受元进建和大说话模型训练流程启发,,,,,,,,提出以元进建(Meta-training)+ 通用高低文进建(GPICL)代替预训练(Pre-training)+ 微调(Fine-Tuning)+ 高低文进建(ICL)的进建范式以实现更好的泛化性和解决更多样的工作,,,,,,,,能够利用于大说话模型,,,,,,,,也能够被利用到被以为是具身智能的基石的世界模型和决策模型类工作。。。。。
在 Zero-shot 能力方面,,,,,,,,预训练 + 微调 + ICL 步骤拥有很高的机能,,,,,,,,能够让模型很好地泛化到新工作中,,,,,,,,而不必要任何特定工作的微调[2]。。。。。相比之下,,,,,,,,元训练 + GPICL 步骤的 Zero-shot 泛化能力较低,,,,,,,,由于该步骤的沉点是通过高低文进建来适应各类工作,,,,,,,,而不是 Zero-shot 泛化。。。。。
在泛化能力方面,,,,,,,,预训练 + 微调 + ICL 步骤在散布内工作中阐发杰出,,,,,,,,但在训练数据集散布表工作中能力有限。。。。。另一方面,,,,,,,,元训练 + GPICL 由于强调在分歧情境下进行元训练,,,,,,,,因而在训练数据集散布表工作中阐发出多样化和复杂的泛化能力。。。。。
预训练 + 微调 + ICL 的可扩大性加强步骤蕴含扩大参数和预训练数据集,,,,,,,,以提高机能。。。。。元训练 + GPICL 通过扩大元训练工作、高低文长度、内存和暗藏状态来提高模型的适应性,,,,,,,,从而加强可扩大性。。。。。
在职务适应方面,,,,,,,,预训练 + 微调 + ICL 依赖于数据网络和微调,,,,,,,,这可能效能不高。。。。。相比之下,,,,,,,,元训练 + GPICL 利用极度复杂的指令,,,,,,,,自动从分歧的语境中进建。。。。。
在预训练或元训练阶段,,,,,,,,预训练 + 微调 + ICL 侧沉于世界知识和对硬件的理解。。。。。元训练 + GPICL 强调进建、影象和抽象各类工作的能力。。。。。
在训练后阶段,,,,,,,,预训练 + 微调 + ICL 涉及将模型与以报答中心的具体工作相匹配,,,,,,,,强调人机匹配和工作特定知识。。。。。元训练 + GPICL 持续强调世界知识、人类对齐和特定工作知识。。。。。
预训练 + 微调 + ICL 的推理延长通常较低,,,,,,,,由于模型参数在训练后是固定的。。。。。然而,,,,,,,,对于元训练 + GPICL,,,,,,,,由于必要动态地利用和更新内存和暗藏状态,,,,,,,,推理速度可能较慢。。。。。
预训练 + 微调 + ICL 所需的内存容量很幼。。。。,,,,,由于大部门知识都蕴含在固定的模型参数钟祝。。。。相反,,,,,,,,元训练 + GPICL 必要大量内存来处置复杂指令、扩大高低文和暗藏状态。。。。。
元训练 + GPICL 的优势在于能让系统通过情境不休进建各类工作,,,,,,,,即学会不休进建[6]。。。。。这重要要求系统可能在不忘却旧工作的情况下进建新工作,,,,,,,,这通;;;;;;;;岣谔荻鹊奈⒌鞔淳薮筇粽剑–atastrophic forgetting[7]),,,,,,,,但对于情境内进建来说,,,,,,,,挑战可能较幼。。。。。
表 1 预训练大型模型与元训练 + GPICL 的利弊衡量
克服推算和内存瓶颈
从上述比力中能够看出,,,,,,,,元训练与 GPICL 的结合可在各类复杂工作中提供卓越的适应性和泛化能力。。。。。然而,,,,,,,,这种步骤对资源的要求较高,,,,,,,,对大无数 EAI 系统组成了挑战,,,,,,,,由于这些系统通常是推算能力和内存有限的实时边缘设备。。。。。这种步骤所需的大型高低文窗口会大大增长推理功夫和内存占用,,,,,,,,可能会故障其在 EAI 基础模型中的可行性。。。。。
幸运的是,,,,,,,,最近的进取为基于变换器的大型说话模型(LLM)的扩大提供了创新解决规划,,,,,,,,使其可能处置无限长的输入,,,,,,,,同时维持有限的内存和推算效能。。。。。一个值妥贴心的创新是 Infini-attention(无限把稳)机造,,,,,,,,它在单个变换器块中集成了遮蔽部门把稳和持久线性把稳[8]。。。。。这样就能高效处置短程和远程高低文依赖关系。。。。。此表,,,,,,,,压缩影象系统允许模型以有限的存储和推算成本守护和检索信息,,,,,,,,沉复使用旧的键值(KV)状态,,,,,,,,以提高影象效能,,,,,,,,实现急剧流推理。。。。。尝试了局批注,,,,,,,,Infini-attention 模型在长语境说话建;;;;;;;;疾馐灾械牟⒂庞诨吣P停,,,,,在涉及超长输入序列(多达 100 万个词组)的工作中阐发出卓越的机能,,,,,,,,并显著提高了内存效能和猜疑度得分。。。。。
同样,,,,,,,,StreamingLLM 框架能让使用有限把稳力窗口训练的大型模型泛化到无限序列长度,,,,,,,,而无需进行微调[9]。。。。。这是通过保留作为把稳力汇的初始象征的键和值(KV)状态以及最新象征来实现的,,,,,,,,从而不变把稳力推算,,,,,,,,并在扩大文本中维持机能。。。。。StreamingLLM 善于对多达 400 万个象征的文本进行建模,,,,,,,,速度显著提高了 22.2 倍。。。。。
结论
总之,,,,,,,,我们以为从环境中进建是 EAI 系统的根基特点,,,,,,,,因而元训练 + GPICL 步骤拥有更好的持久适应性和泛化能力,,,,,,,,有望用于构建 EAI 基础模型。。。。。固然目前这种步骤在推算和内存使用方面面对巨大挑战,,,,,,,,但我们相信,,,,,,,,Infini-attention 和 StreamingLLM 等创新技术将很快使这种步骤在资源受限的实时环境中变得可杏祝。。。。
参考资料
1.A Brief History of Embodied Artificial Intelligence, and its Outlook, Communications of the ACM, https://cacm.acm.org/blogcacm/a-brief-history-of-embodied-artificial-intelligence-and-its-future-outlook/
2.Ouyang, Long, et al. "Training language models to follow instructions with human feedback." Advances in neural information processing systems 35 (2022): 27730-27744.
3.Kirsch, L., Harrison, J., Sohl-Dickstein, J. and Metz, L., 2022. General-purpose in-context learning by meta-learning transformers. arXiv preprint arXiv:2212.04458.
4.Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J.D., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A. and Agarwal, S., 2020. Language models are few-shot learners. Advances in neural information processing systems, 33, pp.1877-1901.
5.Wang, F., Lin, C., Cao, Y. and Kang, Y., 2024. Benchmarking General Purpose In-Context Learning. arXiv preprint arXiv:2405.17234.
6.Beaulieu, Shawn, et al. "Learning to continually learn." ECAI 2020. IOS Press, 2020. 992-1001.
7.French, Robert M. "Catastrophic forgetting in connectionist networks." Trends in cognitive sciences 3.4 (1999): 128-135.
8.Munkhdalai, T., Faruqui, M. and Gopal, S., 2024. Leave no context behind: Efficient infinite context transformers with infini-attention. arXiv preprint arXiv:2404.07143.
9.Xiao, G., Tian, Y., Chen, B., Han, S. and Lewis, M., 2023. Efficient streaming language models with attention sinks. arXiv preprint arXiv:2309.17453.
作者 | 刘少山、丁宁
责编 | 唐幼引
出品丨AI 科技大本营
本文经授权转载自微信公家号「AI科技大本营」(ID:rgznai100)
