Agent AI:多模态交互的新地平线

摘要

多模态人工智能系统极有可能成为我们日常生活中无处不在的存在。使这类系统具备更强交互性的一个前景广阔的思路,是将它们以智能体(agent)的形式嵌入物理或虚拟环境。目前,各种系统通常都以已有的大型基础模型为构建智能体的基石。将智能体置于此类环境中,能够使模型处理并理解视觉与上下文信息,这对于构建更为复杂、具有情境感知能力的人工智能系统至关重要。比如,一个能够感知用户动作、人类行为、环境中的物体、声音表达乃至场景整体情绪的系统,就能据此在所处环境中引导并调整智能体的行为回应。为了加速基于智能体的多模态智能研究,我们将 "Agent AI" 定义为一类交互式系统,它们不仅能感知视觉刺激、语言输入及其他植根于环境的数据,而且能够产生具有意义的、具身化的动作。我们尤其关注通过融合外部知识、多感官输入和人类反馈来改进智能体的下一步具身动作预测的系统。我们认为,在具体环境中开发具备能动性的人工智能系统,还可以有效缓解大型基础模型产生的 " 幻觉 " 问题及其生成与环境不符的输出倾向。新兴的 "Agent AI" 领域涵盖了更广泛的多模态交互中的具身化与能动化方面。除了在物理世界中行动与交互的智能体之外,我们还设想,在未来,人们可以轻松地创建任意虚拟现实或模拟场景,并与嵌入其中的虚拟环境智能体进行交互。

关键词:Agent AI(智能体人工智能)、多模态交互(Multimodal Interaction)、大型基础模型(Large Foundation Models)、具身智能(Embodied AI)、游戏 AI(Gaming AI)、机器人学(Robotics)、医疗健康(Healthcare)、伦理考量(Ethical Considerations)

推荐语

2025 年,人工智能技术迎来爆发式发展,技术迭代的加速将重塑行业生态,形成倒 "T" 字型格局:少数专注于通用人工智能(AGI)的巨头企业将进一步垄断核心资源与市场机会,而大量中小公司则更应该聚焦于人机交互新模式的探索。这一趋势的底层逻辑在于,大模型与 AI Agent 的广泛应用不仅重构了人机协作方式,更开辟了全新的流量入口。想象一下,如今的人机界面大大地受限于鼠标和键盘,而语音、手势和自然语言交流则大大解放人机互动带宽。在此背景下,多模态人机交互将成为最具潜力的创新方向之一,为行业带来无限想象空间!

——张江

集智俱乐部发布了「大模型时代下的人机交互与协同」读书会,希望召集对人机交互与协同感兴趣的朋友一起来畅想领域蓝图,欢迎加入!

论文题目:Agent AI: Surveying the horizons of multimodal interaction

论文链接:https://arxiv.org/abs/2401.03568

发表时间:2024 年 1 月 25 日

人工智能领域正迎来一场范式变革——从静态任务处理转向动态的、具身化的智能体(Agent)系统。近日,来自斯坦福大学、微软研究院等机构的联合团队发表综述论文预印本,系统阐述了以大语言模型(LLMs)和视觉语言模型(VLMs)为核心的智能体技术如何通过多模态交互实现跨领域、跨现实的通用人工智能(AGI)路径。这项研究不仅梳理了 Agent AI 的技术框架与应用场景,更揭示了其在游戏、机器人、医疗等领域的颠覆性潜力,同时直面伦理与社会影响等关键问题。

从模块化到整体性:Agent AI 的范式革新

传统 AI 系统往往将感知、规划、行动等模块割裂开发,而 Agent AI 的核心理念是回归亚里士多德的 " 整体论 "(Holism),通过整合语言理解、视觉认知、环境记忆与推理能力,构建具有自主行动能力的统一智能体。研究团队提出,以 GPT-4、DALL-E 等大型基础模型为基石,结合强化学习(RL)、模仿学习(IL)等策略,可训练出能同时处理文本、图像、动作信号的 " 智能体变换器 "(Agent Transformer)。

如下图所示,这种新型架构包含五大模块:环境感知与任务规划、智能体学习、记忆系统、行动预测和认知推理,其创新之处在于引入专属的 " 智能体令牌 "(Agent Tokens)来表征特定领域的动作空间,相比传统冻结参数的多模态模型(如 Flamingo、BLIP-2),这种端到端训练范式在机器人控制等任务中展现出更强的适应性。

图 1. 我们为多模态通用智能体提出的新智能体范式。如图所示,主要有 5 个模块:1)环境与感知,包括任务规划和技能观察;2)智能体学习;3)记忆;4)智能体行动;5)认知。

破解幻觉难题:知识增强的交互机制

当 Agent AI 应用于现实场景时,模型 " 幻觉 "(Hallucination)成为重大挑战——即生成与事实矛盾或无关的内容。文章区分了内在幻觉(与输入矛盾)和外在幻觉(添加无关信息)两种类型,并提出 " 混合现实知识推理交互 "(Mixed Reality with Knowledge Inference Interaction)的涌现机制。通过从网络源显式检索知识,并结合预训练模型的隐式推理,智能体能够在虚拟与现实场景中实现知识迁移。

从游戏 NPC 到手术助手:跨领域应用图谱

在游戏领域,Agent AI 正重塑非玩家角色(NPC)的行为逻辑。传统脚本驱动的 NPC 行为呆板,而基于 LLM 的智能体(如《外交》游戏中的 AI)已能通过人类对话数据训练实现战略决策。研究团队开发的 "MindAgent" 框架在《CuisineWorld》多智能体协作游戏中,通过 GPT-4 中央调度器协调多个智能体完成烹饪任务,其协作效率评分(CoS)验证了语言模型在复杂策略规划中的潜力。

图 2. 情境学习游戏结构中的思维智能体。规划技能与工具使用:游戏环境需要多样化的规划技能和工具使用来完成任务。它生成相关游戏信息,并将游戏数据转换为 LLM 能够处理的结构化文本格式。LLM:作为基础架构的核心,负责决策,从而充当多智能体系统的调度员。记忆历史:用于存储相关信息的工具。行动模块:从文本输入中提取行动,并将其转换为特定领域的语言,同时验证特定领域的语言(DSL),以确保在执行过程中不会出现错误。

机器人领域则面临视觉运动控制(Visual Motor Control)与语言条件操作(Language Conditioned Manipulation)的双重挑战。如图 3 所示,结合 ChatGPT 的任务规划器与视觉示范系统,机器人能理解 " 将桌上的派加热 " 这类指令,并自主分解为取物、移动、使用烤箱等子任务。特别值得注意的是 GPT-4V 在多模态任务规划中的表现,它能从演示视频中提取物体空间关系(如 " 冰箱把手可抓握 "),并生成可执行的技能序列。

图 3. 集成 ChatGPT 强化任务规划器的机器人教学系统概述。该过程包含两个步骤:任务规划,用户使用任务规划器创建动作序列,并根据需要通过反馈调整结果;演示,用户通过视觉展示动作序列,为机器人操作提供所需信息。视觉系统收集用于机器人执行的视觉参数。

医疗健康应用凸显了技术红利与风险并存。虽然 GPT-4V 能准确识别 CT 扫描图像中的操作场景,但对超声视频的分析仍受安全限制约束。团队强调,诊断智能体必须与知识检索智能体配合,通过实时验证避免错误诊断,例如在皮肤病灶分类任务中,直接调用 ISIC 皮肤病变数据库比对可减少 67% 的误判。

图 4. 在医疗保健图像理解领域使用 GPT-4V 时的示例提示和响应。从左到右: ( 1 ) 护士和医生进行 CT 扫描的图像, ( 2 ) 不规则心电图扫描的合成图像, ( 3 ) 来自 ISIC (Codella et al., 2018)皮肤病变数据集的图像。我们可以看到 GPT-4V 拥有大量的医学知识,能够对医学图像进行推理。然而,由于安全训练,它无法对一些医学图像进行诊断。

数据与伦理:智能体社会的双刃剑

论文还深入探讨了 Agent AI 的伦理框架,训练数据偏差(如过度代表西方社会文化)、历史文本中的歧视性语言、隐私保护等问题亟待解决。团队提出的 " 包容性设计 "(Inclusive Design)包含九大原则:从多样化训练数据、文化敏感性到无障碍交互设计。在医疗等高风险领域,采用 " 红队测试 "(Red-teaming)使用一个专门的对手团队开展对抗性工作,主动暴露系统弱点,并建立人工审核闭环。值得关注的是,研究团队特别指出当前智能体在情感推理(Emotional Reasoning)上的不足,开发的 NICE 数据集通过 200 万张图像的情感标注,训练出能生成共情评论的 MAGIC 模型,但跨文化情感理解仍是难点。

未来挑战:从模拟到现实的最后一公里

尽管 Agent AI 在模拟环境(如 Habitat、VirtualHome)中表现优异,但 " 模拟到现实迁移 "(Sim-to-Real Transfer)仍是瓶颈。团队对比了三种解决方案:通过域随机化(Domain Randomization)增加训练多样性、利用 CycleGAN 进行跨域图像转换,以及开发光真实模拟器。在机器人抓取任务中,结合物理引擎的 Neural Radiance Fields 技术将操作成功率提高了 40%,但动态环境下的长期规划仍需要突破。研究者呼吁更多人参与,共同攻克多模态具身智能的终极难题——如何让机器像人类一样,通过持续的环境交互实现自我进化(Self-improvement)。

彭晨 | 编译

关于集智俱乐部

集智俱乐部成立于 2003 年,是一个从事学术研究、享受科学乐趣的探索者的团体,也是国内最早的研究人工智能、复杂系统的科学社区。它倡导以平等开放的态度、科学实证的精神,进行跨学科的研究与交流,力图搭建一个中国的 " 没有围墙的研究所 "。集智科学研究中心(民间企业)是集智俱乐部的运营主体,长期运营社区生态,催化理论创新。使命:营造跨学科探索小生境,催化复杂性科学新理论。

「大模型时代下的人机交互与协同」读书会

集智俱乐部联合中国科学技术大学教授赵云波、华东师范大学副教授吴兴蛟两位老师共同发起「大模型时代下的人机交互与协同」读书会。本次读书会将探讨:

人类智能和机器智能各自的优势有哪些?智能边界如何?如何通过更有效的标注策略和数据生成技术来解决数据稀缺问题?如何设计更加高效的人机协作系统,实现高效共赢的效果?如何提高机器决策的可解释性与透明性,确保系统的可信度?如何通过多模态协作融合不同感知通道,应对复杂的决策任务?

读书会计划从 6 月 21 日开始,每周六晚 19:00-21:00 进行,预计持续约 8 周。诚挚邀请领域内研究者、寻求跨领域融合的研究者加入,共同探讨。

详情请见:人类与机器的智慧碰撞:大模型时代下的人机交互与协同读书会启动

探索者计划 | 集智俱乐部 2025 内容团队招募(全职 & 兼职)