42Digest

AI研究快报

用AI跟踪日新月异的AI领域进展

大模型底座

Uni-MoE: 使用专家混合扩展统一多模态大语言模型

标题: Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts

作者: Yunxin Li, Shenyuan Jiang, Baotian Hu, Longyue Wang, Wanqi Zhong, Wenhan Luo, Lin Ma, Min Zhang

关键词: Multimodal Language Models, Mixture of Experts, Unified Model, Computational Efficiency

摘要: 最近,多模态大语言模型(MLLMs)的发展突显了可扩展模型和数据的重要性以提升性能,然而这往往会带来可观的计算成本。尽管专家混合(MoE)架构已被用于高效扩展大型语言和图像-文本模型,但这些工作通常涉及较少的专家和有限的模态。为解决这一问题,我们的工作首次尝试开发了一个带有MoE架构的统一MLLM,名为Uni-MoE,可以处理各种模态。具体来说,它具有模态特定的编码器,并具有用于统一多模态表示的连接器。我们还在LLMs内实现了稀疏MoE架构,以实现通过模态级数据并行和专家级模型并行来进行高效训练和推理。为了增强多专家协作和泛化,我们提出了一种渐进式训练策略:1)使用不同的跨模态数据进行各种连接器的跨模态对齐,2)使用跨模态指导数据训练模态特定专家以激活专家的偏好,3)利用混合多模态指导数据上的低秩适应(LoRA)来调整Uni-MoE框架。我们在一套全面的多模态数据集上评估了指导调整的Uni-MoE。广泛的实验结果表明Uni-MoE在处理混合多模态数据时显著减少了性能偏差,具有显著优势。

小结: 我们提出了Uni-MoE,这是一个使用MoE架构的统一多模态LLM,能够处理多种模态。我们的模型通过广泛的实验结果证明了在处理混合多模态数据时显著减少性能偏差的主要优势。

阅读原文

AI 意识是不可避免的:一个理论计算机科学的视角

标题: AI Consciousness is Inevitable: A Theoretical Computer Science Perspective

作者: Lenore Blum, Manuel Blum

关键词: 理论计算机科学, 机器意识

摘要: 我们从理论计算机科学的角度来看待意识,这是数学的一个分支,研究在资源限制下的计算。从这个角度出发,我们为意识开发了一个正式的机器模型。该模型受到 Alan Turing 简单而强大的计算模型和 Bernard Baars 的意识剧场模型的启发。尽管非常简单,但该模型在高层次上与许多主要的人类和动物意识科学理论相一致,支持我们的观点,即机器意识是不可避免的。

小结: 该论文通过理论计算机科学的视角探讨了意识问题,提出了一种机器意识的形式化模型,支持了机器意识是不可避免的观点。

阅读原文

多样本上下文学习在多模态基础模型中的应用

标题: Many-Shot In-Context Learning in Multimodal Foundation Models

作者: Yixing Jiang, Jeremy Irvin, Ji Hun Wang, Muhammad Ahmed Chaudhry, Jonathan H. Chen, Andrew Y. Ng

关键词: 多模态基础模型, 在上下文学习, 多样本学习, 多领域分类

摘要: 众所周知,大型语言模型在少样本上下文学习(ICL)方面非常有效。最近在多模态基础模型的进展使得探索它们在执行更多演示示例的情况下进行 ICL 的能力成为可能。在这项工作中,我们评估了从少样本到多样本 ICL 的多模态基础模型的性能。我们在跨多个领域(自然图像、医学图像、遥感和分子图像)和任务(多类、多标签和细粒度分类)的 10 个数据集上对 GPT-4o 和 Gemini 1.5 Pro 进行了基准测试。我们观察到,包括将近 2000 个多模态演示示例的多样本 ICL 相比于少样本(100 个示例)ICL 在所有数据集上都带来了显著的改进。此外,Gemini 1.5 Pro 的性能在多个数据集上持续以对数线性方式提高,直到测试示例的最大数量。鉴于执行多样本 ICL 需要长提示所带来的高推理成本,我们还探讨了在单个 API 调用中批处理多个查询的影响。我们表明,批处理多达 50 个查询可以在零样本和多样本 ICL 下带来性能改进,在多个数据集的零样本设置中大幅降低每个查询的成本和延迟。最后,我们衡量了模型的 ICL 数据效率,即模型从更多演示示例中学习的速率。

小结: 该论文评估了多模态基础模型在从少样本到多样本上下文学习的性能,并展示了在多个数据集和任务上的显著改进。此外,论文还探讨了批量查询对零样本和多样本上下文学习性能的影响,以及对查询成本和延迟的减少。

阅读原文

部署长上下文 Transformer 的挑战:理论性能分析

标题: Challenges in Deploying Long-Context Transformers: A Theoretical Peak Performance Analysis

作者: Yao Fu

关键词: 长文本处理, AI应用, 性能分析

摘要: 基于 Transformer 的长上下文生成模型推动了新兴的 AI 应用,如长达一小时的视频理解和项目级编码智能体。部署长上下文 Transformer(例如 100K 到 10M 个 Token)与短上下文(例如 4K 个 Token)模型变体相比成本高得离谱。降低长上下文 Transformer 的成本正变成从 2024 年开始的一个紧迫的研究和工程挑战。本文描述了一个并发编程框架,用于定量分析在 GPU 高带宽内存(HBM)有限情况下为多个长上下文请求提供服务的效率挑战。我们详细分析了与 4K 上下文相比的所有额外计算成本是如何追溯到一个单一来源:大规模的 KV 缓存。我们以 A100 NVLink 上的 50K 上下文的 34B GPT-3.5 级模型为运行示例,并描述了它的大 KV 缓存导致了四种部署挑战:(1)预填充长输入所需的计算时间和 GPU 内存比短输入多得多;(2)预填充后,驻留在 GPU HBM 上的大 KV 缓存大大限制了正在服务的并发用户数量;(3)在解码期间,重复从 HBM 读取 KV 缓存大大增加了延迟;(4)当 KV 缓存内存溢出时,将其从 HBM 交换到 DDR 会导致显著的上下文切换延迟。我们使用这个框架来分析现有的工作,并确定结合现有工作的可能性。

小结: 本文描述了长文本变压器模型的部署挑战,并提出了一个并行编程框架来定量分析长文本请求的效率挑战。作者详细分析了与4K上下文相比,所有额外的计算成本都可以追溯到一个单一的来源:大型KV缓存的大小。

阅读原文

大模型安全

使用 LM 模拟沙盒识别 LM 智能体的风险

标题: Identifying the Risks of LM Agents with an LM-Emulated Sandbox

作者: Yangjun Ruan, Honghua Dong, Andrew Wang, Silviu Pitis, Yongchao Zhou, Jimmy Ba, Yann Dubois, Chris J. Maddison, Tatsunori Hashimoto

关键词: 语言模型风险, 安全评估, 自动化测试, 风险识别

摘要: 最近 LM 智能体和工具使用的进展,如 ChatGPT 插件,使得具有丰富功能的工具成为可能,但也放大了潜在风险,例如泄露私人数据或造成财务损失。识别这些风险是一项需要大量人力的工作,需要手动实现工具、为每个测试场景设置环境,并找到有风险的情况。随着工具和智能体变得更加复杂,测试这些智能体的成本将使寻找高风险、长尾风险变得越来越困难。为了解决这些挑战,我们引入了 ToolEmu:一个使用 LM 模拟工具执行的框架,可以在不需要手动实例化的情况下测试 LM 智能体与各种工具和场景。除了模拟器,我们还开发了一个基于 LM 的自动安全评估器,用于检查智能体的失败并量化相关风险。我们通过人工评估测试了工具模拟器和评估器,并发现使用 ToolEmu 鉴定的 68.8% 的失败将是有效的真实世界智能体失败。使用我们精心策划的初步基准测试,其中包括 36 个高风险工具和 144 个测试案例,我们提供了对当前 LM 智能体的定量风险分析,并确定了许多具有潜在严重后果的失败。值得注意的是,即使是最安全的 LM 智能体根据我们的评估器也会有 23.9% 的失败率,突出了开发真实世界部署更安全的 LM 智能体的必要性。

小结: 本文介绍了一种使用语言模型模拟工具执行的框架,用于测试语言模型的风险。作者开发了基于语言模型的自动安全评估器,用于检查代理失败并量化相关风险。该工作为语言模型风险的识别和评估提供了新的方法,对开发更安全的语言模型代理具有重要意义。

阅读原文