42Digest

AI研究快报

用AI跟踪日新月异的AI领域进展

重磅推荐

柏拉图表征假说

标题: The Platonic Representation Hypothesis

作者: Minyoung Huh, Brian Cheung, Tongzhou Wang, Phillip Isola

关键词: AI模型表示, 深度神经网络, 收敛性, 统计模型

摘要: 我们认为 AI 模型中的表征,特别是深度网络中的表征,正在趋于一致。首先,我们在文献中调查了许多收敛的例子:随着时间的推移和跨多个领域,不同神经网络对数据的表征方式越来越一致。接下来,我们展示了跨数据模态的收敛性:随着视觉模型和语言模型变得更大,它们以越来越相似的方式测量数据点之间的距离。我们假设这种收敛趋势是朝着现实的共享统计模型,类似于柏拉图对理想现实的概念。我们将这样的表征称为柏拉图表征,并讨论了几种可能的对其施加压力的选择性因素。最后,我们讨论了这些趋势的影响、它们的局限性以及对我们分析的反例。

小结: 本文论证了AI模型的表示正在收敛,提出了AI模型表示的柏拉图假设。作者通过文献调研和实验证明了不同神经网络在数据表示上的收敛性,并探讨了这种趋势的影响和局限性。

阅读原文

大模型底座

将System 2提炼为System 1

标题: Distilling System 2 into System 1

作者: Ping Yu, Jing Xu, Jason Weston, Ilia Kulikov

关键词: 自监督学习,大型语言模型,推理,系统蒸馏

摘要: 大语言模型(LLMs)在推理过程中可以额外消耗计算资源来生成中间思想,这有助于产生更好的最终响应。自从Chain-of-Thought(Wei等,2022)以来,已经提出了许多这样的System 2技术,例如Rephrase and Respond(Deng等,2023a)、System 2 Attention(Weston和Sukhbaatar,2023)和Branch-Solve-Merge(Saha等,2023)。在这项工作中,我们研究了自监督方法,将System 2技术中的更高质量输出“编译”(提炼)回到LLM生成中,而不需要中间推理令牌序列,因为这种推理已经被提炼到System 1中。我们展示了几种这样的技术可以成功地被提炼,导致与原始System 1性能相比的改进结果,并且比System 2的推理成本更低。我们认为这样的System 2提炼将成为未来不断学习的AI系统的重要特性,使它们能够将System 2的能力集中在它们尚不能很好地完成的推理任务上。

小结: 该论文调查了将System 2技术中的高质量输出“蒸馏”回LLM生成的自监督方法。作者展示了几种这样的技术可以成功地蒸馏,从而改善了与原始System 1性能相比的结果,并且比System 2具有更低的推理成本。作者认为这种System 2蒸馏将成为未来不断学习的人工智能系统的重要特征。

阅读原文

ShiftAddLLM: 通过后训练无乘法重参数化加速预训练大语言模型

标题: ShiftAddLLM: Accelerating Pretrained LLMs via Post-Training Multiplication-Less Reparameterization

作者: Haoran You, Yipin Guo, Yichao Fu, Wei Zhou, Huihong Shi, Xiaofan Zhang, Souvik Kundu, Amir Yazdanbakhsh, Yingyan Celine Lin

关键词: 大型语言模型, 加速训练, 硬件友好, 位分配策略

摘要: 大语言模型(LLMs)在语言任务上表现出色,但在资源受限设备上部署时面临挑战,因为它们具有庞大的参数和对稠密乘法的依赖,导致内存需求高和延迟瓶颈。Shift-and-add 重参数化通过在LLM的注意力和多层感知器(MLP)层中用硬件友好的原语替换昂贵的乘法,提供了一个有前途的解决方案。然而,当前的重参数化技术要求从头开始训练或完全参数微调以恢复准确性,这对LLMs来说是资源密集型的。为了解决这个问题,我们提出了通过后训练的Shift-and-add 重参数化来加速预训练的LLMs,创建高效的无乘法模型,称为ShiftAddLLM。具体地,我们将每个权重矩阵量化为与分组缩放因子配对的二进制矩阵。相关的乘法被重新参数化为(1)激活和缩放因子之间的位移和(2)根据二进制矩阵的查询和添加。为了减少准确性损失,我们提出了一种多目标优化方法,以最小化权重和输出激活的重参数化误差。此外,基于对重参数化的层之间的敏感性的变化,我们开发了一种自动的位分配策略,以进一步减少内存使用和延迟。对五个LLM系列和八个任务的实验一致验证了该效果。

小结: 本文提出了一种加速预训练大型语言模型的方法ShiftAddLLM,通过后训练的位分配策略实现了高效的无乘法模型。作者通过实验证明了该方法在多个任务上的有效性。

阅读原文

行业大模型

借助 AI 智能体赋能生物医学发现

标题: Empowering Biomedical Discovery with AI Agents

作者: Shanghua Gao, Ada Fang, Yepeng Huang, Valentina Giunchiglia, Ayush Noori, Jonathan Richard Schwarz, Yasha Ektefaie, Jovana Kondic, Marinka Zitnik

关键词: 生物医学, AI代理, 大规模数据分析, 机器学习

摘要: 我们设想“AI 科学家”是能够进行怀疑性学习和推理的系统,通过与实验平台集成的协作智能体,将 AI 模型和生物医学工具赋能生物医学研究。生物医学 AI 智能体不是要剥夺人类参与发现过程的角色,而是将人类的创造力和专业知识与 AI 分析大型数据集、导航假设空间以及执行重复任务的能力相结合。AI 智能体有望熟练掌握各种任务,规划发现工作流程,并进行自我评估以识别和弥补知识中的差距。这些智能体使用大型语言模型和生成模型来具备结构化记忆,以进行持续学习,并利用机器学习工具整合科学知识、生物学原理和理论。AI 智能体可以影响从虚拟细胞模拟、可编程控制表型到细胞电路设计以及开发新疗法等领域。

小结: 本文提出了一种将AI代理与生物医学工具和实验平台相结合的理念,强调AI代理在生物医学研究中的潜在作用,包括虚拟细胞模拟、表型可编程控制和新疗法设计。

阅读原文

大模型测评

Belebele 基准:122 种语言变体的并行阅读理解数据集

标题: The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants

作者: Lucas Bandarkar, Davis Liang, Benjamin Muller, Mikel Artetxe, Satya Narayan Shukla, Donald Husa, Naman Goyal, Abhinandan Krishnan, Luke Zettlemoyer, Madian Khabsa

关键词: 自然语言理解, 机器阅读理解, 多语言模型, 多语言数据集

摘要: 我们提出 Belebele,一个跨越 122 种语言变体的多项选择机器阅读理解(MRC)数据集。这一数据集显著扩展了自然语言理解(NLU)基准的语言覆盖范围,使得可以在高、中、低资源语言中评估文本模型。每个问题都基于 Flores-200 数据集中的短段落,并有四个多项选择答案。这些问题经过精心筛选,可以区分具有不同程度的一般语言理解能力的模型。仅英语数据集就足够具有挑战性,可以挑战最先进的语言模型。由于完全并行,该数据集可以直接比较所有语言中模型的性能。我们使用该数据集来评估多语言掩盖语言模型(MLMs)和大型语言模型(LLMs)的能力。我们提出了广泛的结果,并发现尽管以英语为中心的 LLMs 具有显著的跨语言转移能力,但在平衡的多语言数据上预训练的较小 MLMs 仍然理解更多的语言。我们还观察到更大的词汇量和有意识的词汇构建与低资源语言的更好性能相关。总的来说,Belebele 为评估和分析 NLP 系统的多语言能力开辟了新的途径。

小结: Belebele数据集是一个跨122种语言变体的多选机器阅读理解数据集,扩展了自然语言理解基准的语言覆盖范围。该数据集使得可以在高、中、低资源语言中评估文本模型的性能。通过对多语言掩码语言模型(MLMs)和大型语言模型(LLMs)的能力进行评估,发现较小的MLMs在平衡的多语言数据上预训练后,仍然能够理解更多的语言。此外,较大的词汇量和有意识的词汇构建与低资源语言上的更好性能相关。Belebele为评估和分析NLP系统的多语言能力开辟了新的途径。

阅读原文