42Digest

AI研究快报

用AI跟踪日新月异的AI领域进展

大模型底座

Arctic-Embed: 可扩展、高效和准确的文本嵌入模型

标题: Arctic-Embed: Scalable, Efficient, and Accurate Text Embedding Models

作者: Luke Merrick, Danmei Xu, Gaurav Nuti, Daniel Campos

关键词: 文本嵌入, 训练数据, 模型性能, 信息检索

摘要: 本报告描述了 exttt{arctic-embed} 文本嵌入模型家族(一组从 22 到 334 百万参数范围内的五个模型,其权重在 Apache-2 许可下开源)的训练数据集创建和配方。在发布时,每个模型在 MTEB 检索排行榜上均达到了其规模模型的最新检索准确性,其中最大的模型 arctic-embed-l 超过了闭源嵌入模型,如 Cohere 的 embed-v3 和 Open AI 的 text-embed-3-large。除了我们的训练配方的细节,我们还提供了几个有益的消融研究,我们认为这些是我们模型性能的原因。

小结: 本文描述了 exttt{arctic-embed}文本嵌入模型系列的训练数据集创建和配方。在发布时,每个模型在MTEB检索排行榜上都取得了最先进的检索准确性,其中最大的模型arctic-embed-l超越了Cohere的embed-v3和Open AI的text-embed-3-large等闭源嵌入模型。此外,我们提供了几个信息丰富的消融研究,我们相信这是我们模型性能的原因。

阅读原文

DeepSeek-V2: 一种强大、经济、高效的专家混合语言模型

标题: DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

作者: DeepSeek-AI

关键词: 自然语言处理, 机器学习, 深度学习, 语言模型

摘要: 我们提出了DeepSeek-V2,这是一种强大的专家混合(MoE)语言模型,具有经济的训练和高效的推断特性。它包含2360亿个总参数,其中每个token激活了210亿个参数,并支持128K个token的上下文长度。DeepSeek-V2采用了创新的架构,包括多头潜在注意力(MLA)和DeepSeekMoE。MLA通过将关键-值(KV)缓存显著压缩为潜在向量,确保了高效的推断,而DeepSeekMoE通过稀疏计算使得在经济成本下训练强大的模型成为可能。与DeepSeek 67B相比,DeepSeek-V2在性能上显著更强,同时节省了42.5%的训练成本,将KV缓存减少了93.3%,并将最大生成吞吐量提升了5.76倍。我们在由81万亿个token组成的高质量多源语料库上对DeepSeek-V2进行了预训练,并进一步进行了监督微调(SFT)和强化学习(RL)以充分释放其潜力。评估结果表明,即使只有210亿个激活参数,DeepSeek-V2及其聊天版本仍然在开源模型中表现出顶尖水平。

小结: DeepSeek-V2是一种强大的混合专家语言模型,具有经济的训练和高效的推断。该模型采用了创新的架构,包括多头潜在注意力(MLA)和DeepSeekMoE,实现了显著的性能提升和训练成本节约。DeepSeek-V2在高质量和多源语料库上进行了预训练,并通过监督微调和强化学习进一步释放了其潜力。评估结果表明,即使只有21B激活参数,DeepSeek-V2及其聊天版本仍然在开源模型中表现出色。

阅读原文

DeepSeek-V2: 一种强大、经济、高效的专家混合语言模型

标题: DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

作者: DeepSeek-AI

关键词: 深度学习, 自然语言处理, 混合专家模型, 训练经济性

摘要: 我们提出了DeepSeek-V2,这是一种强大的专家混合(MoE)语言模型,具有经济的训练和高效的推断特性。它包含2360亿个总参数,其中每个token激活了210亿个参数,并支持128K个token的上下文长度。DeepSeek-V2采用了创新的架构,包括多头潜在注意力(MLA)和DeepSeekMoE。MLA通过将关键-值(KV)缓存显著压缩为潜在向量,确保了高效的推断,而DeepSeekMoE通过稀疏计算使得在经济成本下训练强大的模型成为可能。与DeepSeek 67B相比,DeepSeek-V2在性能上显著更强,同时节省了42.5%的训练成本,将KV缓存减少了93.3%,并将最大生成吞吐量提升了5.76倍。我们在由81万亿个token组成的高质量多源语料库上对DeepSeek-V2进行了预训练,并进一步进行了监督微调(SFT)和强化学习(RL)以充分释放其潜力。评估结果表明,即使只有210亿个激活参数,DeepSeek-V2及其聊天版本仍然在开源模型中表现出顶尖水平。

小结: DeepSeek-V2 是一个强大的混合专家语言模型,具有经济性的训练和高效的推断。它采用了创新的架构,包括多头潜在注意力(MLA)和 DeepSeekMoE。MLA 通过将 Key-Value(KV)缓存显著压缩为潜在向量,确保了高效的推断;DeepSeekMoE 通过稀疏计算实现了经济性的强大模型训练。相对于 DeepSeek 67B,DeepSeek-V2 在性能上取得了显著的提升,并且节约了 42.5% 的训练成本,减少了 93.3% 的 KV 缓存,并将最大生成吞吐量提升了 5.76 倍。

阅读原文

基于注意力驱动的无训练效率增强扩散模型

标题: Attention-Driven Training-Free Efficiency Enhancement of Diffusion Models

作者: Hongjie Wang, Difan Liu, Yan Kang, Yijun Li, Zhe Lin, Niraj K. Jha, Yuchen Liu

关键词: 扩散模型, 注意力机制, 图结构算法, 图神经网络

摘要: 扩散模型(DMs)在生成高质量和多样化的图像方面表现出卓越的性能。然而,这种出色的性能是以昂贵的架构设计为代价的,特别是由于在主导模型中大量使用的注意力模块。现有的工作主要采用重新训练的过程来增强 DM 的效率。这在计算上是昂贵的,而且不太可扩展。为此,我们引入了基于注意力驱动的无训练高效扩散模型(AT-EDM)框架,利用注意力图在运行时对冗余标记进行修剪,而无需任何重新训练。具体而言,对于单去噪步骤修剪,我们开发了一种新颖的排名算法——广义加权页排序(G-WPR),以识别冗余标记,并基于相似性的恢复方法来恢复卷积操作的标记。此外,我们提出了一种称为去噪步骤感知修剪(DSAP)的方法,以调整不同去噪时间步骤上的修剪预算,以获得更好的生成质量。广泛的评估显示,AT-EDM 在效率方面表现优于先前的艺术水平(例如,FLOPs 节省 38.8%,比 Stable Diffusion XL 快了多达 1.53 倍),同时保持几乎与完整模型相同的 FID 和 CLIP 分数。项目网页:this https URL。

小结: 提出了 Attention-driven Training-free Efficient Diffusion Model (AT-EDM) 框架,利用注意力图进行运行时冗余标记修剪,无需重新训练。通过单去噪步骤修剪和去噪步骤感知修剪方法,实现了效率提升,同时保持几乎与完整模型相同的 FID 和 CLIP 分数。

阅读原文

大模型安全

走向保证安全的 AI: 保证鲁棒可靠的 AI 系统框架

标题: Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems

作者: David "davidad" Dalrymple, Joar Skalse, Yoshua Bengio, Stuart Russell, Max Tegmark, Sanjit Seshia, Steve Omohundro, Christian Szegedy, Ben Goldhaber, Nora Ammann, Alessandro Abate, Joe Halpern, Clark Barrett, Ding Zhao, Tan Zhi-Xuan, Jeannette Wing, Joshua Tenenbaum

关键词: 人工智能安全, 可靠性保证, AI系统, 安全规范

摘要: 确保 AI 系统可靠地和鲁棒地避免有害或危险行为是一个关键挑战,特别是对于具有高度自治和通用智能的 AI 系统,或者在安全关键环境中使用的系统。在本文中,我们将介绍和定义一系列 AI 安全方法,我们将其称为保证安全 (GS) AI。这些方法的核心特征是它们旨在产生装备有高保证量化安全保证的 AI 系统。这是通过三个核心组件的相互作用实现的:世界模型(提供 AI 系统如何影响外部世界的数学描述)、安全规范(对可接受影响的数学描述)和验证器(提供 AI 相对于世界模型满足安全规范的可审计证明证书)。我们概述了创建这三个核心组件的一些方法,描述了主要的技术挑战,并提出了一些潜在的解决方案。我们还论证了这种方法对于 AI 安全的必要性,以及主要替代方法的不足之处。

小结: 本文介绍了一种名为Guaranteed Safe(GS)AI的AI安全方法。该方法旨在为AI系统提供高保证的定量安全保证,通过世界模型、安全规范和验证器的相互作用实现。论述了创建这三个核心组件的几种方法,描述了主要的技术挑战,并提出了一些潜在的解决方案。该方法对AI安全至关重要,是主要替代方法的不足。

阅读原文

情境化策略恢复:通过自适应模仿学习对医疗决策进行建模和解释

标题: Contextualized Policy Recovery: Modeling and Interpreting Medical Decisions with Adaptive Imitation Learning

作者: Jannik Deuschel, Caleb N. Ellington, Yingtao Luo, Benjamin J. Lengerich, Pascal Friederich, Eric P. Xing

关键词: Interpretable Policy Learning, Contextualized Policy Recovery, Multi-task Learning, 可解释策略学习, 上下文化策略恢复, 多任务学习

摘要: 可解释的策略学习旨在从观察到的行为中估计可理解的决策策略;然而,现有模型在准确性和可解释性之间强加了一种权衡,限制了对人类决策过程的数据驱动解释。从根本上讲,现有方法受到这种权衡的限制,因为它们将潜在决策过程表示为通用策略,而实际上人类决策是动态的,在不同情境下可能会发生巨大变化。因此,我们开发了情境化策略恢复(CPR),它将建模复杂决策过程的问题重新构建为一个多任务学习问题,其中每个情境构成一个独特的任务,并且复杂的决策策略可以从许多简单的情境特定策略中逐段构建。CPR 将每个情境特定策略建模为一个线性映射,并且随着新观察到的情境的更新,可以按需生成新的策略模型。我们提供了 CPR 框架的两种版本:一种专注于精确的局部可解释性,另一种保留完全的全局可解释性。我们通过模拟和真实数据的研究评估了 CPR,在预测重症监护室抗生素处方(与先前 SOTA 相比 AUROC 提高了 22%)和预测阿尔茨海默病患者的 MRI 处方(与先前 SOTA 相比 AUROC 提高了 7.7%)方面取得了最先进的性能。通过这种改进,CPR 缩小了可解释和黑盒方法之间的准确性差距,允许对特定情境决策模型进行高分辨率的探索和分析。

小结: 我们提出了CPR,通过多任务学习框架,实现了上下文特定决策策略的建模。在模拟和真实数据上取得了最先进的预测性能。

阅读原文