42Digest

重磅推荐

Phi-3技术报告：在您的手机上本地高性能语言模型

标题: Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

作者: Marah Abdin, Sam Ade Jacobs, Ammar Ahmad Awan, Jyoti Aneja, Ahmed Awadallah, Hany Awadalla, Nguyen Bach, Amit Bahree, Arash Bakhtiari, Jianmin Bao, Harkirat Behl, Alon Benhaim, Misha Bilenko, Johan Bjorck, Sébastien Bubeck, Qin Cai, Martin Cai, Caio César Teodoro Mendes, Weizhu Chen, Vishrav Chaudhary, Dong Chen, Dongdong Chen, Yen-Chun Chen, Yi-Ling Chen, Parul Chopra, Xiyang Dai, Allie Del Giorno, Gustavo de Rosa, Matthew Dixon, Ronen Eldan, Victor Fragoso, Dan Iter, Mei Gao, Min Gao, Jianfeng Gao, Amit Garg, Abhishek Goswami, Suriya Gunasekar, Emman Haider, Junheng Hao, Russell J. Hewett, Jamie Huynh, Mojan Javaheripi, Xin Jin, Piero Kauffmann, Nikos Karampatziakis, Dongwoo Kim, Mahoud Khademi, Lev Kurilenko, James R. Lee, Yin Tat Lee, Yuanzhi Li, Yunsheng Li, Chen Liang, Lars Liden, Ce Liu, Mengchen Liu, Weishung Liu, Eric Lin, Zeqi Lin, Chong Luo, Piyush Madan, Matt Mazzola, Arindam Mitra, Hardik Modi, Anh Nguyen, Brandon Norick, Barun Patra, Daniel Perez-Becker, Thomas Portet, Reid Pryzant, Heyang Qin, Marko Radmilac, Corby Rosset, Sambudha Roy, Olatunji Ruwase, Olli Saarikivi, Amin Saied, Adil Salim, Michael Santacroce, Shital Shah, Ning Shang, Hiteshi Sharma, Swadheen Shukla, Xia Song, Masahiro Tanaka, Andrea Tupini, Xin Wang, Lijuan Wang, Chunyu Wang, Yu Wang, Rachel Ward, Guanhua Wang, Philipp Witte, Haiping Wu, Michael Wyatt, Bin Xiao, Can Xu, Jiahang Xu, Weijian Xu

关键词： 语言模型, 参数缩放, 图像推理, 文本提示

摘要: 我们介绍了phi-3-mini，这是一个拥有38亿参数的语言模型，训练了33万亿个token，其整体性能在学术基准测试和内部测试中均能与Mixtral 8x7B和GPT-3.5等模型相媲美（例如，phi-3-mini在MMLU上达到了69%，在MT-bench上达到了8.38），尽管足够小可以部署在手机上。创新完全在于我们用于训练的数据集，这是phi-2使用的数据集的扩大版本，由严格筛选的公开可用网络数据和合成数据组成。该模型还进一步针对鲁棒性、安全性和聊天格式进行了调整。我们还提供了一些初始的参数缩放结果，使用了分别训练了48万亿个token的7B和14B模型，称为phi-3-small和phi-3-medium，两者均比phi-3-mini更具能力（例如，在MMLU上分别达到了75%和78%，在MT-bench上分别达到了8.7和8.9）。此外，我们还介绍了phi-3-vision，这是一个基于phi-3-mini的42亿参数模型，具有强大的图像和文本提示的推理能力。

小结: 本文介绍了phi-3-mini，一个在手机上部署的性能与Mixtral 8x7B和GPT-3.5相媲美的语言模型。创新在于使用扩展的数据集进行训练，并且进一步对鲁棒性、安全性和聊天格式进行了调整。

阅读原文

大模型底座

Gemini：一系列高性能多模态模型

标题: Gemini: A Family of Highly Capable Multimodal Models

作者: Gemini Team Google: Rohan Anil, Sebastian Borgeaud, Jean-Baptiste Alayrac, Jiahui Yu, Radu Soricut, Johan Schalkwyk, Andrew M. Dai, Anja Hauth, Katie Millican, David Silver, Melvin Johnson, Ioannis Antonoglou, Julian Schrittwieser, Amelia Glaese, Jilin Chen, Emily Pitler, Timothy Lillicrap, Angeliki Lazaridou, Orhan Firat, James Molloy, Michael Isard, Paul R. Barham, Tom Hennigan, Benjamin Lee, Fabio Viola, Malcolm Reynolds, Yuanzhong Xu, Ryan Doherty, Eli Collins, Clemens Meyer, Eliza Rutherford, Erica Moreira, Kareem Ayoub, Megha Goel, Jack Krawczyk, Cosmo Du, Ed Chi, Heng-Tze Cheng, Eric Ni, Purvi Shah, Patrick Kane, Betty Chan, Manaal Faruqui, Aliaksei Severyn, Hanzhao Lin, YaGuang Li, Yong Cheng, Abe Ittycheriah, Mahdis Mahdieh, Mia Chen, Pei Sun, Dustin Tran, Sumit Bagri, Balaji Lakshminarayanan, Jeremiah Liu, Andras Orban, Fabian Güra, Hao Zhou, Xinying Song, Aurelien Boffy, Harish Ganapathy, Steven Zheng, HyunJeong Choe, Ágoston Weisz, Tao Zhu, Yifeng Lu, Siddharth Gopal, Jarrod Kahn, Maciej Kula, Jeff Pitman, Rushin Shah, Emanuel Taropa, Majd Al Merey, Martin Baeuml, Zhifeng Chen, Laurent El Shafey, Yujing Zhang, Olcan Sercinoglu, George Tucker, Enrique Piqueras, Maxim Krikun, Iain Barr, Nikolay Savinov, Ivo Danihelka, Becca Roelofs, Anaïs White, Anders Andreassen, Tamara von Glehn, Lakshman Yagati, Mehran Kazemi, Lucas Gonzalez, Misha Khalman, Jakub Sygnowski, Alexandre Frechette, Charlotte Smith, Laura Culp, Lev Proleev, Yi Luan, Xi Chen

关键词： 多模态模型, 图像理解, 文本理解, 语言理解

摘要: 本报告介绍了一种新的多模态模型Gemini，它在图像、音频、视频和文本理解方面表现出显著的能力。Gemini系列包括Ultra、Pro和Nano三种规格，适用于从复杂推理任务到设备内存受限的用例。在广泛的基准测试中，我们最强大的Gemini Ultra模型在32个基准中有30个取得了最新的技术成果——特别是首次在广受关注的考试基准MMLU上实现了人类专家水平，并在我们检查的20个多模态基准中改进了技术水平。我们相信Gemini家族在跨模态推理和语言理解方面的新能力将实现各种用例。我们讨论了我们在向用户负责地进行Gemini模型的后训练和部署方面的方法，这包括Gemini、Gemini Advanced、Google AI Studio和Cloud Vertex AI等服务。

小结: 该报告介绍了一种新的多模态模型Gemini，它在图像、音频、视频和文本理解方面表现出卓越的能力。Gemini家族的评估显示，其最强大的Gemini Ultra模型在32个基准测试中有30个取得了进展，这将使其能够应用于广泛的用例。

阅读原文

扩散模型的量子电路合成

标题: Quantum circuit synthesis with diffusion models

作者: Florian Fürrutter, Gorka Muñoz-Gil, Hans J. Briegel

关键词： 量子计算, 机器学习, 量子电路合成

摘要: 量子计算最近已成为一种变革性技术。然而，其承诺的优势依赖于将量子操作有效地转化为可行的物理实现。在这项工作中，我们使用生成式机器学习模型，特别是去噪扩散模型（DMs），来促进这种转化。通过利用文本调节，我们引导模型在基于门的量子电路中产生所需的量子操作。值得注意的是，DMs在训练过程中允许规避在经典模拟量子动力学中固有的指数级开销，这是先前机器学习技术中的一个一贯瓶颈。我们展示了模型在两个任务中的能力：纠缠生成和酉编译。该模型擅长生成新的电路，并支持典型的DM扩展，如遮罩和编辑，以便将电路生成与目标量子设备的约束对齐。鉴于其灵活性和泛化能力，我们认为DMs在量子电路合成中至关重要，不仅增强了实际应用，还增进了对理论量子计算的见解。

小结: 本文利用去噪扩散模型（DMs）来促进量子电路合成，展示了该模型在量子计算中的潜力。DMs在生成新电路方面表现出卓越能力，并支持典型的DM扩展，例如遮蔽和编辑，从而对齐电路生成到目标量子设备的约束。

阅读原文

ReFT：语言模型的表示微调

标题: ReFT: Representation Finetuning for Language Models

作者: Zhengxuan Wu, Aryaman Arora, Zheng Wang, Atticus Geiger, Dan Jurafsky, Christopher D. Manning, Christopher Potts

关键词： Language Models, Representation Finetuning, Efficiency, Commonsense Reasoning

摘要: 参数高效微调 (PEFT) 方法旨在通过对少量权重的更新来调整大型神经模型。然而，许多先前的可解释性工作表明，表示编码了丰富的语义信息，这表明编辑表示可能是一个更强大的替代方案。我们通过开发一系列表示微调 (ReFT) 方法来探索这一假设。ReFT 方法在一个冻结的基础模型上运行，并学习对隐藏表示的特定任务干预。我们定义了 ReFT 家族的一个强实例，即低秩线性子空间 ReFT (LoReFT)，并确定了这种方法的一个消融版本，它在一定程度上牺牲了性能以换取更高的效率。这两种方法都可以替代现有的 PEFT，并学习出的干预比 LoRA 高出 15-65 倍的参数效率。我们在八个常识推理任务、四个算术推理任务、指令微调和 GLUE 上展示了 LoReFT。在所有这些评估中，我们的 ReFTs 提供了效率和性能的最佳平衡，并几乎总是优于最先进的 PEFT。我们在此 https URL 公开发布了一个通用的 ReFT 训练库。

小结: ReFT方法是一种在冻结基础模型上学习任务特定干预的新方法，展示了在效率和性能方面的最佳平衡，并几乎总是优于最先进的PEFT方法。

阅读原文

分形模式可能阐明下一个 Token 预测的成功

标题: Fractal Patterns May Illuminate the Success of Next-Token Prediction

作者: Ibrahim Alabdulmohsin, Vinh Q. Tran, Mostafa Dehghani

关键词： Fractal Patterns, Language Structure, Next-Token Prediction, Long-range Dependencies

摘要: 我们研究了语言的分形结构，旨在提供一个精确的形式化，以量化先前可能被怀疑但尚未得到正式证明的属性。我们确定语言是：（1）自相似的，在所有粒度水平上都表现出复杂性，没有特定的特征上下文长度；（2）长程相关的，具有约 H=0.7 的 Hurst 参数。基于这些发现，我们认为语言中的短期模式/依赖，例如段落中的模式/依赖，反映了整个文档中的模式/依赖。这可能会解释下一个 Token 预测如何捕捉文本的结构，跨多个粒度级别，从单词和从句到更广泛的上下文和意图。此外，我们在不同领域和架构中进行了广泛的分析，显示分形参数是稳健的。最后，我们证明了在 LLMs 中看到的分形参数的微小变化改进了基于困惑度的每字节比特（BPB）在预测其下游性能方面。我们希望这些发现能够为语言和 LLMs 成功背后的机制提供新的视角。

小结: 本文研究了语言的分形结构，阐明了语言的自相似性和长程依赖性，以及这些特性对于大型语言模型成功的影响。

阅读原文

视觉细节在Atari中的世界建模中的扩散

标题: Diffusion for World Modeling: Visual Details Matter in Atari

作者: Eloi Alonso, Adam Jelley, Vincent Micheli, Anssi Kanervisto, Amos Storkey, Tim Pearce, François Fleuret

关键词： 强化学习, 世界模型, 扩散模型, 视觉学习

摘要: 世界模型构成了一种训练强化学习智能体的安全且高效的方法。最近的世界模型主要通过对离散潜变量序列进行操作来模拟环境动态。然而，这种压缩成紧凑的离散表示可能忽略了对强化学习重要的视觉细节。与此同时，扩散模型已成为图像生成的主要方法，挑战了建模离散潜变量的传统方法。受这种范式转变的启发，我们引入了DIAMOND（DIffusion As a Model Of eNvironment Dreams），这是一个在扩散世界模型中训练的强化学习智能体。我们分析了使扩散适用于世界建模所需的关键设计选择，并展示了改进的视觉细节如何能够提高智能体的性能。DIAMOND在竞争激烈的Atari 100k基准上实现了1.46的平均人类标准化得分；这是完全在世界模型中训练的智能体的新记录。为了促进未来关于扩散世界建模的研究，我们在此https URL上发布了我们的代码、智能体和可玩的世界模型。

小结: 本文介绍了DIAMOND（DIffusion As a Model Of eNvironment Dreams），这是一个在扩散世界模型中训练的强化学习代理。作者分析了使扩散适合世界建模所需的关键设计选择，并展示了改进的视觉细节如何提高代理性能。DIAMOND在竞争性Atari 100k基准测试中取得了平均人类标准化得分1.46，这是完全在世界模型中训练的代理的新纪录。

阅读原文

大模型测评

通往通用人工智能进展路径的操作化 AGI 水平

标题: Levels of AGI for Operationalizing Progress on the Path to AGI

作者: Meredith Ringel Morris, Jascha Sohl-dickstein, Noah Fiedel, Tris Warkentin, Allan Dafoe, Aleksandra Faust, Clement Farabet, Shane Legg

关键词： 通用人工智能, AGI, 模型分类, 风险评估

摘要: 我们提出了一个框架，用于对人工通用智能 (AGI) 模型及其前身的能力和行为进行分类。该框架引入了 AGI 性能、普适性和自治性的水平，提供了一个共同的语言来比较模型、评估风险，并衡量通往 AGI 的进展。为了发展我们的框架，我们分析了现有的 AGI 定义，并提炼出了一个有用的 AGI 本体论应满足的六个原则。有了这些原则，我们提出了基于能力深度（性能）和广度（普适性）的“AGI 水平”，并反思当前系统如何符合这一本体论。我们讨论了未来基准的具有挑战性的要求，以量化 AGI 模型的行为和能力与这些水平的对比。最后，我们讨论了这些 AGI 水平与部署考虑因素（如自治性和风险）的互动，并强调了谨慎选择人机交互范式对高度能力的 AI 系统的负责和安全部署的重要性。

小结: 提出了AGI性能级别框架，为比较模型、评估风险和衡量通往AGI的进展提供了共同语言，强调了对高度能力AI系统负责和安全部署的重要性。

阅读原文

多样本上下文学习

标题: Many-Shot In-Context Learning

作者: Rishabh Agarwal, Avi Singh, Lei M. Zhang, Bernd Bohnet, Luis Rosias, Stephanie Chan, Biao Zhang, Ankesh Anand, Zaheer Abbas, Azade Nova, John D. Co-Reyes, Eric Chu, Feryal Behbahani, Aleksandra Faust, Hugo Larochelle

关键词： Large Language Models, In-Context Learning, Reinforced Learning, Unsupervised Learning, Reasoning Tasks

摘要: 大语言模型（LLMs）擅长零样本上下文学习（ICL）-- 在推理过程中学习少量提供的上下文示例，而无需进行任何权重更新。新扩展的上下文窗口使我们能够研究具有数百或数千个示例的上下文学习-- 多样本制度。从少样本到多样本，我们观察到在各种生成式和判别式任务中显著的性能提升。尽管有希望，多样本上下文学习可能会受到人工生成示例的可用数量的限制。为了缓解这一限制，我们探索了两种新的设置：强化和无监督上下文学习。强化上下文学习使用模型生成的思维链理由来代替人工示例。无监督上下文学习从提示中完全删除理由，并仅用领域特定的问题提示模型。我们发现，无论是强化上下文学习还是无监督上下文学习在多样本制度上都可以非常有效，特别是在复杂的推理任务上。最后，我们证明，与少样本学习不同，多样本学习能够有效地覆盖预训练偏见，可以学习具有数值输入的高维函数，并且与微调性能相当。我们的分析还揭示了下一个标记预测损失作为下游ICL性能指标的局限性。

小结: 该论文研究了大语言模型在多样本情境学习（ICL）中的表现，提出了强化ICL和无监督ICL两种新设置。研究结果表明，在多样本学习中，ICL可以有效地克服预训练偏见，并在复杂推理任务上表现出色。

阅读原文

大模型安全

在快速进展中管理极端人工智能风险

标题: Managing extreme AI risks amid rapid progress

作者: Yoshua Bengio, Geoffrey Hinton, Andrew Yao, Dawn Song, Pieter Abbeel, Trevor Darrell, Yuval Noah Harari, Ya-Qin Zhang, Lan Xue, Shai Shalev-Shwartz, Gillian Hadfield, Jeff Clune, Tegan Maharaj, Frank Hutter, Atılım Güneş Baydin, Sheila McIlraith, Qiqi Gao, Ashwin Acharya, David Krueger, Anca Dragan, Philip Torr, Stuart Russell, Daniel Kahneman, Jan Brauner, Sören Mindermann

关键词： AI风险管理, 自主AI系统, 技术研究, 治理机制

摘要: 人工智能 (AI) 正在迅速发展，公司正在转向开发可以自主行动和追求目标的通用 AI 系统。能力和自治性的增加可能很快地极大地放大 AI 的影响，带来的风险包括大规模的社会危害、恶意使用以及人类对自主 AI 系统的控制丧失。尽管研究人员已经警告 AI 的极端风险，但关于这些风险究竟是如何产生以及如何管理它们还缺乏共识。尽管社会已经迈出了一些有希望的第一步，但对于许多专家所期望的快速、深刻的进展，社会的反应是不相称的。AI 安全研究滞后。目前的治理举措缺乏机制和机构来防止滥用和鲁莽行为，几乎没有涉及自主系统。在这篇简短的共识论文中，我们描述了即将到来的先进 AI 系统的极端风险。然后，借鉴其他安全关键技术的经验教训，我们概述了一个综合计划，结合技术研究和开发以及积极主动的、适应性的治理机制，以更相称地做好准备。

小结: 本文描述了AI系统的极端风险，并提出了技术研究和主动适应性治理机制相结合的全面计划，以更好地应对即将到来的先进AI系统的极端风险。

阅读原文

AI研究快报

重磅推荐

大模型底座

大模型测评

大模型安全