42Digest

AI研究快报

用AI跟踪日新月异的AI领域进展

大模型底座

通过视觉指导改进基线

标题: Improved Baselines with Visual Instruction Tuning

作者: Haotian Liu, Chunyuan Li, Yuheng Li, Yong Jae Lee

关键词: Large multimodal models, Visual instruction tuning, Vision-language cross-modal connector, VQA data, State-of-the-art, Data-efficient

摘要: 大型多模态模型(LMM)最近通过视觉指导显示出了令人鼓舞的进展。在这篇文章中,我们展示了LLaVA中的全连接视觉-语言跨模态连接器出人意料地强大和数据高效。通过对LLaVA进行简单修改,即使用CLIP-ViT-L-336px与MLP投影,并添加学术任务导向的VQA数据与简单的响应格式提示,我们建立了实现11个基准最新技术的更强基线。我们的最终13B检查点仅使用了120万个公开可用的数据,并在单个8-A100节点上约1天内完成了全面培训。我们希望这可以使最新的LMM研究更容易获得。代码和模型将公开可用。

小结: 本文通过对LLaVA进行简单修改,即使用CLIP-ViT-L-336px和MLP投影,并添加学术任务导向的VQA数据,建立了更强的基线,实现了11项基准测试的最新成果。

阅读原文

语言模型性能的观察缩放定律和可预测性

标题: Observational Scaling Laws and the Predictability of Language Model Performance

作者: Yangjun Ruan, Chris J. Maddison, Tatsunori Hashimoto

关键词: 语言模型性能, 观察性方法, 预测性能, 模型训练

摘要: 了解语言模型性能随规模变化的方式对于基准和算法开发至关重要。缩放定律是建立这种理解的一种方法,但跨多个不同规模的模型进行训练的要求限制了它们的使用。我们提出了一种替代的观察方法,绕过了模型训练,而是从大约80个公开可用模型构建缩放定律。从多个模型系列构建单个缩放定律是具有挑战性的,因为它们的训练计算效率和能力之间存在很大的差异。然而,我们展示了这些变化与一个简单的广义缩放定律一致,其中语言模型性能是低维能力空间的函数,而模型系列仅在将训练计算转换为能力方面的效率上有所不同。使用这种方法,我们展示了复杂缩放现象的令人惊讶的可预测性:我们展示了几种新兴现象遵循平滑的S形行为,并可以从小模型中预测;我们展示了诸如GPT-4等模型的代理性能可以从更简单的非代理基准精确预测;我们展示了如何预测后训练干预(例如Chain-of-Thought和Self-Consistency)对语言模型能力的影响,随着语言模型能力的持续改进。

小结: 本文提出了一种观察性方法,通过观察公开可用的语言模型来建立语言模型性能的预测模型。作者展示了语言模型性能与规模的关系,并指出不同模型家族在训练效率和能力方面存在差异。该工作为语言模型性能的预测提供了新的方法,对语言模型的性能评估和算法发展具有重要意义。

阅读原文

LoRA学习更少,遗忘更少

标题: LoRA Learns Less and Forgets Less

作者: Dan Biderman, Jose Gonzalez Ortiz, Jacob Portes, Mansheej Paul, Philip Greengard, Connor Jennings, Daniel King, Sam Havens, Vitaliy Chiley, Jonathan Frankle, Cody Blakeney, John P. Cunningham

关键词: Low-Rank Adaptation, Language Models, Finetuning, Regularization Techniques

摘要: 低秩适应(LoRA)是一种广泛使用的大型语言模型参数高效微调方法。LoRA通过仅训练对选定的权重矩阵进行低秩扰动来节省内存。在这项工作中,我们比较了LoRA和完全微调在两个目标领域(编程和数学)上的表现。我们考虑了指令微调(约100K个提示-响应对)和持续预训练(约10B个非结构化标记)数据制度。我们的结果显示,在大多数情况下,LoRA的表现明显低于完全微调。尽管如此,LoRA表现出一种理想的正则化形式:它更好地维持了基础模型在目标领域之外任务上的表现。我们展示了LoRA相对于常见技术如权重衰减和丢弃具有更强的正则化作用;它还有助于保持更多样化的生成。我们展示了完全微调学习的扰动的秩比典型LoRA配置大10-100倍,可能解释了一些报道的差距。最后,我们提出了使用LoRA进行微调的最佳实践。

小结: 本文比较了Low-Rank Adaptation (LoRA)和完全微调在两个目标领域(编程和数学)上的性能。研究发现,在大多数情况下,LoRA明显低于完全微调,但LoRA表现出了一种理想的正则化形式,有助于在目标领域之外维持基础模型的性能,并提出了使用LoRA进行微调的最佳实践。

阅读原文

行业大模型

医学中大型语言模型的调查:进展、应用和挑战

标题: A Survey of Large Language Models in Medicine: Progress, Application, and Challenge

作者: Hongjian Zhou, Fenglin Liu, Boyang Gu, Xinyu Zou, Jinfa Huang, Jinge Wu, Yiru Li, Sam S. Chen, Peilin Zhou, Junling Liu, Yining Hua, Chengfeng Mao, Chenyu You, Xian Wu, Yefeng Zheng, Lei Clifton, Zheng Li, Jiebo Luo, David A. Clifton

关键词: 医学, 大型语言模型, 临床诊断, 医学教育

摘要: 由于其理解和生成人类语言的能力,大型语言模型 (LLMs) 如 ChatGPT 受到了广泛关注。虽然研究中有一个不断增长的趋势,重点放在利用 LLMs 支持不同的医学任务 (例如增强临床诊断和提供医学教育) 上,但对这些努力的审查,特别是它们在医学中的发展、实际应用和结果,仍然很少。因此,本审查旨在提供对医学中 LLMs 的发展和部署的详细概述,包括它们所面临的挑战和机遇。在发展方面,我们详细介绍了现有医学 LLMs 的原理,包括它们的基本模型结构、参数数量以及用于模型开发的数据来源和规模。它为从业者开发适合其特定需求的医学 LLMs 提供了指南。在部署方面,我们比较了不同 LLMs 在各种医学任务中的性能,并将它们与最先进的轻量级模型进行了比较,旨在提供对医学中 LLMs 的优势和局限性的理解。总的来说,在这个审查中,我们回答了以下问题:1) 开发医学 LLMs 的实践是什么?2) 如何在医学环境中衡量 LLMs 的医学任务性能?3) 医学 LLMs 如何在实际应用中使用?

小结: 本文对医学领域中大型语言模型(LLMs)的发展和应用进行了详细概述,包括其在临床诊断和医学教育中的应用。在发展方面,提供了现有医学LLMs的基本模型结构、参数数量以及用于模型开发的数据来源和规模的详细介绍。在部署方面,对不同LLMs在各种医学任务中的性能进行了比较,并与最新的轻量级模型进行了对比,旨在提供LLMs在医学中的优势和局限的理解。

阅读原文

大模型测评

我们离通用人工智能有多远

标题: How Far Are We From AGI

作者: Tao Feng, Chuanyang Jin, Jingyu Liu, Kunlun Zhu, Haoqin Tu, Zirui Cheng, Guanyu Lin, Jiaxuan You

关键词: 人工智能, 人工智能发展, 人工智能安全, AGI

摘要: 人工智能(AI)的发展深刻影响了人类社会,在多个领域推动了重大进展。然而,对AI的不断需求凸显了当前AI的局限性,催生了通向通用人工智能(AGI)的运动。AGI以其能够像人类智能一样高效地执行多样的现实任务的能力而著称,是人工智能发展中的一个重要里程碑。虽然现有作品总结了AI的具体最新进展,但它们缺乏对AGI的定义、目标和发展轨迹的全面讨论。与现有的调查论文不同,本文通过广泛的调查、讨论和原创观点深入探讨了我们离AGI的接近程度以及实现AGI所需的策略的关键问题。我们首先阐明了AGI所需的能力框架,整合了内部、界面和系统维度。由于实现AGI需要更先进的能力和严格的约束,我们进一步讨论了必要的AGI对齐技术,以协调这些因素。值得注意的是,我们强调了通过首先定义AGI进展的关键级别来负责地接近AGI的重要性,随后评估框架定位现状,并最终提出了我们如何达到AGI巅峰的路线图。此外,为了提供对AGI的具体见解

小结: 这篇论文深入探讨了我们距离AGI有多远以及实现AGI所需的策略。作者们首先阐述了AGI所需的能力框架,进一步讨论了实现AGI所需的高级能力和对严格约束的遵循。此外,他们还强调了通过首先定义AGI进展的关键级别来负责任地接近AGI的重要性。

阅读原文

“我不确定,但是...”:探究大型语言模型的不确定性表达对用户依赖和信任的影响

标题: "I'm Not Sure, But...": Examining the Impact of Large Language Models' Uncertainty Expression on User Reliance and Trust

作者: Sunnie S. Y. Kim, Q. Vera Liao, Mihaela Vorvoreanu, Stephanie Ballard, Jennifer Wortman Vaughan

关键词: Language Models, Uncertainty Expression, User Reliance, Trust

摘要: 广泛部署的大型语言模型 (LLMs) 可以产生令人信服但不正确的输出,潜在地误导用户,因为用户可能依赖它们就像它们是正确的一样。为了减少这种过度依赖,人们呼吁 LLMs 向最终用户传达它们的不确定性。然而,关于用户如何理解和对待 LLMs 的不确定性表达的实证研究很少。我们通过一个规模较大、预注册的人体实验 (N=404) 探讨了这个问题,在这个实验中,参与者回答医学问题,有或没有访问来自一个虚构的 LLM 注入搜索引擎的响应。通过行为和自我报告的措施,我们研究了不同自然语言的不确定性表达如何影响参与者的依赖、信任和整体任务表现。我们发现,第一人称的表达 (例如“我不确定,但是...”) 降低了参与者对系统的信心和同意系统答案的倾向,同时提高了参与者的准确性。初步分析表明,这种增加可以归因于对不正确答案的过度依赖的减少 (但并没有完全消除)。虽然我们观察到了从一般角度表达的不确定性的类似效果 (例如“不清楚,但是...”),但这些效果较弱且不具有统计学意义。我们的发现表明,使用自然语言的不确定性表达可能是减少对 LLMs 过度依赖的有效方法,但确切的语言表达可能会影响其效果。

小结: 本研究通过大规模的实验发现,使用不确定性的自然语言表达可能是减少对LLMs过度依赖的有效方法。

阅读原文

大模型安全

迈向保证安全的人工智能:确保健壮可靠的AI系统框架

标题: Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems

作者: David "davidad" Dalrymple, Joar Skalse, Yoshua Bengio, Stuart Russell, Max Tegmark, Sanjit Seshia, Steve Omohundro, Christian Szegedy, Ben Goldhaber, Nora Ammann, Alessandro Abate, Joe Halpern, Clark Barrett, Ding Zhao, Tan Zhi-Xuan, Jeannette Wing, Joshua Tenenbaum

关键词: AI安全, 可靠性, 系统验证

摘要: 确保AI系统可靠地避免有害或危险行为是一个至关重要的挑战,特别是对于具有高度自主性和通用智能的AI系统,或者在安全关键环境中使用的系统。在本文中,我们将介绍和定义一系列AI安全方法,我们将其称为保证安全(GS)AI。这些方法的核心特点是它们旨在产生配备高保证度量安全保证的AI系统。这是通过三个核心组件的相互作用实现的:世界模型(提供AI系统如何影响外部世界的数学描述)、安全规范(对可接受影响的数学描述)和验证器(提供AI相对于世界模型满足安全规范的可审计证明证书)。我们概述了创建这三个核心组件的若干方法,描述了主要的技术挑战,并提出了一些潜在的解决方案。我们还论证了这种方法对于AI安全的必要性,以及主要替代方法的不足。

小结: 该论文介绍了一种确保AI系统可靠性和安全性的框架,提出了一系列保证安全AI的方法,强调了这种方法对AI安全的必要性。

阅读原文