西班牙一家人工智能初创公司成功说服投资者投资2.15亿美元,基于一个大胆的声明:他们可以在不影响性能的情况下将大型语言模型缩小95%。
Multiverse Computing的创新依赖于其CompactifAI技术,这是一种借用量子物理学数学概念的压缩方法,可以将人工智能模型缩小到智能手机的大小。
这家位于圣塞巴斯蒂安的公司表示,他们压缩后的Llama-2 7B模型在推理时运行速度提高了25%,同时参数数量减少了70%,准确率仅下降了2-3%。
如果这种方法在大规模上得到验证,这可能解决人工智能的一个巨大问题:模型庞大到需要专用数据中心才能运行。
Multiverse的首席科学官Román Orús在周四的一篇博客文章中表示:“历史上第一次,我们能够分析神经网络的内部工作,消除数十亿个虚假的相关性,以真正优化各种人工智能模型。”
Bullhound Capital主导了这轮2.15亿美元的B轮融资,得到了HP Tech Ventures和东芝的支持。
压缩背后的物理学
应用量子启发的概念来解决人工智能最紧迫的问题听起来似乎不太可能——但如果研究得以验证,那就是真实的。
与传统的压缩方法不同,CompactifAI并不是简单地削减神经元或降低数值精度,而是使用张量网络——物理学家开发的数学结构,用于跟踪粒子相互作用而不至于淹没在数据中。
这一过程类似于人工智能模型的折纸:权重矩阵被折叠成更小的、相互连接的结构,称为矩阵乘积算子。
该系统并不保存神经元之间的每一个连接,而是仅保留有意义的相关性,同时丢弃冗余模式,比如重复出现的信息或关系。
Multiverse发现,人工智能模型并不是均匀可压缩的。早期层脆弱,而深层层——最近显示对性能的重要性降低——能够承受激进的压缩。
这种选择性的方法使他们在其他方法失败的情况下实现了显著的尺寸缩减。
压缩后,模型经历简短的“修复”——由于参数数量减少,重新训练的时间不到一个周期。公司声称,这一恢复过程比训练原始模型的速度快50%,因为GPU-CPU传输负担减轻。
简而言之——根据公司的说法——你从一个模型开始,运行Compactify魔法,最终得到一个压缩版本,其参数少于50%,推理速度提高两倍,成本大幅降低,并且与原始模型同样强大。
在研究中,团队显示可以将Llama-2 7B模型的内存需求减少93%,将参数数量减少70%,训练速度提高50%,推理速度提高25%——而仅损失2-3%的准确率。
传统的缩小方法,如量化(减少精度,例如使用更少的小数位)、修剪(完全切除不重要的神经元,如修剪树木的死枝)或蒸馏技术(训练一个小模型模仿大模型的行为),都远未达到这些数字。
Multiverse目前已经为超过100个客户提供服务,包括博世和加拿大银行,将其量子启发算法应用于人工智能之外的能源优化和金融建模。
西班牙政府在3月份共同投资6700万欧元,使总融资超过2.5亿美元。
目前通过AWS提供Llama和Mistral等开源模型的压缩版本,公司计划扩展到DeepSeek R1和其他推理模型。
OpenAI或Claude的专有系统显然仍然是禁区,因为它们不允许进行修改或研究。
该技术的前景超越了节省成本的措施。HP Tech Ventures的参与表明对边缘人工智能部署的兴趣——在本地而不是云服务器上运行复杂模型。
HP技术与创新总裁Tuan Tran表示:“Multiverse的创新方法有潜力为任何规模的公司带来增强的性能、个性化、隐私和成本效益。”
因此,如果有一天你在智能手机上运行DeepSeek R1,这些人可能就是值得感谢的对象。
编辑:Josh Quittner和Sebastian Sinclair