芯片制造商英伟达于周一宣布,其Spectrum-X网络技术帮助初创公司xAI扩展了Colossus超级计算机,现在被认定为全球最大的AI训练集群。
Colossus位于田纳西州的孟菲斯,是xAI第三代Grok大型语言模型的训练基地,该模型旨在为X Premium订阅用户提供聊天机器人功能。
Colossus在短短122天内完成建设,并在安装后19天开始训练其第一个模型。科技亿万富翁埃隆·马斯克的初创公司xAI计划将系统的容量扩大到200,000个GPU,英伟达在周一的声明中表示。
Colossus的核心是一个巨大的互联GPU系统,每个GPU专门用于处理大数据集。在训练Grok模型时,它们需要分析大量的文本、图像和数据,以改善其响应。
马斯克称Colossus为世界上最强大的AI训练集群,Colossus通过统一的远程直接内存访问网络连接了100,000个NVIDIA Hopper GPU。英伟达的Hopper GPU通过将工作负载分配到多个GPU上并进行并行处理,处理复杂任务。
这种架构允许数据直接在节点之间移动,绕过操作系统,从而确保低延迟和优化的吞吐量,以满足广泛的AI训练任务。
传统以太网网络常常遭遇拥堵和数据包丢失,限制吞吐量至60%,而Spectrum-X在不降低延迟的情况下实现了95%的吞吐量。
Spectrum-X使大量GPU之间的通信更加顺畅,因为传统网络在处理过多数据时容易出现瓶颈。
该技术使Grok的训练更快、更准确,这对于构建能有效响应人类互动的AI模型至关重要。
周一的公告对英伟达股票影响不大,股价略微下跌。截至周一,股价为141美元,公司市值为3.45万亿美元。
编辑:塞巴斯蒂安·辛克莱