Grok-3由埃隆·马斯克的xAI开发,于周一正式发布,公司对其能力做出了大胆的宣称,并展示了一个庞大的计算基础设施,这表明了更大的雄心。
此次发布会重点强调了原始计算能力、基准性能和即将推出的功能,尽管许多实际演示似乎都是其他AI公司已经实现的内容的重播。
展会初期的明星并不是AI本身,而是“巨人”,一个由20万个GPU组成的庞大集群,支撑着Grok-3的训练。该系统分两个阶段搭建:首先在10万个GPU上进行了122天的同步训练,随后在92天内扩展到完整的20万个GPU。根据xAI开发者的说法,构建这一基础设施的难度超过了开发AI模型本身。
公司已经计划打造一个更强大的集群,马斯克表示他们的目标是当前容量的五倍,从而有效地建立一个全球最强大的GPU集群。
在性能方面,Grok-3在标准AI基准测试中表现出色。基础模型(不包含思维链和推理的常规模型)在数学(AIME)、科学(GPOA)和编码(LCB)测试中始终名列前茅。
在盲测中,它似乎也表现得非常出色。xAI确认,代号为“巧克力”的神秘模型实际上是Grok-3的早期测试版本,该版本已上传至LLM Arena。在这些测试中,它在所有LLM中达到了最佳ELO,这意味着用户更喜欢它的答案,而不是在不知道评估哪个模型的情况下,由所有其他AI模型提供的生成答案。
这可能是测量质量的最准确方法,因为它没有给模型机会通过在这些数据集上训练其AI来作弊。该基准完全基于数千名匿名用户的偏好和盲选。
Grok-3的一个专门的“推理Beta”变体,采用内部思维链处理和额外的计算,在测试时进一步提高了数学分数——在AIME 2025基准测试中达到了93%,而其他最佳表现模型的分数则低于87%。有趣的是,一个名为Grok-3 Mini Reasoning Beta的小型版本在某些情况下超越了其更大的兄弟,因为它的训练时间更长。
换句话说,完整的Grok-3在接受相当的训练时间后仍有改进空间,这令人期待,因为它的参数数量更大。
但是当xAI开始现场演示Grok-3的能力时,展示的感觉更像是在追赶而不是创新。团队展示了该模型解决物理问题和从零开始编写游戏代码的能力——这些都是ChatGPT、Claude和谷歌的Gemini早已掌握的令人印象深刻的成就。
新工具,旧把戏
他们还推出了DeepSearch,一个研究代理,与OpenAI和谷歌的类似工具一样,能够浏览网络并生成关于给定主题的广泛报告。X Premium Plus订阅者可以立即访问Grok-3,但最强大的版本和更新版本通常会在专用的独立应用程序或Grok.com上发布。
语音交互功能将于未来几周推出,类似于OpenAI的“高级语音模式”,马斯克强调这不仅仅是简单的文本转语音,而是真正的AI语音模型,能够进行自然、富有表现力的讲话。
开发者将在接下来的几周内获得API访问权限,并提供音频转录功能,使Grok-3成为第三方AI驱动应用的强大工具。在展示了Grok生成的一个俄罗斯方块游戏示例后,xAI还透露计划建立一个AI游戏工作室,让开发者构建由Grok-3驱动的游戏。
目前,该模型正在逐步推出。撰写本文时,Decrypt尚未获得该模型的访问权限,但一些爱好者已经尝试过,并对结果表示满意。
计算机科学家Lex Friedman,AI领域最响亮的声音之一,赞扬了Grok-3的能力。
其他人则将其与市场领先的竞争对手进行比较。前OpenAI联合创始人Andrej Karpathy在X上的一篇广泛帖子中写道:“Grok 3 + 思维在某种程度上感觉接近OpenAI最强模型(o1-pro,$200/月)的艺术状态,稍微优于DeepSeek-R1和Gemini 2.0 Flash Thinking。现在,恭喜xAI团队,他们显然有巨大的速度和动力。”
X用户Penny2x分享了一个由Grok-3从零开始构建的游戏——一个类似于《超级马里奥兄弟》的2D平台游戏。他们对Grok理解指令并在多个迭代中改进的能力表示印象深刻。“我不停地要求调整,它总是以一个文件的形式给我输出游戏,我可以把它放到桌面上运行。”他在X上写道。“这太不可思议了。我们生活在未来。每个人都是开发者。”
该游戏可以在Thank Doge进行测试。公司还确认计划在Grok-3完全成熟并正常运行后开源Grok-2,预计将在接下来的几个月内实现。xAI在Grok-2之后曾开源其模型,继续发布旧版本以推动创新——尽管Grok-2落后于顶级模型。
目前,Grok-3似乎在与最佳AI模型的功能匹配方面表现出色。真正的考验将在xAI推出其承诺的语音功能、游戏工具和API访问权限之际到来。现在,主动权在OpenAI手中,后者即将发布GPT-4.5。
编辑:Sebastian Sinclair