马斯克的xAI推出Grok-3：更强大的性能，但是否开辟了新领域？

Grok-3由埃隆·马斯克的xAI开发，于周一正式发布，公司对其能力做出了大胆的宣称，并展示了一个庞大的计算基础设施，这表明了更大的雄心。

此次发布会重点强调了原始计算能力、基准性能和即将推出的功能，尽管许多实际演示似乎都是其他AI公司已经实现的内容的重播。

展会初期的明星并不是AI本身，而是“巨人”，一个由20万个GPU组成的庞大集群，支撑着Grok-3的训练。该系统分两个阶段搭建：首先在10万个GPU上进行了122天的同步训练，随后在92天内扩展到完整的20万个GPU。根据xAI开发者的说法，构建这一基础设施的难度超过了开发AI模型本身。

公司已经计划打造一个更强大的集群，马斯克表示他们的目标是当前容量的五倍，从而有效地建立一个全球最强大的GPU集群。

在性能方面，Grok-3在标准AI基准测试中表现出色。基础模型（不包含思维链和推理的常规模型）在数学（AIME）、科学（GPOA）和编码（LCB）测试中始终名列前茅。

在盲测中，它似乎也表现得非常出色。xAI确认，代号为“巧克力”的神秘模型实际上是Grok-3的早期测试版本，该版本已上传至LLM Arena。在这些测试中，它在所有LLM中达到了最佳ELO，这意味着用户更喜欢它的答案，而不是在不知道评估哪个模型的情况下，由所有其他AI模型提供的生成答案。

这可能是测量质量的最准确方法，因为它没有给模型机会通过在这些数据集上训练其AI来作弊。该基准完全基于数千名匿名用户的偏好和盲选。

Grok-3的一个专门的“推理Beta”变体，采用内部思维链处理和额外的计算，在测试时进一步提高了数学分数——在AIME 2025基准测试中达到了93%，而其他最佳表现模型的分数则低于87%。有趣的是，一个名为Grok-3 Mini Reasoning Beta的小型版本在某些情况下超越了其更大的兄弟，因为它的训练时间更长。

换句话说，完整的Grok-3在接受相当的训练时间后仍有改进空间，这令人期待，因为它的参数数量更大。

但是当xAI开始现场演示Grok-3的能力时，展示的感觉更像是在追赶而不是创新。团队展示了该模型解决物理问题和从零开始编写游戏代码的能力——这些都是ChatGPT、Claude和谷歌的Gemini早已掌握的令人印象深刻的成就。

新工具，旧把戏

他们还推出了DeepSearch，一个研究代理，与OpenAI和谷歌的类似工具一样，能够浏览网络并生成关于给定主题的广泛报告。X Premium Plus订阅者可以立即访问Grok-3，但最强大的版本和更新版本通常会在专用的独立应用程序或Grok.com上发布。

语音交互功能将于未来几周推出，类似于OpenAI的“高级语音模式”，马斯克强调这不仅仅是简单的文本转语音，而是真正的AI语音模型，能够进行自然、富有表现力的讲话。

开发者将在接下来的几周内获得API访问权限，并提供音频转录功能，使Grok-3成为第三方AI驱动应用的强大工具。在展示了Grok生成的一个俄罗斯方块游戏示例后，xAI还透露计划建立一个AI游戏工作室，让开发者构建由Grok-3驱动的游戏。

目前，该模型正在逐步推出。撰写本文时，Decrypt尚未获得该模型的访问权限，但一些爱好者已经尝试过，并对结果表示满意。

计算机科学家Lex Friedman，AI领域最响亮的声音之一，赞扬了Grok-3的能力。

其他人则将其与市场领先的竞争对手进行比较。前OpenAI联合创始人Andrej Karpathy在X上的一篇广泛帖子中写道：“Grok 3 + 思维在某种程度上感觉接近OpenAI最强模型（o1-pro，$200/月）的艺术状态，稍微优于DeepSeek-R1和Gemini 2.0 Flash Thinking。现在，恭喜xAI团队，他们显然有巨大的速度和动力。”

X用户Penny2x分享了一个由Grok-3从零开始构建的游戏——一个类似于《超级马里奥兄弟》的2D平台游戏。他们对Grok理解指令并在多个迭代中改进的能力表示印象深刻。“我不停地要求调整，它总是以一个文件的形式给我输出游戏，我可以把它放到桌面上运行。”他在X上写道。“这太不可思议了。我们生活在未来。每个人都是开发者。”

该游戏可以在Thank Doge进行测试。公司还确认计划在Grok-3完全成熟并正常运行后开源Grok-2，预计将在接下来的几个月内实现。xAI在Grok-2之后曾开源其模型，继续发布旧版本以推动创新——尽管Grok-2落后于顶级模型。

目前，Grok-3似乎在与最佳AI模型的功能匹配方面表现出色。真正的考验将在xAI推出其承诺的语音功能、游戏工具和API访问权限之际到来。现在，主动权在OpenAI手中，后者即将发布GPT-4.5。

编辑：Sebastian Sinclair

热门内容

狗狗币与XRP下跌严重：底部在哪里？

比特币算力和挖矿难度飙升，手续费下降：BlocksBridge

塔吉克斯坦和哈萨克斯坦非法比特币挖矿现象上升

马斯克的xAI推出Grok-3：更强大的性能，但是否开辟了新领域？

经过数月的猜测，OpenAI终于发布了GPT-5

立法者呼吁对中国DeepSeek进行国家安全和数据风险调查

苹果公司在美国再投资1000亿美元，寻求人工智能转型

OpenAI的新模型“防越狱”功能？首日即被破解

埃隆·马斯克的xAI工具制作了泰勒·斯威夫特的裸体深度伪造视频，绕过了自身规则。

Cloudflare指控Perplexity AI使用隐秘爬虫绕过网站封锁

狗狗币与XRP下跌严重：底部在哪里？

比特币算力和挖矿难度飙升，手续费下降：BlocksBridge

塔吉克斯坦和哈萨克斯坦非法比特币挖矿现象上升

尽管近期回调，Cardano和XRP鲸鱼活动达到数月以来的高点

狗狗币与XRP下跌严重：底部在哪里？

比特币算力和挖矿难度飙升，手续费下降：BlocksBridge

塔吉克斯坦和哈萨克斯坦非法比特币挖矿现象上升

加密专场

我们的精选

狗狗币与XRP下跌严重：底部在哪里？

比特币算力和挖矿难度飙升，手续费下降：BlocksBridge

塔吉克斯坦和哈萨克斯坦非法比特币挖矿现象上升

最受欢迎

山寨币脱水大涨预测6月或迎来行情

美国证券交易委员会主席表示若加密货币交易所操纵市场披露信息也无法豁免其诉讼

刺客证券首席执行官：加密货币监管仍是一个不明确的问题

热门内容

马斯克的xAI推出Grok-3：更强大的性能，但是否开辟了新领域？

Related Posts