OpenAI推出早期o3-Mini以反击DeepSeek AI——以下是它们的比较

为了捍卫自己的市场地位，OpenAI于周五发布了o3-mini，这是对中国初创公司DeepSeek的R1模型作出的直接回应。DeepSeek的R1模型以较少的计算成本达到顶级性能，这在人工智能行业引起了轰动。

OpenAI在一篇官方博客文章中表示：“我们今天发布了OpenAI o3-mini，这是我们推理系列中最新、最高效的模型，提供ChatGPT和API两种版本。”“o3-mini于2024年12月进行了预览，这个功能强大、速度快的模型推动了小型模型所能实现的边界（…）同时保持了OpenAI o1-mini的低成本和低延迟。”

OpenAI还首次免费向用户提供了推理功能，并将付费用户的每日消息限制从50提高到150，以促进新一代推理模型的使用。

与GPT-4o和GPT系列模型不同，“o”系列的人工智能模型专注于推理任务。它们不那么有创造力，但具有嵌入式思维链推理，使其能够更好地解决复杂问题、纠正错误分析和构建更好的结构代码。

在最高层面上，OpenAI拥有两个主要的人工智能模型系列：生成预训练变换器（GPT）和“Omni”（o）。

GPT就像这个家族的艺术家：它是一个右脑型的模型，适用于角色扮演、对话、创意写作、总结、解释、头脑风暴、聊天等。

o是这个家族的书呆子。它不擅长讲故事，但在编码、解决数学方程、分析复杂问题、计划推理过程、比较研究论文等方面表现出色。

新的o3 mini有三个版本，分别是低、中、高。这些子类将为用户提供更好的答案，但开发人员需要根据每个标记付费，因此更多的“推理”会更昂贵。

总体而言，以效率为目标的OpenAI o3-mini在常识和多语言思维方面不如OpenAI o1-mini，但在编码和准确性等其他任务上表现更好。所有其他模型（o3-mini中和o3-mini高）在每个基准测试中都胜过OpenAI o1-mini。

DeepSeek的突破创造了比OpenAI旗舰模型更好的结果，而只使用了一小部分计算能力，这触发了一场大规模的科技抛售，使美国市场蒸发了将近1万亿美元。仅Nvidia一家就蒸发了6000亿美元的市值，投资者对其昂贵的人工智能芯片的未来需求产生了质疑。

效率差距源于DeepSeek对模型架构的创新方法。

而美国公司主要将更多的计算能力投入到人工智能开发中，DeepSeek的团队找到了简化模型处理信息的方法，使其更加高效。当中国科技巨头阿里巴巴发布了比DeepSeek用作基础的模型更强大的Qwen2.5 Max时，竞争压力进一步增加，为中国的人工智能创新打开了道路。

OpenAI o3-mini试图再次扩大这种差距。这个新模型比其前身运行速度快24%，在关键基准测试中与或超过旧模型，同时运营成本更低。

其定价也更具竞争力。OpenAI o3-mini的费率为每百万输入标记0.55美元，每百万输出标记4.40美元。与DeepSeek的R1相比，价格要高得多，后者的价格为相同数量的标记为0.14美元和2.19美元，然而，它们缩小了OpenAI和DeepSeek之间的差距，并与运行OpenAI o1的价格相比，降低了很大程度。

这可能是其成功的关键。与DeepSeek的R1不同，OpenAI o3-mini是闭源的，但对于愿意支付在托管服务器上使用的人来说，吸引力将根据预期的使用情况而增加。

OpenAI o3 mini-medium在数学问题的AIME基准测试中得分为79.6。DeepSeek R1得分为79.8，这个分数仅被家族中最强大的模型OpenAI mini-o3 high的87.3分超过。

其他基准测试中也可以看到同样的模式：GPQA标记用于衡量在不同科学学科中的熟练程度，DeepSeek R1为71.5，o3-mini低为70.6，o3-mini高为79.7。在Codeforces中，R1在96.3%的排位中，用于编码任务的基准测试，而o3-mini低在93%的排位中，o3-mini高在97%的排位中。

因此，差异存在，但在基准测试中，根据所选择的模型来执行任务，这些差异可能是可以忽略的。

测试OpenAI o3-mini与DeepSeek R1的对比

我们尝试了几个任务，以了解OpenAI o3-mini与DeepSeek R1相比的表现如何。

第一个任务是一个间谍游戏，用于测试它在多步推理方面的表现。我们选择了在GitHub上对DeepSeek R1进行评估时使用的BIG-bench数据集中的同一样本（完整的故事在此处可用，涉及一次学校远足到一个偏远、多雪的地方，学生和教师面临一系列奇怪的失踪事件；模型必须找出跟踪者是谁）。

OpenAI o3-mini在故事中表现不佳，得出了错误的结论。根据测试提供的答案，跟踪者的名字是Leo。DeepSeek R1回答正确，而OpenAI o3-mini回答错误，说跟踪者的名字是Eric。（有趣的是，我们无法分享对话的链接，因为OpenAI将其标记为不安全）。

该模型在不涉及数学的逻辑语言相关任务上表现得相当好。例如，我们要求模型写五个以特定单词结尾的句子，它能够理解任务、评估结果，然后给出最终答案。它思考了四秒钟的回复，纠正了一个错误的答案，并提供了完全正确的回复。

在数学方面，它也非常出色，能够解决在某些基准测试中被认为极其困难的问题。同样的复杂问题，DeepSeek R1需要275秒才能解决，而OpenAI o3-mini只需33秒。

所以，OpenAI做得不错。接下来轮到DeepSeek了。

热门内容

狗狗币与XRP下跌严重：底部在哪里？

比特币算力和挖矿难度飙升，手续费下降：BlocksBridge

塔吉克斯坦和哈萨克斯坦非法比特币挖矿现象上升

OpenAI推出早期o3-Mini以反击DeepSeek AI——以下是它们的比较

经过数月的猜测，OpenAI终于发布了GPT-5

立法者呼吁对中国DeepSeek进行国家安全和数据风险调查

苹果公司在美国再投资1000亿美元，寻求人工智能转型

OpenAI的新模型“防越狱”功能？首日即被破解

埃隆·马斯克的xAI工具制作了泰勒·斯威夫特的裸体深度伪造视频，绕过了自身规则。

Cloudflare指控Perplexity AI使用隐秘爬虫绕过网站封锁

狗狗币与XRP下跌严重：底部在哪里？

比特币算力和挖矿难度飙升，手续费下降：BlocksBridge

塔吉克斯坦和哈萨克斯坦非法比特币挖矿现象上升

尽管近期回调，Cardano和XRP鲸鱼活动达到数月以来的高点

狗狗币与XRP下跌严重：底部在哪里？

比特币算力和挖矿难度飙升，手续费下降：BlocksBridge

塔吉克斯坦和哈萨克斯坦非法比特币挖矿现象上升

加密专场

我们的精选

狗狗币与XRP下跌严重：底部在哪里？

比特币算力和挖矿难度飙升，手续费下降：BlocksBridge

塔吉克斯坦和哈萨克斯坦非法比特币挖矿现象上升

最受欢迎

【比推每日市场动态】比特币不受美联储官员“鹰派”立场影响，PlanB预测价格将稳定在6万美元以上。

以太坊ETF不需要美SEC投票批准，对其他加密货币是积极信号

Bondex 如何打破传统招聘平台的困境实现去中心化

热门内容

OpenAI推出早期o3-Mini以反击DeepSeek AI——以下是它们的比较

Related Posts