为了捍卫自己的市场地位,OpenAI于周五发布了o3-mini,这是对中国初创公司DeepSeek的R1模型作出的直接回应。DeepSeek的R1模型以较少的计算成本达到顶级性能,这在人工智能行业引起了轰动。
OpenAI在一篇官方博客文章中表示:“我们今天发布了OpenAI o3-mini,这是我们推理系列中最新、最高效的模型,提供ChatGPT和API两种版本。”“o3-mini于2024年12月进行了预览,这个功能强大、速度快的模型推动了小型模型所能实现的边界(…)同时保持了OpenAI o1-mini的低成本和低延迟。”
OpenAI还首次免费向用户提供了推理功能,并将付费用户的每日消息限制从50提高到150,以促进新一代推理模型的使用。
与GPT-4o和GPT系列模型不同,“o”系列的人工智能模型专注于推理任务。它们不那么有创造力,但具有嵌入式思维链推理,使其能够更好地解决复杂问题、纠正错误分析和构建更好的结构代码。
在最高层面上,OpenAI拥有两个主要的人工智能模型系列:生成预训练变换器(GPT)和“Omni”(o)。
GPT就像这个家族的艺术家:它是一个右脑型的模型,适用于角色扮演、对话、创意写作、总结、解释、头脑风暴、聊天等。
o是这个家族的书呆子。它不擅长讲故事,但在编码、解决数学方程、分析复杂问题、计划推理过程、比较研究论文等方面表现出色。
新的o3 mini有三个版本,分别是低、中、高。这些子类将为用户提供更好的答案,但开发人员需要根据每个标记付费,因此更多的“推理”会更昂贵。
总体而言,以效率为目标的OpenAI o3-mini在常识和多语言思维方面不如OpenAI o1-mini,但在编码和准确性等其他任务上表现更好。所有其他模型(o3-mini中和o3-mini高)在每个基准测试中都胜过OpenAI o1-mini。
DeepSeek的突破创造了比OpenAI旗舰模型更好的结果,而只使用了一小部分计算能力,这触发了一场大规模的科技抛售,使美国市场蒸发了将近1万亿美元。仅Nvidia一家就蒸发了6000亿美元的市值,投资者对其昂贵的人工智能芯片的未来需求产生了质疑。
效率差距源于DeepSeek对模型架构的创新方法。
而美国公司主要将更多的计算能力投入到人工智能开发中,DeepSeek的团队找到了简化模型处理信息的方法,使其更加高效。当中国科技巨头阿里巴巴发布了比DeepSeek用作基础的模型更强大的Qwen2.5 Max时,竞争压力进一步增加,为中国的人工智能创新打开了道路。
OpenAI o3-mini试图再次扩大这种差距。这个新模型比其前身运行速度快24%,在关键基准测试中与或超过旧模型,同时运营成本更低。
其定价也更具竞争力。OpenAI o3-mini的费率为每百万输入标记0.55美元,每百万输出标记4.40美元。与DeepSeek的R1相比,价格要高得多,后者的价格为相同数量的标记为0.14美元和2.19美元,然而,它们缩小了OpenAI和DeepSeek之间的差距,并与运行OpenAI o1的价格相比,降低了很大程度。
这可能是其成功的关键。与DeepSeek的R1不同,OpenAI o3-mini是闭源的,但对于愿意支付在托管服务器上使用的人来说,吸引力将根据预期的使用情况而增加。
OpenAI o3 mini-medium在数学问题的AIME基准测试中得分为79.6。DeepSeek R1得分为79.8,这个分数仅被家族中最强大的模型OpenAI mini-o3 high的87.3分超过。
其他基准测试中也可以看到同样的模式:GPQA标记用于衡量在不同科学学科中的熟练程度,DeepSeek R1为71.5,o3-mini低为70.6,o3-mini高为79.7。在Codeforces中,R1在96.3%的排位中,用于编码任务的基准测试,而o3-mini低在93%的排位中,o3-mini高在97%的排位中。
因此,差异存在,但在基准测试中,根据所选择的模型来执行任务,这些差异可能是可以忽略的。
测试OpenAI o3-mini与DeepSeek R1的对比
我们尝试了几个任务,以了解OpenAI o3-mini与DeepSeek R1相比的表现如何。
第一个任务是一个间谍游戏,用于测试它在多步推理方面的表现。我们选择了在GitHub上对DeepSeek R1进行评估时使用的BIG-bench数据集中的同一样本(完整的故事在此处可用,涉及一次学校远足到一个偏远、多雪的地方,学生和教师面临一系列奇怪的失踪事件;模型必须找出跟踪者是谁)。
OpenAI o3-mini在故事中表现不佳,得出了错误的结论。根据测试提供的答案,跟踪者的名字是Leo。DeepSeek R1回答正确,而OpenAI o3-mini回答错误,说跟踪者的名字是Eric。(有趣的是,我们无法分享对话的链接,因为OpenAI将其标记为不安全)。
该模型在不涉及数学的逻辑语言相关任务上表现得相当好。例如,我们要求模型写五个以特定单词结尾的句子,它能够理解任务、评估结果,然后给出最终答案。它思考了四秒钟的回复,纠正了一个错误的答案,并提供了完全正确的回复。
在数学方面,它也非常出色,能够解决在某些基准测试中被认为极其困难的问题。同样的复杂问题,DeepSeek R1需要275秒才能解决,而OpenAI o3-mini只需33秒。
所以,OpenAI做得不错。接下来轮到DeepSeek了。