AI前沿主导权的竞赛又出现了新转折——这次,它会回应、看着你,甚至可能带着情感倾听。
OpenAI今天推出了其新的“o”系列模型,介绍了o3及其轻量级版本04-mini。这些新模型不仅仅是调优的聊天机器人——它们是全模态的,意味着它们可以本地理解和生成文本、图像、音频和视频。没有拼凑在一起的弗兰肯斯坦模块来伪装视觉素养。
这实际上是拥有眼睛、耳朵和嘴巴的AI。
一个模型统治所有?
虽然OpenAI的第一个“o”模型大约在一年前推出,但今天的发布显然提供了实质性的好处。
OpenAI表示,“o”代表“全能”,其含义正如你所期待的那样:一个统一的模型,可以接收屏幕截图,听到你的声音颤抖,并实时给出情感调校的回复。这是一个真正的未来暗示,AI助手不仅仅是在你的手机上——它们就是你的手机。
o4-mini版本的构建旨在速度和经济性,性能接近Claude Haiku或一台运转良好的Mistral,但仍保留了完整的多模态超强能力。同时,o3则全面对标大联盟,与GPT-4-turbo在能力上相匹配,但在处理图像和音频时如同在进行一轮轻松的猜谜游戏。
而且不仅仅是速度。这些模型运行成本更低,部署效率更高,甚至——这里是重点——可以本地操作。这就是对的:实时、多模态AI,没有云的延迟。想象一下,个人助手不仅仅听取命令,还像伴侣一样回应。
超越聊天机器人的:进入代理时代
通过此次发布,OpenAI正在为AI的代理层奠定基础——那些比智能更智能的助手,不仅可以交谈和写作,还能观察、行动并自主处理任务。
想让你的AI解析Twitter线程,生成图表,撰写推文,并在Discord上用得意的表情包宣布?这不仅在触手可及的范围内,它几乎就在你的桌子上——戴着单片眼镜,喝着浓缩咖啡,用迷人的低音纠正你的语法。
o系列模型旨在为从实时语音机器人到增强现实眼镜提供动力,暗示了技术老牌(及新兴)公司紧张的“AI优先”硬件运动。正如iPhone重新定义了移动设备,这些模型是AI本土接口时代的开始。
OpenAI与其他竞争者
这一切并非在真空中发生。谷歌的Gemini正在进化。Anthropic的Claude发挥着超出其重量的实力。Meta在实验室中有一只Llama。但OpenAI的o系列可能做到了其他人尚未实现的:在单一模型中实现实时、统一的多模态流利度。
这可能是OpenAI对不可避免的硬件的回答。无论是通过苹果传闻中的AI合作,还是其自己的“Jony Ive隐秘模式”项目,OpenAI正在为一个AI不仅仅是一个应用程序而是操作系统的世界做好准备。
编者:Andrew Hayward
编者注:本故事在发布后进行了更新,以澄清模型的命名和历史。