OpenAI于周四揭开了ChatGPT长久以来承诺的视频功能,让用户可以用手机对准物体进行实时AI分析——这一功能自5月份首次演示以来一直未被激活。
之前,用户只能输入文本、图表、语音或静态照片与GPT互动。周四晚些时候发布的这一功能允许GPT实时观察用户并进行对话反馈。例如,在我的测试中,这一模式能够解决数学问题、提供食谱、讲故事,甚至变成我女儿的新好朋友,在她制作煎饼时与她互动,给出建议,并通过不同的游戏鼓励她的学习过程。
这一发布正值谷歌展示其基于新推出的Gemini 2.0的摄像头支持AI助手的前一天。Meta也在这一领域进行探索,推出了能够通过手机摄像头进行视觉和对话交互的AI。
然而,ChatGPT的新功能并非面向所有用户。只有Plus、Team和Pro订阅者才能访问OpenAI所谓的“具有视觉的高级语音模式”。Plus订阅每月费用为20美元,而Pro级别每月费用为200美元。
“我们很高兴地宣布,我们将视频引入高级语音模式,这样您就可以在与ChatGPT的对话中带入实时视频和实时屏幕共享,”OpenAI的首席产品官凯文·韦尔在周四的一段视频中表示。
此次直播是其“OpenAI的12天活动”的一部分,活动将连续12天展示12个不同的公告。目前,OpenAI已经推出了其o1模型供所有用户使用,并发布了每月200美元的ChatGPT Pro计划,推出了用于定制模型的强化微调,发布了其生成视频应用程序Sora,更新了其画布功能,并通过科技巨头苹果的Apple Intelligence功能将ChatGPT推向苹果设备。
在周四的直播中,公司展示了其可以实现的功能。用户可以在与高级语音相同的界面中激活视频模式,并开始与聊天机器人实时互动。聊天机器人具有出色的视觉理解能力,能够提供相关反馈且延迟极低,使对话显得自然。
然而,达到这一点并非一帆风顺。OpenAI最初在四月底承诺这些功能将在“几周内”推出,但由于在高级语音模式中未经女演员斯嘉丽·约翰逊的许可模仿其声音而引发争议,该功能被推迟。由于视频模式依赖于高级语音模式,这显然减缓了发布进程。
与此同时,竞争对手谷歌也未闲着。项目Astra本周刚刚交到“受信任测试者”手中,承诺提供类似的功能:一种能够讲多种语言的AI,可以接入谷歌的搜索和地图,并能记住对话达10分钟。
不过,这一功能尚未广泛推出,预计将在明年初进行更大范围的发布。谷歌对其AI模型也有更雄心勃勃的计划,赋予其实时执行任务的能力,展现超越视听交互的独立行为。
Meta也在争夺下一代AI互动的市场份额。其助手Meta AI在九月份亮相,展现了与OpenAI和谷歌新助手相似的功能,提供低延迟的响应和实时视频理解。
但Meta则寄希望于利用增强现实推动其AI产品,通过其框架内的小型摄像头实现这些交互。Meta称之为项目Orion。
当前的ChatGPT Plus用户可以通过点击聊天栏旁的语音图标,然后点击视频按钮来试用新的视频功能。屏幕共享需要通过三点(即“汉堡”)菜单额外点击一次。
对于急于尝试新视频功能的企业和教育ChatGPT用户来说,一月将是关键月份。至于欧盟的订阅者?他们现在只能在 sidelines 观看。
编辑:安德鲁·海沃德