openai_image_gen
OpenAI 将图像生成功能直接集成至 ChatGPT
OpenAI 正在将图像生成功能直接集成到 ChatGPT 中,使用户能够在对话界面内创建图像,无需跳转至其他平台。
AI 工具的进化与整合
该公司于周二宣布了这一功能,作为其更广泛推动 AI 工具在不同媒体中的应用的一部分,确保其在 AI 艺术领域的竞争力。
该功能是 DALL·E 3 的演进版本。DALL·E 3 于 2023 年 9 月发布,但很快被 AI 爱好者冷落,因为他们更倾向于使用新一代模型,例如 Flux、MidJourney v/h3>
OpenAI 正在将图像生成功能直接集成到 ChatGPT 中,使用户能够在对话界面内创建图像,无需跳转至其他平台。
AI 工具的进化与整合
该公司于周二宣布了这一功能,作为其更广泛推动 AI 工具在不同媒体中的应用的一部分,确保其在 AI 艺术领域的竞争力。
该功能是 DALL·E 3 的演进版本。DALL·E 3 于 2023 年 9 月发布,但很快被 AI 爱好者冷落,因为他们更倾向于使用新一代模型,例如 Flux、MidJourney v6、SD 3.5、Recraft 和 Reve。
GPT-4o 统一文本与图像生成
在此次更新之前,OpenAI 在同一平台上提供了两种不同的模型,GPT 负责文本生成,而 DALL·E 3 负责图像生成。
现在,GPT-4o 将独立完成所有任务,而 DALL·E 3 将被移除。
OpenAI 在官方博客文章中表示:“GPT-4o 的图像生成功能能够准确渲染文本,精确遵循提示,并利用 4o 的知识库和对话上下文,包括转换上传的或将其用作视觉灵感。”
DALL·E 3 的整合符合 OpenAI 使 GPT-4o 成为“全能”模型的计划,该模型经过多模态数据训练,能够处理所有任务。这一变革使其比前代模型更加强大、精准和智能。
Sam Altman:值得等待的巨大进步
OpenAI 首席执行官 Sam Altman 在展示 GPT-4o 新功能的视频中表示:“我们知道让大家等了一段时间,但我们认为这是值得的,你们一定会喜欢它。”
“这是一个巨大的进步,最好的解释方式就是直接向你们展示。”
在视频中,OpenAI 展示了该系统的多个示例,包括用漫画页面解释相对论(输入语言包括英语和中文)、基于个人真实制作的定制交易卡、结合多张并带透明背景的纪念币,以及基于极其详细的提示生成的高度精准的。
图像生成速度较慢但质量提升显著
该模型的图像生成速度较慢,但准确性极高。Altman 强调,显著的质量提升值得更长的等待时间。
“与之前的图像生成(模型)相比,生成速度确实更慢,但质量提升令人难以置信。我们认为这绝对值得等待。”Altman 在演示中说道,“未来我们还会进一步加快生成速度。”
目前,该功能正在逐步推出,截至发稿时,我们尚未能实际体验该新模型。
如何区分新旧系统?
用户可以通过图像生成方式来判断使用的是哪个系统:除了明显的质量差距外,DALL·E 3 生成的会在加载屏幕后直接完整显示,而新款 GPT-4o 的则是从上至下逐步渲染的。
不仅仅是“炫酷的图像”
该公司强调,该技术的应用远不止于创建精美的。
“此次发布最令人兴奋的是,这些模型现在能够真正可视化它们的知识,并以视觉方式将其呈现出来。”OpenAI 研究科学家在视频中表示,他受 Sam Altman 邀请介绍该新功能。
这一能力可用于教育领域,例如生成详细的科学图示或信息海报,其文本渲染准确无误,甚至可以进行一致性良好的编辑。
防止滥用与图像溯源
OpenAI 还实施了一系列安全措施,以防止生成深度伪造(deepfake)、非法内容,并确保水印的适当处理。
虽然生成的不会带有可见水印,但会包含 C2PA 元数据,以标识其为 AI 生成的内容。此外,该公司正在开发工具以追踪的来源。
未来发展与 API 集成
该公司计划将该功能引入 API,使开发者能够将该技术集成到自己的应用程序中。根据 OpenAI 的使用条款,用户对自己生成的拥有所有权,但需遵守 OpenAI 的使用政策。
编辑已完成翻译,并使用 HTML 进行了适当排版。如有进一步需求,请告诉我!