位于旧金山的美国人工智能公司“开放AI研究中心”(OpenAI),近日推出可以通过文本指令创建视频的生成式人工智能模型Sora,这一突破巩固了其在AI领域的主体地位,但同时也加剧了对“深度伪造”(Deepfake)等风险的担忧。
这是OpenAI首次进军人工智能视频生成领域。据公司介绍,Sora使用Transformer架构,可根据文本指令创建近似现实且富有想象力的场景,生成多种风格、不同画幅、最长为一分钟的高清视频。该模型还可以依据静态图像生成视频,或对现有视频进行扩展或填充缺失的帧。
一些分析的人表示,Sora再次凸显人工智能技术进步对真实的生活和传统行业的深远影响。AI在视频生成领域的巨大发展前途,为塑造影视产业新业态打开大门,同时恐将颠覆现存影视产业。好莱坞去年遭遇了63年来首次编剧和演员全行业罢工,因为该行业的部分工作机会可能被人工智能取代。Sora横空出世让这一威胁变得更迫近和真切。其面世第二天,主营图像处理、视频制作软件的奥多比公司(Adobe)股价应声下跌超过7%。
虽不是第一家涉足文本转视频领域的公司,但Sora的推出使OpenAI在这一赛道取得领先,巩固了其在生成式AI领域的领军地位。第三方信息分析机构高德纳咨询公司的分析师钱德拉塞卡兰表示:“在这样的领域,没有一个企业比OpenAI更雄心勃勃,且这种雄心似乎有增无减。”
OpenAI称,Sora对语言有着深刻的理解,不仅了解用户文本提示,还了解所述事物在物理世界中的存在方式。“我们正在教授人工智能理解和模拟运动中的物理世界,目标是训练模型帮助人们解决需要与现实世界交互的问题。”
Sora发布可谓一石激起千层浪,但此次推出的更像是预览版,公众尚难以深入全方面了解该模型的优缺点。OpenAI表示,目前仅主要向一些设计师和电影制作人等特定人群提供Sora访问权限,以获取有关改进该模型的反馈。公司不仅未公布训练Sora模型的数据等基础细节,更没有确定向公众发布的日期。
OpenAI承认,目前Sora生成视频中可能包含不合逻辑的图像,混淆左右等空间细节,难以准确模拟复杂场景的物理原理和因果关系实例等。例如,一个人咬了一口饼干,饼干上却没有咬痕。
不过,随着算力增强、模型改进,人们可能会在短期内获得更完善、先进的视频生成功能。
不少业内人士担心,Sora将为“深度伪造”技术推波助澜。加利福尼亚大学伯克利分校信息学院副院长法里德就表示:“当新闻、图像、音频、视频——所有的事情都可以伪造时,那么在那个世界里,就没什么是真实的。”
针对造假顾虑,OpenAI称在真正面向公众推出产品时,将确保生成视频包含来源元数据,并推出检测视频真伪的工具。OpenAI还承诺,在产品中使用Sora前将采取安全措施,包括由“错误信息、仇恨内容和偏见等领域的专家”对模型进行对抗性测试来评估危害或风险;核查并拒绝包含极端暴力、性内容、仇恨图像、他人IP等文本输入提示等。
即便如此,OpenAI也承认,尽管进行了广泛的研究和测试,“我们仍无法预测人们将使用我们技术的所有有益方式和滥用我们技术的所有方式”。
在科技领域颠覆式创新不断涌现的情况下,怎么来实现拥抱技术进步和确保社会安全的平衡,慢慢的受到各界关注。
OpenAI表示,将与世界各地的政策制定者、教育工作者和艺术家合作,明白他们的担忧,确定Sora的积极使用案例,并认为从现实世界的使用中学习,是创建和发布越来越安全的AI系统的关键组成部分。
业内人士指出,在当下治理框架、管控措施都未跟上的情况下,仅靠企业恐没办法提供社会所需的人工智能安全性和信任度。
人民日报社概况关于人民网报社招聘招聘英才广告服务合作加盟供稿服务数据服务网站声明网站律师信息保护联系我们
人 民 网 股 份 有 限 公 司 版 权 所 有 ,未 经 书 面 授 权 禁 止 使 用