每经记者:王郁彪 每经:文多
AI(人工智能)大潮汹涌,真实与虚拟,正在被无限模糊。2024年伊始,OpenAI用它的首个视频生成模型Sora宣告了AI新阶段的到来——仅凭简单的文字描述,便可深度模拟真实物理世界,生成最长60秒的拟真视频。
如果把AI比作刚出生的婴儿,大语言模型的诞生则意味着它开口讲话,Sora的面世相当于他/她睁开了双眼,并把自己观察到的一切转化为画面与声音。
随着AI技术不断发展与应用,在AI赋能过程中,如何平衡其中的创新与挑战?3月15日,由工业和信息化部工业文化发展中心牵头成立的AI应用工作组主办,每日经济新闻承办、数智未来场景实验室协办的“Sora的启示:AI应用再飞跃”主题沙龙活动在京成功举办。
北京航空航天大学计算机学院副教授巢文涵在主旨演讲环节表示,生成式AI的迭代速度降低了用户端的再训练必要性,因此,想要在生成式AI的应用中寻求进一步突破,应该从训练和创造AI,逐渐走向调用和激发AI潜力。
图为北京航空航天大学计算机学院副教授巢文涵进行主旨演讲 v每经记者 韩阳 摄
Sora尚有诸多局限性
当其他AI视频工具还在突破几秒内的连贯性时,Sora已经可以快速制作最长1分钟、准确反映用户提示、可一镜到底的视频。
对于Sora在技术上的突破,巢文涵认为,Sora实际上是一个“Diffusion+Transformer模型”(Diffusion、Transformer分别为模型名称),是二者组合成的强大信息提取器。Sora继承了DallE3(OpenAI 开发的最新文本到图像转换工具)的画质和遵循指令的能力,可以深度模拟真实物理世界,能生成具有多个角色、包含特定运动的复杂场景。因其根据静态图像生成视频的能力,Sora在动图制作、广告设计等领域具有不小的应用前景。不过,Sora能够获取现有视频并对其进行扩展或填充缺失的帧,这一功能在视频、电影特效等领域也将有不俗的应用表现。
值得一提的是,用户还可以使用Sora连接两个输入视频,在完全不同的主题和场景组成的视频间实现无缝过渡。
Sora在技术上的突破及其未来广阔的应用前景,使得AI又上升到了全新的维度。“Sora虽被定义为一款人工智能文生视频大模型,但其实,OpenAI并未将其单纯视为视频模型,而是作为‘世界模拟器’。”巢文涵如此表示。
从时尚展示到动漫制作,从心理治疗到建筑规划,Sora可以为多个相关领域进行全新创造、再创造。
不过,巢文涵认为,目前Sora同样拥有诸多局限性。比如,Sora在处理复杂场景时对物理规则的应用不一致,因此出现无法准确模拟出因果关系的特定情况。这也可以解释,为什么在Sora生成的视频里,时常能看到变形的椅子飞向天空的画面。
巢文涵进一步补充说,在人机交互、充分理解空间和时间的复杂性以及使用限制上,Sora还有非常多的局限性。
难免引发一系列问题
那么,如何在AI技术不断突破的过程中,继续逐点击破AI赋能和应用的难点,平衡创新与挑战?巢文涵表示,生成式AI应用,应该从训练和创造AI,走向调用和激发AI潜力。
“生成式AI的迭代速度降低了用户端的再训练必要性,关键是用户怎么调用这些生成式AI。同时,大模型本身外部检索、多模态能力都非常强,本身是一个好的搜索入口。”他接着补充说,“应该进一步去APP化,提供更多维度的综合应用交互方式。”
在巢文涵看来,大模型本身具备生态插件及融合能力,其自身会调用服务接口,不需要打开APP,而是需要设计合理的API(应用程序编程接口)接口。此外,还需打破传统AI应用中语音、文字、图片等不同格式的界限,提供更多维度的综合应用交互方式。
从技术层面考量,Sora也面临一系列挑战,包括可扩展性和计算资源、隐私和伦理问题以及就业和社会变革等。在这些挑战中,巢文涵特别提到了深度伪造。他注意到,不法分子会利用机器的深度学习技术,进行图像、声音、视频的篡改、伪造和自动生成,产生高度逼真且难以甄别的。
巢文涵认为,Sora对社会生产力和产业发展的促进作用毋庸置疑,但同时,Sora创造的大量虚拟视频会污染现存的图像数据,引发一系列问题。因此,他建议,应该建立法律和监管框架,同时提供政策支持,增强创新意识,加强数据保护与安全。
每日经济新闻
随着AI技术的快速发展,尤其是生成式AI,越来越多的应用场景开始涌现。在OpenAI推出其首个视频生成模型Sora之后,生成式AI的概念再次引起了业界的关注。然而,我们也要认识到,生成式AI的发展并非一帆风顺,仍然面临着许多挑战和难题。
首先,生成式AI的技术进步可能会降低用户端的再训练必要性。当前,人们对于人工智能的理解和应用还处于初级阶段,对于生成式AI的训练和创造AI的过程还不熟悉,这可能会导致用户的反馈不够准确或者质量不高。解决这个问题的方法之一就是鼓励用户在训练和创造AI的过程中,更加关注反馈机制,提高系统的稳定性和准确性。
其次,生成式AI在技术上的突破并不是孤立存在的。在实际应用中,生成式AI往往需要与其他技术相配合,才能达到最佳效果。例如,用户可以通过选择不同的参数来调整生成的效果,从而创造出符合自己需求的视频。在这种情况下,我们需要研究和开发更多的API接口,以满足不同用户的需求。
另外,生成式AI的发展也会带来一些问题,如隐私和伦理问题。一方面,生成式AI可能会收集大量的用户数据,这对用户的隐私权构成了威胁。另一方面,如果生成的违反了道德规范或者法律制度,可能会给社会带来负面影响。因此,我们需要建立相应的法律法规,对生成式AI的行为进行规范和约束。
最后,随着生成式AI的发展,它将对就业和社会结构产生深远影响。一方面,由于生成式AI可以创造大量的就业机会,可能会推动相关行业的经济发展。另一方面,它也可能加剧现有的职位空缺,尤其是在创意和设计等方面。因此,我们需要思考如何在推进AI技术的同时,也要考虑到这些问题,以确保AI的发展能够真正地造福人类。