揭秘：理解生成式视频制作中的关键环节与优化策略

揭秘：理解生成式视频制作中的关键环节与优化策略 - 从策划到呈现的全方位指南

2024-03-31 热点资讯关注公众号

OpenAI发布最新生成式视频模型Sora，强调其潜力巨大，包括图像合成能力的提升和超现实短片的问世，预示着文本转视频领域进入快速发展期。Meta、谷歌和视频技术初创公司相继推出了生成式视频技术，但目前表现不佳，信息可信度较低，引发公众对其潜在风险的关注。《MIT Technology Review》探讨了未来发展趋势和可能的影响，而由七部高质量短片组成的Sora模型显示，Sora可能是生成式视频发展史上的一次重要里程碑。与此同时，多家公司开始利用这项技术开发业务，并有期待其对影视制作和市场营销产生显著推动作用。尽管存在挑战，如信息可信度问题和隐私安全风险，但随着技术的进步和市场需求驱动，Sora有望为数字产业注入活力，成为增强视听体验的关键手段。

编者按：随着生成式视频技术的不断发展，OpenAI 最新发布的Sora模型引起了广泛关注。此前，包括Meta、谷歌和Runway等公司已经推出了一些将文本转化为视频的模型，但其输出质量有限且持续时间较短。然而，随着时间的推移，生成式视频技术的发展已经取得了巨大的进步，Sora模型的推出再次引发了人们对这一领域的关注。最近，《MIT Technology Review (麻省理工科技评论)》发表 "What’s next for generative video (生成式视频的下一步是什么)"，探讨了生成式视频技术的发展趋势以及可能带来的影响。随着技术的进步，生成式视频已经成为了影视制作和营销领域的重要工具，但同时也带来了一系列挑战，包括信息可信度的下降和隐私安全的风险。在面对这些挑战时，我们需要共同努力，通过加强教育、技术监管等手段来确保生成式视频技术的健康发展，以及其对社会的积极影响。

上个月，当OpenAI公布其新的生成式视频模型Sora时，邀请了一些电影制作人来试用。本周，该公司发布了结果：七部超现实的短片，毫无疑问地表明了生成式视频的未来即将迅速到来。

首批能将文本转化为视频的模型出现在2022年末，来自Meta、谷歌和视频技术初创公司Runway等公司。这是一个很棒的技巧，但结果是颗粒状、出现故障，并且只有几秒钟长。

快进18个月，Sora的高清、逼真的最佳输出令人震撼，一些激动的观察者甚至预言好莱坞的死亡。Runway的最新模型可以生成与大片动画工作室相媲美的短片。Midjourney和Stability AI，两家最受欢迎的文本转图像模型背后的公司，现在也在致力于视频领域的研发。

许多公司正在竞相利用这些突破来开展业务。大多数公司在探索过程中才逐渐明确这种业务是什么。“当使用这些工具时，我经常会兴奋地尖叫‘哇，这太酷了’，”Vyond的首席执行官Gary Lipkowitz说道，Vyond是一家提供点对点，点击平台来制作短动画视频的公司。“但是你如何在工作中使用它呢？”

无论对这个问题的答案是什么，它都可能彻底改变各种业务，并改变从动画制作人到广告商等许多专业人士的角色。对于滥用的担忧也在增长。广泛使用生成虚假视频将使网络充斥着宣传和非自愿色情，这比以往任何时候都更容易。我们可以看到这种情况正在发生。问题是，没有人有一个好的解决方案。

当我们继续探索未来的前景——无论是好是坏——以下是四个需要考虑的事情。我们还精选了一些制作人使用这项技术制作的最佳视频，其中包括洛杉矶制作公司Myles的实验性短片《Somme Requiem》的独家展示。继续阅读，了解人工智能电影制作的发展方向。

1. Sora 只是一个开始

目前，OpenAI 的 Sora 在视频生成领域遥遥领先于竞争对手。但其他公司也在努力赶上。随着更多公司完善其技术并开始推出 Sora 的竞争对手，未来几个月市场将变得极其拥挤。

总部位于英国的初创公司 Haiper 本月刚刚走出隐身状态。它由前谷歌 DeepMind 和 TikTok 的研究人员在 2021 年创立，他们想要研究称为神经辐射场或 NeRF 的技术，该技术可以将 2D 图像转化为 3D 虚拟环境。他们认为，将快照转化为用户可以进入的场景的工具对于制作视频游戏将会非常有用。

但是，六个月前，Haiper 将重心从虚拟环境转移到了视频剪辑上，调整其技术以适应首席执行官 YishuMiao 认为将比游戏市场更大的市场。“我们意识到视频生成是最佳方向，”Miao 表示。“对此将会有超高的需求。”

“Air Head” is a short film made by Shy Kids, a pop band and filmmakingcollective based in Toronto, using Sora.

与 OpenAI 的 Sora 类似，Haiper的生成式视频技术使用扩散模型来管理视觉效果，并使用transformer（类似于 GPT-4 这样的大型语言模型中的组件，使它们在预测接下来会发生什么方面表现出色）来管理帧之间的一致性。“视频是数据序列，而transformer 是学习序列的最佳模型，”Miao 表示。

一致性是生成式视频的一个巨大挑战，也是现有工具一次仅生成少量视频的主要原因。用于视频生成的transformer 可以提高剪辑的质量和长度。不利之处在于，transformer 会编造东西，或者产生幻觉。在文本中，这并不总是明显的。在视频中，这可能导致，比如一个具有多个头的人。保持transformer 在正确轨道上需要大量的训练数据和成堆的计算机。

这就是为什么由前微软研究人员创立的 Irreverent Labs 采取了一种不同的方法。与 Haiper 类似，Irreverent Labs 最初是为游戏生成环境，然后转向全面的视频生成。但该公司不想通过复制 OpenAI 和其他公司的做法来随波逐流。“因为那样的话，这就是一场计算机的战争，一个完全的 GPU 战争，”Irreverent 的联合创始人兼首席技术官 David Raskino 表示。“在这种情况下，只有一个赢家，他穿着皮夹克。”（他指的是价值万亿美元的芯片巨头 Nvidia 的 CEO Jensen Huang。）

与使用transformer 不同，Irreverent 的技术将扩散模型与根据常识物理学（例如球如何弹跳或水如何溅在地板上）来预测下一帧的模型相结合。Raskino 表示，这种方法既降低了训练成本，又减少了幻觉的数量。他说，该模型仍然会产生故障，但它们是物理学的扭曲（比如弹跳的球不遵循平滑曲线），这些问题有已知的数学修复方法可以应用到生成的视频中。

哪种方法会持久还有待观察。Miao将今天的技术与 GPT-2 时代的大型语言模型进行了比较。五年前，OpenAI 的突破性早期模型让人们惊叹，因为它展示了可能性。但是，该技术需要几年时间才能成为一个改变游戏规则的技术。

Miao表示，视频也是如此：“我们都处于山脚下。”

2. 人们会如何利用生成式视频

视频是互联网的主要媒介。YouTube、TikTok、新闻片、广告：在已有视频的地方，预计会看到合成视频的出现。

营销行业是最热衷于采用生成技术的行业之一。根据 Adobe 最近在美国进行的一项调查，三分之二的营销专业人士在工作中尝试过生成式人工智能，其中超过一半的人表示已经使用该技术制作过图像。

生成式视频是下一个目标。一些营销公司已经发布了短片，以展示技术的潜力。最新的例子是由 Myles 制作的时长 2.5 分钟的《Somme Requiem》。您可以在 MIT TechnologyReview 的独家报道中观看该影片。

“Somme Requiem” is ashort film made by Los Angeles production company Myles. Every shot wasgenerated using Runway's Gen 2 model. The clips were then edited together by ateam of video editors at Myles.

《Somme Requiem》描述了1914年第一次世界大战期间的圣诞节停战期间被困在雪中的士兵。这部电影由数十个不同的镜头组成，这些镜头是使用Runway的生成式视频模型制作的，然后由Myles的人类视频人员进行拼接、色彩校正，并配以音乐。“未来的叙事方式将是混合工作流程，”创始人兼首席执行官Josh Kahn说道。

Kahn选择战时背景是为了表明自己的观点。他指出，苹果电视+系列电影《Masters of the Air》耗资2.5亿美元，讲述的是一群二战飞行员的故事。彼得·杰克逊的第一次世界大战纪录片《They Shall Not GrowOld》的团队花了四年时间策划和修复了100多小时的档案影片。“大多数电影制作人只能梦想有机会在这个类型中讲述一个故事，” Kahn说。

“独立电影制作有点儿式微，”他补充道。“我认为这将会引发令人难以置信的复苏。”

Raskino也希望如此。“恐怖电影类型是人们测试新事物的地方，尝试新事物直到它们被打破，”他说。“我认为我们将会看到由四个人在某个地下室里使用人工智能创作的一部轰动的恐怖电影。”

那么，生成式视频会摧毁好莱坞吗？还没有。《Somme Requiem》中的背景镜头——空无一人的树林，荒凉的军营——看起来很棒。但其中的人物仍然受到了残缺不全的手指和扭曲的面容的困扰，这是技术的标志。生成式视频最擅长的是广角全景或延时特写，这创造了一种怪异的氛围，但几乎没有行动。如果《Somme Requiem》再长一点，它就会变得乏味。

但是，电影中经常出现场景设定镜头。大多数镜头只有几秒钟长，但拍摄起来可能需要几小时。Raskino建议，生成式视频模型很快就可以用于以极低的成本制作这些中间镜头。这也可以在制作的后期阶段实时完成，而不需要重新拍摄。

GenDigital 的首席技术官Michal Pechoucek，该公司是一家网络安全巨头，旗下拥有包括Norton和Avast在内的一系列杀毒软件品牌，表示同意。“我认为技术的发展方向就是这样，”他说。“我们将看到许多不同的模型，每个模型专门针对电影制作的某个领域进行训练。这些只是由有才华的视频制作团队使用的工具。”

我们还没有完全达到这一点。生成式视频的一个重大问题是用户对输出的控制能力有限。生成静态图像可能会命中或失误；生成几秒钟的视频甚至更加风险。

“现在还很有趣，你会有恍然大悟的时刻，”Miao说道。“但生成完全符合你要求的视频是一个非常困难的技术问题。从一个单一提示生成长而一致的视频还有一段路要走。”

这就是为什么Vyond的Lipkowitz认为，这项技术对大多数企业客户来说尚未准备好。他说，这些用户对视频外观的控制想要比当前工具给予的更多。

全球数千家公司，包括约65％的《财富》500强企业，使用Vyond的平台为内部沟通、培训、营销等创建动画视频。Vyond利用了一系列生成模型，包括文本到图像和文本到语音，但提供了一个简单的拖放界面，让用户一步一步手动组合视频，而不是一键生成完整的剪辑。

运行生成模型就像掷骰子一样，Lipkowitz说。“对于大多数视频制作团队来说，这是一个明确的拒绝，特别是在企业部门，其中一切都必须完美无瑕并符合品牌标准，”他说。“如果视频出现问题——也许人物有太多手指，或者可能有一个颜色错误的公司Logo——那就不幸了，这就是生成AI的工作原理。”

解决方案？更多的数据，更多的训练，不断重复。“我希望我能指向一些复杂的算法，”Miao说道。“但不，这只是更多的学习。”

3. 虽然误导信息并不是新鲜事，但深度伪造视频会使情况变得更糟

多年来，网络误导信息一直在破坏我们对媒体、制度和彼此的信任。一些人担心，将虚假视频加入混合中会摧毁我们留下的任何共同现实的支柱。

“我们正在用不信任、困惑、恐惧和仇恨取代信任，”Pechoucek说。“没有基本事实的社会将会堕落。”

Pechoucek特别担心深度伪造视频在选举中的恶意使用。例如，在去年的斯洛伐克选举中，攻击者分享了一个虚假视频，显示领先的候选人讨论了操纵选民的计划。这段视频质量低，很容易识别为深度伪造。但Pechoucek认为这已足以扭转结果，使其有利于另一位候选人。

“Adventurous Puppies” is a short clip made by OpenAI using with Sora.

BlackbirdAI是一家跟踪和管理网络误导信息传播的公司，该公司的战略和创新团队负责领导。该公司的约翰·维辛格认为，当假视频融合真实和虚假镜头时，假视频会最具说服力。拿总统乔·拜登走过舞台的两段视频为例。一段视频中他摔倒了，而另一段没有。谁能说哪个是真实的？

“假设某个事件确实发生了，但呈现给我的方式略有不同，”维辛格说。“这可能会影响我的情感反应。”正如Pechoucek所指出的那样，一个假视频甚至不需要很好，就足以产生影响。维辛格说，一个符合现有偏见的糟糕伪造视频将比一个精心制作但与现实不符的伪造视频造成更大的伤害。

这就是为什么Blackbird专注于谁与谁分享什么。在某种意义上，某事物是真是假并不像它来自何处以及它如何传播那样重要，维辛格说。他的公司已经追踪低技术误导信息，例如在社交媒体上展示真实图像但上下文不明确的帖子。生成技术使情况变得更糟，但是人们以误导的方式呈现媒体的问题，无论是有意还是无意，都不是新问题，他说。

如果将机器人混入其中，在社交网络上分享和推广误导信息，情况会变得混乱。只要知道有假媒体存在，就会在恶意讨论中播下怀疑的种子。维辛格说：“你可以看到，很快就可能变得不可能再分辨出什么是合成的，什么是真实的了。”

4、我们正面临着一个新的网络现实

伪造品很快将无处不在，从虚假信息宣传活动，到广告片，再到好莱坞大片。那么，我们该如何区分现实和幻想呢？有一系列解决方案，但单独任何一个都不足以解决问题。

科技行业正在研究这个问题。大多数生成工具尝试强制执行某些使用条款，比如防止人们创建公众人物的视频。但是有方法可以绕过这些过滤器，而开源版本的工具可能带有更宽松的政策。

公司还在制定AI生成媒体的水印标准和检测工具。但并非所有工具都会添加水印，而且水印可以从视频的元数据中去除。也不存在可靠的检测工具。即使这样的工具有效，它们也将成为一场追赶模型进步的猫鼠游戏的一部分，这些模型旨在监管这些工具。

像X和Facebook这样的在线平台在管理方面的记录很差。一旦问题变得更加棘手，我们不应指望它们能够做得更好。Miao曾在TikTok工作，在那里他帮助构建了一个管理工具，用于检测违反TikTok使用条款的视频上传。即使是他也对即将发生的事情感到担忧：“真的存在着危险，”他说。“不要相信你在笔记本电脑上看到的东西。”

Blackbird开发了一个名为Compass的工具，它可以用来对文章和社交媒体帖子进行事实核查。将链接粘贴到该工具中，一个大型语言模型将从可信的在线来源（维辛格说这些始终可以审查）中生成一个简短摘要，为链接的材料提供一些背景信息。其结果与X、Facebook和Instagram等网站上有时会附加到有争议的帖子上的社区注释非常相似。该公司设想Compass为任何生成社区注释。“我们正在努力实现这一目标，”维辛格说。

但是，将链接放入事实核查网站的人已经相当精明了，而许多其他人可能不知道这样的工具存在，或者可能不愿相信它们。误导信息往往也比任何随后的更正传播得更广泛。

与此同时，人们对这究竟是谁的问题存在分歧。Pechoucek表示，科技公司需要开放其软件，以促进围绕安全和信任的竞争。这也将使他这样的网络安全公司能够开发第三方软件来监管这项技术。他说，这就是30年前Windows出现恶意软件问题时发生的事情：“微软允许杀毒软件公司进入帮助保护Windows。结果，网络世界变得更安全了。”

但是Pechoucek并不太乐观。“技术开发者需要以安全为首要目标来构建他们的工具，”他说。“但更多的人考虑如何使技术更强大，而不是担心如何使其更安全。”

Made by OpenAI usingSora.

在科技行业有一个常见的宿命论的说法：变革已经到来，我们必须应对。“生成式人工智能不会被取消，”Raskino说。“这可能不太受欢迎，但我认为这是真的：我认为科技公司无法承担全部责任。归根结底，对任何技术的最佳防御是一个受过良好教育的公众。没有捷径。”

Miao也同意。“大规模采用生成技术是不可避免的，”他说。“但这也是整个社会的责任。我们需要教育人们。”

“技术会不断发展，我们需要为这种变化做好准备，”他补充道。“我们需要提醒我们的父母、朋友，他们在屏幕上看到的东西可能并不真实。”他说，这对于老一辈人尤其重要：“我们的父母需要意识到这种危险。我认为每个人都应该共同努力。”

我们需要迅速共同努力。一个月前，Sora问世时，科技界对生成式视频的迅速发展感到震惊。但绝大多数人甚至不知道这种技术的存在，维辛格说：“他们肯定不了解我们所处的趋势线。我认为这将会令世界大为震惊。”

源于硅谷、扎根中国，上海殷泊信息科技有限公司 (MoPaaS) 是中国领先的人工智能(AI)平台和服务提供商，为用户的数字转型、智能升级和融合创新直接赋能。针对中国AI应用和工程市场的需求，MoPaaS 在业界率先推出新一代开放的AI平台为加速客户AI技术创新和应用落地提供高效的算力优化和规模化AI模型开发、部署和运维 (ModelOps) 能力和服务；特别是针对企业应用场景，提供包括大模型迁移适配、提示工程以及部署推理的端到端 LLMOps方案。MoPaaS AI平台已经服务在工业制造、能源交通、互联网、医疗卫生、金融技术、教学科研、政府等行业超过300家国内外满意的客户的AI技术研发、人才培养和应用落地工程需求。MoPaaS致力打造全方位开放的AI技术和应用生态。MoPaaS 被Forrester评为中国企业级云平台市场的卓越表现者 (Strong Performer)。

上一篇:把贸易站长相奇特的武器在现实里复刻出来是什么样？
下一篇:经济日报：“AI复活”生意的启示与挑战

更多更酷的内容分享

猜你感兴趣

深入了解《DNF》堇青石的获取方式与策略：一个全面的攻略指南

在DNF100级版本中，玩家可以通过完成日常任务、挑战深渊和参加活动等方式获得堇青石。

热点资讯 04.18

揭秘民法典中的遗产继承顺序：最大化传承价值的关键策略

我国民法典明确规定了遗产继承顺序和比例,旨在维护家庭财产的传承和分配秩序。

热点资讯 04.20

精准优化：揭秘保洁公司品牌命名的秘诀与策略

保洁公司在2000-2001财年实现了392.4亿美元的销售额。在该财年的《财富》杂志排名中，保洁公司位列第75名，全美则位列第23名。这个成就彰显了公司的稳健增长和实力。

热点资讯 04.22

掌控2024-2043，迈向智慧新纪元：优化关键词策略的指导和建议

"离火周期始于2024年，关注的焦点可能包括火星的气候变化和未来火星探索活动的开展等."

生活常识 04.13

Zeus经纪人团队对近期关于T1传播虚假信息的声明表示强烈否认，并强调其对于互联网信息真实性的坚守态度

关于 Zeus 的合约纠纷，T1 经纪公司公开回应，称经纪人公司 "THE Play" 不愿意协商，导致双方未能达成协议。zeus 表示希望留队，但因为 T1 提出的合同条件无法接受，选择转会。经纪公司已发布声明澄清并道歉，表示双方正在寻求第三方调解。目前关于 Zeus 的转会情况仍在处理中。

热点资讯 11.23

梦幻西游：豪华配置，175狮驼岭，极致盛宴的呈现

狮驼岭凭借强力物理系技能，受到梦幻玩家喜爱。在门派调整中得到了加强，成为三攻队核心输出。在游戏中，175级狮驼岭拥有13+8天花板级的搭配，具有极高输出能力。在各项属性上均有较高表现，例如力量耐力血量等。此外，其特殊技能与元素战技使其在PK中具备一定的优势。140级勇猛专用武器升级为高伤，增加了输出能力。值得一提的是，佩戴双伤害和一速度的饰品能使穿戴者对敌人造成更高伤害。建议根据角色特色选择合适的装备。

热点资讯 11.23

旭旭宝宝的新版本DNF: 大量玩家狂热升级，跨六矛盾凸显大赢家

里还有大量未使用的强化石、符文等物品储备。事件起因：DNF中的旭旭宝宝要求增加职业平衡。事件关注爆点： 1. 增加技能攻击力。 2. 单部位累积式增益。 3. 并发几率增加。总结：旭旭宝宝虽然面临职业不平衡的挑战，但希望通过提升职业平衡来解决困难。此次改版有望改善旭旭宝宝的职业发展状况，但他仍然需要注意保持个人游戏风格的稳定，避免过度依赖特定部位的技能攻击。此外，旭旭宝宝所在跨6矛盾的价格也可能会上涨，需要考虑自身实力与市场情况做出合理决策。

热点资讯 11.23

蔚来汽车有望在2年后实现爆发式增长，静候机遇与挑战并存

蔚来在2021年第三季度取得了显著的销售成绩，交付量达到62000台，相较于去年同期增长6000多台，实现了销售和营收的增长。然而，尽管订单量增长明显，但蔚来依然面临较大的亏损压力，特别是单车售价降低导致的成本上升和运营亏损的扩大。此外，李斌还承诺，到2026年实现销量翻倍，甚至在未来几年中实现盈亏平衡。虽然蔚来高端定位的NIO品牌无法单靠单一车型提振公司利润，但需要通过优化产品组合和提高生产效率来增强规模效应。当前看来，蔚来正在逐步走出销量依赖的状态，有望逐渐改善财务状况并实现盈利目标。

热点资讯 11.23

中国车牌设计的独特美学：为什么看似丑陋的新车车牌却深受青睐?

上海首个无人驾驶装备车牌发布引发争议，专家预测将普及。但仍有车主反映车型低调低档，希望未来改换其他车牌。

热点资讯 11.23

降低重心，无需动用网络词

控系统等领域实现技术突破。近年来，我国低空产业发展呈现良好态势，其中电动垂直起降航空器（eVTOL）、无人机等大规模推广应用离不开高性能的动力电池支持。各地纷纷发布低空经济发展行动计划，包括制定具体目标、明确重点任务，并针对不同应用场景开展技术研发。相关政策助力低空产业迈向高质量发展轨道，如氢燃料电池、固态锂电池等技术的应用也在逐步推进。未来有望打破传统空间局限，实现更广泛的广泛应用。

热点资讯 11.23

合肥国控：本轮反弹行情中抄底了吗？, 合肥国控：新一轮反弹行情中的稳健投资策略分析, 安徽国资：抄底的最佳时机分析, 如何看待安徽国控在反弹行情中的投资策略?

欧菲光在智能手机镜头模组市场遭遇困境，终止与苹果的合作关系。然而，在此期间，合肥市国有资本企业合肥建投和合肥合屏获得了配额，为其定向增发提供资金和土地支持。后续公告显示，欧菲光成功募得35.3亿元资金，并将用于车载业务基地的建设。这标志着合肥市采取行动支持欧菲光，帮助其度过难关。

热点资讯 11.23

通胀预期持续上升！美联储或将面临罕见的降息压力

预测同比增长率从目前的2.9%提高至3.7%。不过，由于新冠疫情的影响和政策不确定性，经济学家普遍预计这一增长率将在2025年内逐渐放缓。此外，由于特朗普政府的诸多提议可能会带来额外的需求，例如出口刺激、税收减免等，这些因素也可能对未来的GDP增长产生影响。综合来看，明年将是美联储面临一系列复杂挑战的一年，其中尤为引人关注的是如何应对不断上升的通胀和经济增速的问题。

热点资讯 11.23

拼多多高管黄峥财富缩水超两万亿，遭钟睒睒炮轰增长放缓

拼多多第三季度营收增长，净利润下降，公司CEO黄峥财富缩水，市场份额受到质疑，拼多多面临长期挑战。拼多多创始人黄峥财富缩水，拼多多面临巨大挑战，市场份额面临质疑。

热点资讯 11.23

京东方联手燕东微启动12英寸晶圆项目，争夺中国半导体市场份额的关键之战

京东方与燕东微计划共同出资70亿元，投资建设12英寸晶圆生产线项目，将填补国内高端晶圆市场供给缺口，推动中国集成电路产业的发展，并助力北京产业升级。其中，燕东微将持股51%，而京东方则占股49%。这一项目的总投资预计将在2024年启动，2026年底实现量产，2030年达到满产，以满足高端12英寸晶圆市场的需求。该项目对京东方和燕东微来说都是重要的战略布局，也有助于推动国内集成电路产业的发展。

热点资讯 11.23