自译 | 生成式 AI 对好莱坞而言是持续性还是颠覆性创新?

原文:https://dougshapiro.medium.com/is-genai-a-sustaining-or-disruptive-innovation-in-hollywood-ab74d930ef6b
时间:2023 年 12 月 24 日
作者:道格·夏皮罗(Doug Shapiro),独立顾问/咨询专家,BCG 高级顾问,前 Turner/WarnerMedia 分析师
翻译:Horace Lu

(注:键盘快捷键“w”或左侧菜单右上角按钮,可切换文章列表视图与大纲视图)

DALL-E 3 提示词:“an abstract image of a human morphing into a robot, in which the human features appear organic”

在好莱坞,关于生成式人工智能(Generative AI,以下简称“生成式 AI”)对电视和电影制作流程及成本结构可能产生的影响,存在很多争论和困惑。作为参考,我已经围绕这个主题撰写了多篇文章,包括 《告别电视黄金时代,迎接无限电视的时代》《好莱坞的颠覆进程将如何展开?》《好莱坞的人工智能用例》 以及 《在质量泛滥时何为稀缺?》

一部分人认为,这种影响相对较小。他们认为,尽管生成式 AI 可能提升生产效率并降低成本,但就像数码单反相机(DSLRs)或计算机生成图像(CGI)的创新一样,节省下来的成本大部分将转化为银幕/屏幕上更高的制作价值。然而,也有人认为这将引发行业变革。在 Twitter/X 上,关于 AI 视频(AIvidtwit?)的讨论区域充斥着大量声称“好莱坞已死”的帖子。显然,AI 对就业的影响是最近美国编剧工会(WGA)和美国电影电视演员联合会(SAG-AFTRA)罢工的核心议题之一。

对这种分歧的另一种表述是,前者将生成式 AI 视作 持续性 创新,而后者认为它是 颠覆性 创新。那么,它到底属于哪一种呢?答案是,它既可以是持续性的,也可以是颠覆性的,具体取决于其应用方式。

生成式 AI 在电视和电影制作中的应用,本质上是关于“合成化”(syntheticization)的过程,即用计算机生成的合成元素(synthetic elements)来替换生产过程中的实体和劳动密集型元素——场景、地点、车辆、照明、摄像机、服装、化妆及人员,不论是镜头前的还是镜头后的。这种做法大大提高了效率,但同时也需要在质量控制方面做出妥协。计算机生成的每一个像素,实际上都是将一部分人类的监督和判断交给了 AI 来完成。

好莱坞对于生成式 AI 的观点高度两极化,部分原因是因为“合成化”这一过程正从两个截然不同的方向进行,这反映了在追求效率与维护质量控制之间的不同取舍策略。一种策略是所谓的“渐进式合成化”(progressive syntheticization),即系统地将生成式 AI 融入现有生产流程中。另一种策略则是“渐进式控制”(progressive control),从“完全合成”出发,逐步增强创作者的控制权。前者代表了一种持续性的创新模式,而后者则是颠覆性的。正如电影《罗生门》所展示的,不同的视角会导致不同的结论。

在本文中,我将探讨这些不同策略之间的区别及其带来的深远影响。

摘要

  • 生成式 AI 可以是持续性创新,也可以是颠覆性创新,具体取决于它的应用方式。你对它的看法可能因你的身份和关注点的不同而异。
  • 许多传统的制片公司,包括大型公司和独立工作室,都在积极探索“渐进式合成化”,并逐步将生成式 AI 工具集成到现有的工作流中。和大多数既有的企业一样,他们认为技术是一种手段,旨在提高现有产品和流程的成本效益和/或质量,这正符合持续性创新的定义。
  • 同时,一些 AI 视频生成工具,如 Runway、Pika 和 Stable Video Diffusion,起初完全基于合成内容,提供给创作者的控制权限有限,但随着时间的推移,这些工具开始赋予创作者更多的控制权(“渐进式控制”)。不出所料,那些传统好莱坞体系外的创作者对这些工具表现出了极大的热情。
  • 这些工具最初的产出几乎是个笑话——它们产生的内容超现实、令人不安,通常难以欣赏(按照颠覆理论的说法,它们明显还未达到“足够好”的标准)。然而,这些工具的发展速度令人震惊,创作者通过结合使用多种工具来开发自定义的工作流程,以此获得更多控制权和更优质的产出。
  • 这就是颠覆性创新的定义:从劣质产品开始,随着时间的推移,逐步改进并最终获得成功。
  • 当一项技术既可以是持续性创新也可以是颠覆性创新时,持续性创新的用例通常会首先成为主流。因此,生成式 AI 在初期的主流商业应用可能并不会立即引起行业的巨大变革。
  • 然而,随着时间的推进,AI 视频生成工具的性能会不断提升,直至它们的输出质量达到了“足够好”的水平,满足了足够多消费者对特定内容类别的需求。
  • 生成式 AI 在一开始可能被视为一种持续性创新,但随着情况的发展,它可能突然显露出颠覆性的特征。如果我们将注意力只集中在已有的成就上,很容易对潜在的变革视而不见,陷入自满的状态。

同一技术可以是持续性创新,也可以是颠覆性创新

克莱·克里斯滕森(Clay Christensen)在其颠覆性创新理论中区分了持续性创新和颠覆性创新(图 1)。以下摘自 《创新者的解决方案》

持续性创新让现有的企业有机会制造出更加卓越的产品,并且能以更高的利润向他们的优质客户销售。

与此形成鲜明对比的是,颠覆性创新通过推出与现有产品相比看似不够完善的产品和服务,实现对市场的颠覆和重新定义。一旦这些颠覆性产品在新兴市场或低端市场站稳脚跟,这些初看不够出色的技术最终会得到改进,直到它们能够满足更加挑剔的客户需求。

图 1:持续性创新 vs 颠覆性创新(来源:作者,改编自《创新者的困境》》)

这里有一个至关重要的观点,即颠覆性创新总是从被认为“不够完善”的阶段开始——正如克里斯·迪克森(Chris Dixon)所描述,“下一件重大事物总是最初被视作一件‘玩具’而被轻视。” 这种创新的实施成本总是相对较低,但其代价是在初期阶段,其性能(或质量)会低于现有的产品或服务。

关于这种区别的另一个重要但经常被忽略的点是,同一项技术可以根据其应用方式,既是持续性创新也是颠覆性创新。人们通常将技术或商业模式固有地视为持续性或颠覆性。例如,剃须刀增加的 第五个刀片 属于持续性创新;而剃须刀片直接面向消费者(D2C)的订阅服务则被视为颠覆性创新。然而,事实并非总是这么简单。

以“数字技术”在音乐行业的应用为例:在自然界中,声音表现为模拟波形。像黑胶唱片或磁带这样的模拟媒介,通过物理改变媒介来复制这些波形。而数字化过程则是将模拟信号转换成数字比特形式。

数字技术在音乐领域的早期应用之一是 CD 的发明,它代表了一种持续性创新。与黑胶唱片或磁带相比,CD 提供了更优秀的音质(背景噪音更少)、更高的耐用性和播放控制的便利性。音乐厂牌和零售商宣传这是一种进步,并以更高的价格销售它们。而数字技术的另一个应用——创建 MP3 格式并在网络上传输,成为了一种颠覆性创新。这些文件往往质量较低,甚至有时存在损坏或标签错误的问题,却能在点对点的文件共享网络中免费传播。随后的发展就是大家熟知的历史了。

许多例子显示,同一项技术既能够以持续性方式应用,也能够以颠覆性方式应用。由于持续性方案更易于实施,且颠覆性方案在初期生产的产品质量不足以满足大多数客户的需求,持续性应用往往率先成为主流。例如,云计算最初是作为数据中心托管服务的延伸,最终却为“超大规模计算服务”(hyperscalers)提供了基础。或者,想想 3D 打印,最初用于加速传统制造流程中的原型制作,但最终有可能完全替代某些制造方式。

在电视和电影制作中,生成式 AI 同样既被看作是一种持续性创新——即“渐进式合成化”,也被视为颠覆性创新——“渐进式控制”。

渐进式合成化

众多现有的制片厂,无论是主流还是独立的,都在努力把生成式 AI 以系统化的方式融入到他们现有的生产流程中(即“渐进式合成化”)。这一做法延续了一项悠久的传统,这种传统早在人工智能出现之前就已存在于电影制作中了。它被视为一种持续性创新,因为其目标是提高现有产品和流程的成本效率和/或质量。

数十年来,电视和电影制作已经变得越来越“合成”

事实上,所有的虚构电视剧和电影制作在某种程度上都是试图让观众暂时放弃他们的怀疑,相信一些显然未曾发生的事情实际上发生了。为了达到这个目的,从电影诞生之初起,电影人便不断尝试将合成元素与真人动作结合起来,以营造出足够让人信服的幻觉。摘自 《好莱坞的人工智能用例》

从乔治·梅里爱《月球旅行记》(1902)的定格动画,到弗里茨·朗《大都会》(1927)的精巧布景,从《金刚》(1933)的微缩模型,到《星球大战》(1977)中更为复杂的模型、服饰和化妆,从《电子世界争霸战》(1982)中首次运用的 CGI,到《侏罗纪公园》(1993)、《指环王》三部曲(2001)和《阿凡达》(2009)中不断进步的计算机图形和视效,这个过程可以画出一条清晰的发展路径。电影制作的每一步似乎都在与现实渐行渐远。正如之前提到的,如今几乎每部主流电影都运用了视效,在《阿凡达 2:水之道》这类电影中,几乎每一帧都经过了大量的数字化处理。

合成化的进程可以从图 2 中看到一个直观的历史轨迹。值得注意的是,在 20 世纪 80 年代初计算机生成图像(CGI)问世之前,合成化的创新主要集中在加入物理合成元素,如模型、人造假肢、实体特效等;此后,创新的焦点转移到了加入计算机制作的虚拟合成元素上。

图 2:从合成的角度纵观电影制作历史(来源:作者)

渐进式合成化是一种持续性创新

渐进式合成化的目标是降低现有生产流程的成本和时间消耗,同时不对观众的观影体验造成负面影响。与大多数持续性创新一样,它旨在改善现有产品在成本与质量(或成本与性能)之间的平衡。

《好莱坞的人工智能用例》 中,我具体讲述了这一策略将如何在实际操作中实现(参见图 3)。当前及近期的应用涉及以下工具:

  • 利用文本转图像工具如 Midjourney 或 DALL-E,迅速生成概念艺术,比如故事板和动态分镜,就像 这个例子中 Chad Nelson 所展示的那样。
  • 使用 ChatGPT 或专门开发的大语言模型封装工具,辅助剧本的创作和编辑工作。
  • 应用文本转 3D 和 NeRF / Gaussian Splatting 技术,比如 Luma Labs 的工具,来开发用于可视化预演或实际制作的 3D 资产。
  • 利用专门设计的文本转图像生成器,如 CuebricBlockade Labs,制作虚拟拍摄背景。
  • 使用工具如 Vanity AIWonder DynamicsMetaphysic,自动化并优化特定的视觉特效(VFX)工序。
  • 借助 FlawlessDeepdub 等工具,自动执行本地化服务(即配音和字幕),并实现数字重拍。

未来的应用趋势包括将物理元素进一步虚拟化。例如,有可能更加依赖于数字化的服装和化妆技术。换脸技术可以实现使用“表演替身”(acting doubles),从而在部分情况下减少一线明星现场出演的需求。更广泛地使用 AI 生成的数字资产,可能会使场景设定更简单、成本更低。Adobe 计划将其 Firefly 生成式 AI 工具集成到 Premiere Pro 中,该工具允许仅通过解析剧本就自动生成简易故事板,甚至通过将镜头与剧本或音频同步匹配来完成粗剪。

图 3:当前和未来影视制作中的人工智能用例(来源:作者)

渐进式控制

在技术应用的另一端,是完全由 AI 驱动、优先考虑效率而非创作者控制的工具,即 AI 视频生成器,包括 Runway Gen-2Pika 1.0、开源的 Stable Video Diffusion,以及 Google 的 Imagen 和 Meta 的 Emu 等尚未发布的产品。(实际上,创作者最初控制输出的唯一方式就是输入的提示词本身。)不意外的是,许多传统行业的从业者对这些工具持消极态度,而那些在好莱坞传统体系外的创作者则对此表现出极大的热情,因为他们最有可能从中受益且几乎无损失。

与其他颠覆性创新一样,这些工具最初的质量显然“不够好”。早期的生成视频产出了一些令人不安的结果,即便是现在,它们在帧间的时间连贯性、动作以及语音和唇形同步方面还存在挑战。你不太可能会坐下来边吃爆米花边观看完全由 Gen-2 这样的技术创造的电影。然而,这些产品正在以极快的速度进化,不断增强创作者的控制能力,产出质量也在大幅提升。创作者们还在使用多种工具开发自定义工作流程,以实现更精细的控制并获得更优秀的成果。

图 4:Runway Gen-2 在过去六个月的产品开发(来源:作者)

Runway 产品在六个月内的开发进展

让我们看看 Runway Gen-2 在短短六个月内的产品开发历程(图 4)。

  • 它在六月作为一款文本到视频的生成器推出,最初其运作方式类似于老虎机。用户输入一段文本,随后“拉动手柄”,期待看到生成的结果。从那时起,Runway 逐步赋予了创作者更多的控制权,并不断提升了生成内容的质量。
  • 七月,它允许创作者上传参考图片,实现了图像到视频的转换。用户可以利用 Gen-2 内置的文本转图像生成工具,或其他工具如 Midjourney 或 DALL-E,通过不断试错来精细调整生成的内容。
  • 八月,Runway 引入了一个滑动条,用于控制视频输出中的动作。
  • 九月和十月,它推出了“导演模式”,允许用户进行画面的平移和缩放。
  • 上个月(十一月),Runway 新增了“运动笔刷”功能,使创作者能够单独选取并为视频中特定的元素添加运动。
  • 在整个开发过程中,Runway 不断改善了视频的帧间时间连贯性以及运动的真实感。

仅在短短六个月的时间里,Runway Gen-2 的产品开发就取得了显著进步,以下是一些使用该技术创作的视频示例。首先是在七月制作的一个视频,展示了一部虚构的电影《海蒂》的预告片,其内容颇为惊悚,可能不适合睡前观看。

相较之下,上个月 Runway Gen: 48 短片比赛的获奖作品采取了一种创新手段,通过让角色戴头盔来巧妙规避当前技术在同步口型和语音方面的限制,同时在时间连贯性上取得了显著提升。

另外,还有一个同样利用 Runway 技术制作的短视频(链接位于推文图片下方)。尽管视频中的动作略显生硬,且人物未发声,但人物形象和画面效果却极为出色。

Runway 的 远大目标 是在未来几年内,利用其技术制作出一部两小时长、观赏性强的故事片。鉴于其技术发展的当前轨迹,这个目标看似触手可及。随着时间连贯性和动作表现的持续优化,加之对创作者控制的进一步精细化,以及最终实现精准的口型同步,Runway 正朝着这一目标稳步前进。

多工具工作流程

在 Runway、Pika 及开源模型持续进步的背景下,创作者们正日益倾向于采纳融合多种工具的工作流程。拿以下用皮克斯风格重新想象《哈利·波特》的视频为例(虽然我不是法律专家,但显然这涉及版权材料的使用,在创作者未将视频商业化的情况下,这可能被视为合理使用)。这个项目通过结合使用 Midjourney 和 DALL-E 生成参考图像,接着在 Photoshop 的 Firefly 中进行细节调整,利用 Runway 为图像赋予动态效果,以及通过 D_ID 让角色对话显得更加自然。

另外,《The Cold Call》这个项目通过 Midjourney 为主角(与汤姆·哈迪和马赫沙拉·阿里极为相似)创建参考图像,结合使用 Runway 和 Pika 赋予动画效果,并通过 Wav2Lip 实现声音与嘴唇的同步。尽管与真人实拍有所不同,但与《海蒂》的视频相比,它代表了一个巨大的技术飞跃。

再来看《One of Us》,这个作品很可能也是结合使用了 Midjourney、Runway、Pika 和 Eleven Labs 来创造声音,同时巧妙地利用儿童视角避免了同步声音与嘴唇的需求。

这一切进展的速度之快,怎么夸张都不为过。即使是将 AI 研究作为全职工作,也很难跟上其发展的脚步。以 futuretools.io 为例,该网站列出了 200 多种文本到视频、视频编辑、生成视频以及图像增强工具(图 5)。然而,这些工具的共同发展趋势明显指向了图像保真度的不断提升,以及为创作者提供的控制权越来越细化。仅仅回顾过去几周,就有许多新兴技术和功能浮现。

图 5:AI 视频工具的数量爆炸式增长

Pika 虽然在六个月前才推出其首个产品,但最近发布的 Pika 1.0 在视频创作领域带来了显著的进步,其推文中嵌入的视频展示了这一点。特别值得注意的是,在视频的 0:43 处,Pika 1.0 展示了一项创新功能:用户可以突出显示图像中的特定元素,并通过文本提示词即时更改它们,无需花时间测试或更改提示词重新渲染,这大大简化了视频编辑过程。

Meta 最近也展示了 Emu Edit 和 Emu Video 的先进功能,这些文本转图像及视频的生成模型,允许用户仅通过简单的文本指令实时编辑视频中的特定元素。

Stability.ai 发布的 SDXL Turbo 是一个开源的实时文本到图像生成工具。尽管其输出的质量可能不及 Midjourney,但其快速生成概念的能力使其成为创建精确概念艺术的实用工具,这些概念艺术可以作为图像转视频生成器中的参考图像。

Vizcom 等工具能够将草图和文本提示转化为逼真的图像渲染。类似地,Krea.ai 利用一种 “潜在一致性”(Latent Consistency)技术,支持 AI 辅助的实时绘图,如下所示。仅通过一条文本提示词和基本的绘图技能,创作者就能够创造并精细化她所想象的任何内容。这些工具为视频内容生成中的参考图像提供了更精细的创作者控制。

生成式 AI 的影响可能微乎其微——直到一切突然改变

那么,实际情况将如何呢?生成式 AI 仅仅成为电视和电影产业中的“又一个工具”,还是会带来行业的根本变革?

答案很可能并不位于这两个极端,但我的看法更倾向于后者。我在其他文章中已经详细阐述了我的观点(包括 《告别电视黄金时代,迎接无限电视的时代》《好莱坞的颠覆进程将如何展开?》《好莱坞的人工智能用例》 以及 《在质量泛滥时何为稀缺?》)。核心理念是,生成式 AI 将显著降低创作高质量视频内容的门槛,而消费者对于什么构成“高质量”的定义正逐渐转变,不再仅仅强调高昂的制作成本。虽然使用 “总是” 这一词语可能带来风险,但我认为,降低进入门槛对于目前的从业者来说,无疑具有颠覆性。(如果你有反对的例子,请分享给我!)

然而,强调一个我之前提到的观点很重要:生成式 AI 的首批主流应用很可能被视为持续性创新,而非颠覆性创新,比如在前期制作中加速概念艺术的创作、提高视觉效果工作的效率,或实现更自然的减龄和配音效果。这些进步可能会带来一定的成本节约和制作价值的提升,但它们不太可能引起行业的根本变革。

但与此同时,“渐进式控制”的方法将不断得到改进。很可能在未来五年内,AI 视频生成技术将突破某些内容领域对于“足够好”的期望门槛,满足足够数量的消费者需求(如图 6 所示),为广大的独立创作者群体赋能。换言之,它的影响初看起来可能很边缘,但最终将不可小觑。

如果我们只关注现有的应用场景,很容易对这些技术变革的深远影响视而不见,陷入自满。生成式 AI 在初期可能表现为持续性创新,但随着技术的进步和应用领域的拓展,它有潜力彻底改变电视和电影制作的游戏规则。

生成式 AI 可能初看像持续性创新,直至它展现出颠覆性的潜力(来源:作者,改编自《创新者的困境》)

(完)

转载请注明来源。欢迎留言评论,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。