神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。
编者按:继能够生成文本和能够生成图片的 AI 之后,生成式人工智能也将在视频领域掀起一波风浪。本文来自编译,希望对您有所启发。
2022 年至今,人工智能作为一款强大的创意工具,地位得到了进一步巩固。而且人工智能发展得很快。举个例子,下图左边是生成式人工智能(GenAI)应用程序 Midjourney 最开始的结果,而右边是六个月后的结果:
(资料图片仅供参考)
输入的提示为:照片,头发花白的65岁男子,秃顶,小眼睛,麻子鼻子,看着中画幅的相机,在地下室,头顶上有灯光,晚上
即使可能不是明天就能实现,但我们使用类似的工具来生成视频(即合成视频,synthetic video)只是一个时间的问题。类似的研究项目已经存在,比如 Meta 的 Make-A-Video 或谷歌的 Imagen Video,这两个产品都能制作出不错的视频。
但这些项目缺少的核心功能是将片段串联成场景、以建立起一个连贯的叙事的能力。
在这篇文章中,我想探讨当这一天来临的时候会是什么样子,以及它对媒体创作的未来意味着什么,具体包括:
1. 个人视频合成工具将会很快出现
2. 如何构建早期叙事
3. 合成工具将如何影响短视频
4. 让任何人都能“重塑自己的脸”的技术
5. 关于深度伪造检测的问题
6. 人工智能将如何影响日益增长的“虚拟网红”运动
7. 交互式形象和虚拟现实的发展
这是一篇深入浅出的文章,不可否认,文章中的这些话题都可以单独发表。但是,我并没有单独进行深入研究,而是想为“对人工智能 X 视频感到好奇”的媒体专业人员提供一个高水平的概述,让他们了解这场巨变带来的关键问题。需要说明的是,我主要关注网络视频,而不是电视和电影。
我们将看到这项技术应用的第一个地方是合成素材。现在谷歌 Imagen Video 制作的视频还处于初级水平。不过,当这种工具广泛应用时,它将改变视频创作者的游戏规则。素材库是一个有用的工具,但它可能需要大量的搜索,即使这样,你也很少能找到理想的东西。
相反,想象一下,你可以描述自己正在寻找的精确片段(甚至提供相机移动方式、角度、光圈),然后,AI 会直接在你的编辑程序中创建无数的选项,直到你找到完美的素材。
这将产生什么影响?
像 VOX 和 CNBC 这样的 Youtubers 和发行商将利用这个工具极大地提高其视觉质量。我们可能还会看到由此产生新的编辑格式。
品牌方会将其作为一种更经济的方式来创建社会热点,甚至可能用来创作广告。
这个工具将允许有影响力的人创造更广泛的内容,让新人更容易进入视频创作领域。我们甚至可能看到完全由合成剪辑制作的电影。合成剪辑将使所有的网络视频有一个明显的质量改进。
与此同时,我们将看到大量其他生成式人工智能工具,它们可以释放创造力,加快项目速度,并进一步普及创建专业内容的能力。
Runway ML 是一家处于人工智能和内容交叉领域的初创公司,有望成为这一领域的领跑者。事实上,他们已经开始在现有的、基于网络的视频编辑应用程序中构建人工智能功能,包括一个神奇的擦除和替换工具,称为视频修补(video inpainting)。
如果编辑器想要删除滑板视频背景中的一个人,用户所要做的就是在画布上标记它。接下来,AI 将擦除该区域,然后使用周围的背景作为参考来填充场景。
而有了视频生成工具之后,你将不仅可以擦除场景的一部分,还可以创造新的内容来替换它。
想象一下,你是品牌方,一年前拍摄了一个很好看的视频,但后来更新了包装。现在有了这个工具,你将能够快速和经济地以新换旧,而不需要重新拍摄,或聘请昂贵的视觉特效人员。
外绘可以让你合成出一个比相机实际拍摄的更宽、更高(或两者兼而有之)的场景。一个非常简单的改变是,现在在任何设备上都可以无缝地进行全屏播放,不管它是在什么设备上拍摄的。这意味着垂直手机视频现在将完全适配宽屏,消除目前你经常看到的黑条或镜像效果。
外绘产生的另一个机会是 AutoMagic 绿幕。我们已经看到人工智能工具解决了视频背景删除的问题。若将其与外绘相结合,你甚至将能够从手机镜头中建立即时的布景和背景。
这类似于日益增长的虚拟制作,这是由迪士尼/ILM 的 Stagecraft 布景等创新所实现的,该布景使用巨大的 LED 墙和游戏引擎来创造动态背景(即The Volume)。
但主要的区别是,这些新的生成式人工智能工具不需要大量的工作人员、仓库布景或 LED 墙,从而节省了大量成本,降低了进入门槛。
一个将真实物体(本例为汽车)与LED屏幕背景相融合的例子。这与绿幕的一个重要区别是,它允许LED屏幕上的场景光线反射到真实物体上。
在音频方面,我们现在已经看到了商业上可用的合成音频(或深度伪造音频),这是一种训练并克隆某人声音的能力,可以用某人的声音说任何话。这一技术受到好莱坞的欢迎,甚至普通消费者也可以使用。
很快就会有无数其他的生成式人工智能视频工具供我们使用。有了这些工具,我们会看到后期制作团队承担更大的责任,让最终产品变得栩栩如生。从本质上讲,编辑也会成为导演……和摄影指导(DP)。
虽然这些单独的工具将改变游戏规则,但它们主要还是用于改进现有的内容。如前所述,我们将看到人们手动将合成片段剪辑成一个有叙事表达的作品。但这一阶段将是短暂的,因为人工智能将能够把这一过程自动化。
这将通过将视频/音频模型与大型语言模型(LLMs)相结合来实现,形成所谓的多模态模型(multimodal model)。这一技术基本上是把 ChatGPT 和视频结合起来了。
那么这个多模态视频工具到底能做什么呢?一旦你向它提出一个视频的想法,并提供一些标准,它将会:
写提纲和脚本
为每个场景创建描述,并生成剪辑视频
用你选择的人类声音录制脚本
将配音和剪辑串联成一个序列,确保所有内容在叙述表达上是一致的。
最后,输出一个版本供你审核批准。
我们将看到类似 Canva 的应用程序,但这项技术的真正力量将来自于一个强大的工具包,允许在过程的每个阶段进行干预。这将为全新的产品系列打开大门,自下而上地重新想象这种创意体验。
虽然我们现在看到的早期生成式人工智能视频示例倾向于抽象和虚幻的片段,但这些工具也将可以用来创建我们每天在屏幕上看到的那种视频,这只是一个时间问题。
目前的图像工具,如 Dalle-2 或 Midjourney 都是通用模型,基本上允许你使用工具来创建任何风格的图像。然而制作视频则更加复杂,早期的视频模型可能是针对特定类别的,因为这样至少可以产生有意义的结果。
一个可以在早期合成的视频类别是“动手操作类的教程”。为什么?因为这些视频通常都很“公式化”,而且它们在互联网上到处都是,这两点在训练AI模型时都非常有用。
互联网上目前可能不需要更多的手把手食谱视频,但很快,几乎每个人都能制作这些视频了。不过,至少现在做视频时不用浪费食物了。
在早期,我们可能会看到这些模型产生意想不到的联系,从而产生奇幻般的食谱视频。或者他们可能会把想法混在一起,产生全新的东西。它们甚至可能开发出更高效的流程。
5年前,我们曾经嘲笑大型语言模型想出的各种荒谬的食谱。图片来源:Kaitlyn Jakola
近年来,我们看到自动音频播放作为网络阅读的另一种选择开始兴起。合成视频工具很快也能做到这一点,自动为每一篇博文和文章创建视频版本。我们可能还会看到一些公司将他们所有的内容转换成视频形式。
我们很可能还会看到一键式工具能够自动生成各种格式的内容,也就是从文本生成一切。
想象一下,Hubspot 内容团队有一个新的主题,他们想要为其创建内容。他们所要做的就是把想法和一些指导方针输入一个生成器。生成器将为每个平台和设备构建一个包,其中包括 SEO 性能良好的文章、视频、播客和社交帖子。当然,该工具已经就 Hubspot 的所有现有内容进行了训练,因此它创建的所有内容都将符合 Hubspot 的风格和品牌准则。
这种工具甚至可能最终被内置到像 Hootsuite 这样的内容管理软件中,这样一来,从创建到调度再到参与,一切都将自动化。
还有一些工具可以训练人工智能模型深入理解特定的产品或服务。除了无数的其他好处(如无限的合成用户测试),这个工具的合成视频组件还将能够产生令人难以置信的有效视频解释,当与 CRM 集成配对时,可以根据受众细分自动创建个性化内容。
这些工具可能会变得非常先进,甚至我们可能会看到完全基于搜索查询而创建的定制教程视频。
想象一下,你家用的冰箱不能制冰了。在这种情况下,与其寻找用户手册或搜索 Youtube 视频,不如选择让搜索引擎创建一个视频。这样一来,该工具将研究关于你特定设备的所有在线信息,参考论坛和类似的视频,最后根据你的确切设备提供一个定制的视频,而所有这些都不用离开搜索栏。
目前谷歌每天有 85 亿次搜索量,其中有多少会在未来变成视频?
虽然围绕深度伪造的大部分对话都源于对其可能散播有害虚假信息的恐惧,但合成视频也会用最看似无害的内容来欺骗我们。例如,巧克力大师阿马尔里克·吉雄(Amaury Guichon)为我们带来的艺术构建:
这些都是由巧克力制作而成的。图片来源:阿马尔里克·吉雄(Amaury Guichon)
我们喜欢看这类视频的部分原因是为了窥探那些才华横溢的人的世界。同样,想想网上那些滑稽的猫和可爱的狗,美丽的景色,或者令人难以置信的特技视频。这些片段,即使经常出现,也都是真实的。
现在考虑一下合成视频,它将创造出更极端的特技,更可爱的狗,以及更令人难以置信的巧克力模型,这些可能看起来都很真实,但却不一定遵守物理定律。
与 3D 渲染或动画不同,我们的大脑无法区分这些合成视频与实际拍摄的视频之间的区别。
观众会更喜欢极端的合成视频,还是会更喜欢真实的视频呢?
图片由 Midjourney 和 Dalle-2制作而成。
这些模型既会把新人带入这个领域,也会被传统的创作者采用(他们可能别无选择)。一个关键的问题是,那些为模型提供训练素材的人是否会得到认可、补偿,甚至是否会被提及。
我们可能会看到像 BuzzFeed 这样的公司,通过使用自己的内容库来建立模型,以此避免这个问题。这些完全自动化的系统对于数字出版商的利润来说是很好的,但对于公司目前的人力内容团队来说可能就不是那么好了。
独立创作者会作何反应?毕竟,他们已经花了数年时间建立了一个内容库,并制定了一个商业计划,以便在未来几年持续获得浏览量,以及随之而来的被动收入。
在不久的将来,我们在 24 小时内就可以看到 100 个版本的类似教程视频同时发布,所有这些都在竞争同一个搜索结果。
在新视频内容的浪潮中(谷歌服务器,我希望你已经准备好了),这将如何影响搜索、页面设计和发现呢?
希望我们不会让网红猫咪们很快失业。但是,影响不仅仅是在教程和网络剪辑上,因为我们很快就会有针对托管/vlog 内容的合成工具。
深度伪造技术与视频合成类似,但有一个重要的区别:我们现在认为的深度伪造(使用一种称为 GAN 的 ML 框架)需要输入现有的镜头信息,以便找出如何在上面叠加新的视觉效果。还记得 2018 年疯传的奥巴马深度伪造视频吗?它就是根据采访录像制作的。
我们已经看到了深度伪造的下一步,它以真实的镜头为基础进行训练,但之后可以完全自动化,就像视频创作初创公司 Synthesia.io 正在做的那样。下面的角色都是基于真实的人物,但是你可以加入任何想要加入的脚本,让其看起来就像是他们真的在说一样。
图片来源:Synthesia
Synthesia 中的角色并不完美,有人把它作为恐怖谷理论的一个例子:当人类体验一个人形机器人时,会有一种不安的感觉,虽然它看起来很接近真实,但显然不是真人。
有一个团队可能会破解这个问题,那就是未来的 Meta。它用一个价格实惠的 VR 头显进行实时创建。虽然这种角色化身是为了现场操作,但它也可以用来训练模型。很快,你就可以戴上头显设备,通过一个简单的过程来阅读剧本,并提供一系列面部表情。然后,这些数据将被用于构建一个可以随时使用的自动面部版本。我们已经看到了早期的例子,模型被广泛使用的2D视频片段进行训练。如果这行得通,人们可以很容易地训练出一个视频模型,这必将为不受监管的深度伪造打开闸门。
最后的一个前沿应用是,AI 能够创造出逼真的、不存在的人。像 Unreal 的 Metahumans 这样的项目已经在向这个方向发展了。
即使有了所有这些功能,我们也可能会看到好莱坞电影公司更容易采用实时表演捕捉技术,就像我们在《阿凡达》中所看到的那样。
这将使演员们继续发挥他们的才能,同时也让制作工作室可以利用新的人工智能工具。演员们不一定要变成巨大的蓝色外星人,相反,他们的化身可能看起来像演员的完美逼真版本,只是最终合成一部电影可能会变得更便宜。希望专业相机制造商也能注意到这一趋势性转变(至少佳能似乎正在进军VR领域)。
达斯·维德(James Earl Jones)的声音将由人工智能生成,这个消息预示着好莱坞的未来将变得非常非常复杂。
对于我们其他人来说,只需敲击几下键盘就能让一个人“活起来”,这将成为常态。从这一点上讲,在一个“任何人都可以深度伪装成别人”的世界里,我们希望也已经开发出了能够控制这一切的工具。
2020 年,Meta 发起了“深度伪造检测挑战”(Deepfake),这是一项合作倡议,旨在帮助解决一个“即将成为巨大问题”的问题。现在,各种工具已经开始上线,比如英特尔最近发布的 FakeCatcher。
虽然令人印象深刻,但这类程序目前还远远不够完美,要保持有效,就必须不断超越我们在合成媒体中看到的创新。但是,如果这种情况发生,还有一个巨大的问题:
Deepfake 检测工具旨在检测和阻止这种技术的使用。但问题是,我们正在进入这样一个世界:深度伪造不仅会被用于恶意的目的,还将成为创造合法合成内容的重要新工具。
建立一个全面的系统来允许经过验证的内容,同时阻止不良行为者,这个想法似乎过于复杂。我们可能不得不接受这样一个事实:我们无法阻止任何人创建恶意深度伪造的内容,所以我们应该把精力集中在阻止这类内容上传到各大平台上。
像 Youtube 这样的网站需要在上传过程中实施平台自己的 Deepfake 检测器。但是,有什么样的规则去规定什么是允许的,什么是不允许的呢?
像将创作者列入白名单,以便他们可以轻松地上传内容,这个过程可能不会太复杂,但还有很多边缘案例,如一次性的合作,或在无数频道中大规模上传内容(如电影预告片)的情况。在一个深度伪造的世界里,恶搞能否继续存在,也变得模糊不清。
这也假设了 Deepfake 检测器总是能正常工作。上述英特尔的 FakeCatcher 声称有效率为 96%,考虑到目前 Youtube 上每天数以百万计的上传量(预计会急剧增加),那么每天很容易导致 10 万个错误。
ChatGPT 的创建者 OpenAI 目前正在考虑在人工智能创建的文本中添加加密水印,以便读者、搜索引擎等能够区分它和人类写作。类似的过程可以在合成视频中实现,我们可以在视频的元数据中嵌入水印,与某人的确切肖像相关联。如果你愿意的话,这可以当作是一个“合成护照”(synthetic passport)。那么,这是如何工作的呢?
任何想要获得水印的人都需要经过验证过程。这很可能由创建模型并集成到编辑程序中的软件来完成,可能还需要与政府数据库同步。
设置完成后,只要某人的合成版本被添加到视频中(无论它是由个人还是制作室创建的),导出视频的唯一方法是经过视频中人的批准,而且它是带有水印的版本。
Youtube 将拥有所有这些水印的注册表,以及面部数据库,并将在上传阶段扫描整个视频。如果一个人被识别出有水印,Youtube 会通知他们,就像现在版权音乐在该平台上的运作方式一样。
摘自一项关于面部识别训练的研究。图片来源:Iacopo Masi
任何没有水印的合成视频或镜头拍摄的肖像都不会被允许出现在网站上。这也意味着,与现在不同的是,任何人都可以从现有视频中截取一段片段,然后将其添加到自己的内容中(这通常属于合理使用),因为截取的视频不会有水印。
虽然这一切看起来都很浪费时间,尤其是对创作者来说,但类似的解决方案可能是必要的,而且可能还有一线希望。这种功能可能会带来一个全新的市场,比如说让创作者有一个完整的资产库,他们之前已经验证过,并可以进行授权。
或者,第三方可能会制作一个合成视频,视频中的人可能没有参与制作,但当 Youtube 会通知他们时,如果他们喜欢的话,可以批准视频发布。有了水印(可以由 web3 技术提供支持),创作者可以很容易地跟踪作品甚至将作品变现。
我第一个承认,这个提议的过程漏洞百出。这只是一次推演,目的是表明这个问题有多么复杂。我们可能不会得到完美的解决方案,而是会在前进的过程中不断尝试修补问题。
希望我们现在讨论的是,这一切应该是什么样子,从而最大限度地发挥创造力和保护作用。有几个专注于这个话题的优秀组织,比如 Partnership for AI 和 WITNESS。
在社会弄清如何有效处理深度伪造问题之前,现成的视频合成工具可能就已经出现了。在这一过程中,可能会出现一种相对新的形式,造成“虚拟网红”的蓬勃发展。
“虚拟网红”越来越多,从现实版本的到动画版本的都有。图片来源:Virtual Humans
“虚拟网红”是非人类的,完全由计算机生成的“人”。在过去的几年里,我们见证了他们从有趣的艺术实验,变成了主流的有影响力的营销参与者,吸引了各大品牌。
品牌喜欢这些“虚拟网红”,因为公司可以对宣传过程有更多的控制,从而带来更好的投资回报率,且风险更小。如今,各公司都更进一步,开始推出自己的产品,普拉达(Prada)去年就重新发布了此前推出过的 Candy 香水,并采用虚拟人物形象作为该款香水的形象大使,吸引千禧一代的关注。
目前还不清楚这些项目是否能取得成功,就普拉达而言,它并没有持续围绕 Candy 构建内容。这可能是因为使用“虚拟网红”制作视频仍然有些费时费力,因为这通常必须使用先进的软件。
一旦生成式人工智能视频工具将这一过程普及化,那么消费品牌都将能够轻松地建立自己的虚拟形象。这将重塑整个网红营销领域。
当然,成功的人类创造者拥有大量且具有粘性的内置用户,这也是品牌所追求的最终目标。更不用说,他们对有表现的内容有深刻的理解。
但话又说回来,人工智能增强的视频洞察力,可以直接构建到品牌的合成网红训练模型中。再加上更多的营销费用,你可以想象,品牌自己的网红最终将与现有的创作者直接竞争。
或者考虑一种新的打造网红的机构,像这样的一个团体可以建立一个由数百个虚拟网红组成的组合,并轻松地在这个市场中占据主导地位。
而且,无论是作为回应,还是为了测试新工具,人类创造者也都不可避免地会构建自己的“虚拟”版本。虚拟形象可以让人们进入各种其他内容/品牌体验,比如烹饪课程和健身课程,所有这些都不需要他们在现实生活中做。
想象一下,你是一个创造者,从数字助手(一个更智能、更个性化的 ChatGPT 版本)那里收到一个通知,它鼓励你创造作品,你接受了。然后,它会交叉参考所有现有的在线版本,并找出如何将其变成你自己的(同时确保你没有做过太类似的事情)。在这一点上,它可能会要求你提供一些意见,或者向你展示一些示例,看看你喜欢什么。然后,助理会做出一个粗略的剪辑,以供你审核批准。当然,你可以对剪辑进行更多操作,增加额外的台词,移动镜头,更换服装和背景等。或者,如果你自己很懒,它也可以为你自动创建整个视频。
这样一来,你不用从沙发上站起来,就能创造出一整个视频。
不过,创作者可能不会在所有事情上都使用这些工具。这些工具可能对潮流视频和教程非常有用,但对更个性化的内容可能并不有效。对于这些类型的视频,创作者可能会想用老办法来录制内容。
或者,他们可能仍然会使用自己的虚拟形象,但会进行实时操作。这已经成为一种趋势,参与这一趋势的人甚至有了一个名字,VTubers。
这些工具很快就会出现在大众手中。事实上,索尼刚刚宣布了一款名为 Mocopi 的经济实惠的运动跟踪系统,将在日本发行,售价约为 400 美元。
每个设备都安装在你身体的不同部位,然后将你的动作与虚拟形象进行同步。图片来源:索尼
网红领域如此成功的部分原因是,观众觉得他们可以与另一个真人联系起来。真实性一直是这个行业的指导原则。
因此,主流观众是否会选择虚拟网红而不是人类,这仍然是一个悬而未决的问题。毫无疑问,随着生成式人工智能工具让虚拟网红运动蓬勃发展,我们将在未来几年看到对虚拟网红的考验。
随着我们进入虚拟世界,现在人人都可以为长相和说话像自己的人创造内容,他们甚至可以像我们一样思考。
你可能会问我如何将“自己”移植到数字空间,这将是通过一种已经存在的方法,即微调(fine-tuning)。这个过程利用了现有基础模型的强大功能,然后继续在更小、更具体的数据集上训练这个模型。这个过程非常简单,而且不贵,变得越来越非技术性。
数据究竟从何而来?它会抓取你的短信、电子邮件和社交媒体帖子。对于 youtube 用户来说,这还可能包括他们多年来上传的数千小时的视频。像这样的工具可能会受到创作者的热烈欢迎,因为它将为他们开辟一个全新的内容流(和收入流)。
这种方法的文本版本已经存在。最近推出的一个网站 character.ai,利用微调技术创建了“名人聊天机器人”。通过这个工具,你可以和拜登总统或者爱因斯坦交谈,就像我最近做的那样:
通过 character.ai 与爱因斯坦聊天的示例
下一代的多模态模型将把这些聊天机器人和合成形象集成到一个工具中,这将带来真正的参与性、互动性的体验。
这似乎不太可能。可能有很多时候,人们只是想通过被动的收听或观看体验来放松一下,或者他们可能希望两者都有。
比方说,你正在听一个播客,在采访过程中出现了一些有趣的东西。你可以打开一个互动模式,让你加入对话,要求主持人进一步解释一个话题,或就一个想法向他们提出挑战。完成后,你点击一个按钮,直接切换回预先录制的剧集。
在一个可以互动的世界里,制作静态内容的一个关键区别是,每一个新的静态节目不仅会出现在创作者的库里,还会被输入到互动模式中,构建一个更加动态的体验。
虽然会有纯音频和 2D 观看选项,但许多体验最终将通过虚拟现实头显设备来实现。但这并不意味着我们将永远生活在虚拟世界里,而是倾向于让大众更经常地参与混合现实环境,这意味着把合成形象带到我们自己的真实空间里。
如何做到这一点?现在的头显带有外置摄像头,可以让头显“看到”你的环境,也就是 Meta 所说的“场景理解”(Scene Understanding)。软件会分析并记忆你的空间地图,然后流畅地将数字对象带入真实空间。
所以,想象一下和你最喜欢的合成 Twitch Streamer 一起在客厅里玩,你们俩一起在沙发上玩电子游戏,一个著名的钢琴家在圣诞前夜为你的家人表演,或者一个合成瑜伽老师帮你纠正姿势。在许多这样的体验中,我们还将穿着运动传感器和/或触觉套装,为应用程序提供有关我们运动的额外信息。
想象一下,你戴上头显,然后合成角色出现在你的门口,参观你的家,坐下来了解你。
Bobby 可以引导你了解潜在的房间重新设计方案,用新的布局覆盖你的空间(并带有产品的推荐链接)。你可以带着 Tan 浏览你的衣柜,他会给出建议,带你进行虚拟试穿,然后为你订购新衣服。然后你可以跳进厨房,和Antoni一起上烹饪课。Jonathan 会为你提出新的发型建议,并把建议连同优惠券代码一起发给当地的沙龙。不管是好是坏,想象一下,当广告品牌能够看到你家里的情况时,他们可以进行什么样的广告定位。
这就是这项技术持久力的来源。因为虽然 Fab 5 合成器体验可能是你只想做一次的事情,但很容易想象,肯定有人会想与像卡拉莫这样的角色发展一种更有意义的关系。当你遇到问题时,可以和合成版卡拉莫或你最喜欢的 Youtuber 等一起出去玩,一切都随叫随到,这可能是令人陶醉的。
这类体验可能会变得相当个人化。不像电视节目的参与者知道他们的故事会被公之于众,这里的参与者可能认为他们有隐私。不过,除非采取措施,否则这些亲密时刻可能只会被用于数据收集。
不可避免地,我们会和“合成人”建立联系。有些人最终可能会与合成人朋友建立比人类朋友更有意义的关系。事实上,我们已经看到越来越多的人开始与文字聊天机器人建立亲密关系。
一个不太可能成为重度用户的群体是老年人群体。但事实上,目前有临床治疗项目将虚拟现实体验带给老年人,研究人员发现这些工具可以改善孤独感和痴呆症的症状。
通过一个名为 Hereafter 的服务,我们可以得到已故的人的音频合成。你可能想知道我们将如何重建某人自己的环境?这可以通过更多令人大开眼界的人工智能工具实现,比如英伟达 Instant NERF,它可以让你从几张照片中创建沉浸式3D场景。这真的是一项了不起的技术。这个工具需要从多个角度拍摄几张照片来拼接一个场景,但也有其他工具只需要一张照片就可以构建3D场景。
想象一下,通过翻阅一对夫妇的历史影集,你可以创建一个他们虚拟的家,或他们去波科诺斯度假的地方。有些人,尤其是在生命的最后阶段,宁愿花更多的时间在这个数字的第二人生中,而不是在现实世界中。这应该受到阻碍吗?如果他们得了绝症,会有什么不同吗?那么患有痴呆症的人呢?
通常情况下,我们可能只是围绕交互式合成内容制定规则,作为对现实世界文化影响的反应。对于如此诱人的技术,这可能是相当有害的。
虽然交互式 VR 内容在一段时间内可能不会成为常态,但其中一些合成工具将在 2023 年开始出现。
在未来的几年里,我们将看到个人和小团队创造出与大公司的作品相媲美的、令人难以置信的内容。我认为,无论是传统媒体公司还是新媒体公司,只要有能力训练自己的模型,都将成为产量惊人的“内容农场”。
对于观众来说,这将迎来一个全新的、永久的、越来越多内容的黄金时代。这不仅提供了前所未有的选择,而且还允许你像外科手术一样精确地获得各种可能会深入参与的内容。
人们希望,所有这些工具能催生一个更强大的创意经济。但是,这波新内容和创作者都将同时争夺大家的注意力,而人们每天的观看时间也就那么几个小时。
目前能够带来可持续广告收入的浏览量/参与度可能会全面下降(更不用说品牌内容领域的整体重组了)。因此,看到内容团队、Youtube 创作者和影响者在全行业范围内收缩也就不足为奇了。
年轻的表演者可以选择保持青春永驻,或者让自己的年龄和外表不断发生变化,这取决于观看/与他们互动的观众群体。
提莫西·查拉梅在对着镜子看。图片来源:Midjourney
虽然现在的观众可能会出于怀旧而继续看他们最喜欢的人类明星,但在未来的某个时候,观众会不会不再关心“甜茶”提莫西·查拉梅,而是喜欢原生合成人呢?
我记得小时候每天都看《辛普森一家》,然后第二天在学校和朋友们讨论。现在情况不同了。虽然仍有可以抓住新闻周期的大片,但也就火一段时间,所有平台上都轮流播放该片的剪辑片段,人们看也看腻了。
但很快,可能就会有太多的内容让一个单一的项目能够突破大众,最终侵蚀掉曾经主流媒体的残存面貌。
而这甚至是在我们谈到个人生成媒体的崛起之前,因为最终,技术会变得非常之好,我们将能够要求媒体设备创建一整部电影。
你刚刚制作了一部最史诗级的电影,并感到有必要与朋友们分享它。但是当每个专业人士、业余爱好者和个人都可以在任何给定的时刻做同样的事情时,谁会有时间去看它呢?
不过我想,仍然会有一群影迷群体因为能够深入自己所热爱的世界,而更加紧密地联系在一起。现在不仅有无尽的故事情节,而且还有沉浸式互动体验的能力。
在这些世界里,我们肯定不会一直和真人互动。似乎不可避免的是,在不久的将来,我们作为一个社会将会提出这样的问题:如果你可以和一个合成人物建立友谊,并拥有有意义的经历,那么“他们是否是真实的”还重要吗?
说到深度伪造,我们可能没有一个完美的系统,但肯定会有一些东西到位。科技公司担心有太多的损失,不允许合成视频领域变成“狂野的西部世界”。我想像欧盟这样的管理机构可能会有更严格的规定,使问题进一步复杂化。
总的来说,我们必须意识到自己正在进入一个新时代,在这个时代,我们不能相信自己所看到的任何东西是真实的。这从根本上说并不是坏事,我们只是不得不接受这样一个事实:虽然有些东西可能不是真实的,但这并不意味着它就不是真的……尽管通常情况下,它也确实可能不是真的。
译者:Jane
关键词: