Deepfake持续进化：无限接近于真实，但仍非真实

来源：36氪　2022-02-25 13:55:54

你有过在社交媒体上把AI合成的用户头像当真的经历吗？在“深度伪造”（Deepfake）技术趋近于真实，甚至已经绕过了恐怖谷效应的今天，“真”与“假”之间的界限一度被重新定义。

作为“深度伪造”技术目前最重要的表现形式之一，AI合成技术已经被广泛应用在大众娱乐领域，例如电影配音、游戏角色、电视直播中都出现了它的身影。与此同时，大众也越来越多地利用这项技术来创作内容。

然而，技术应用也带来了隐私和安全问题。 1月28日，网信办在针对深度合成技术及内容的征求意见稿中提出，深度合成服务提供者应当使用显著方式对所生成的深度合成信息内容进行标识。若提供人脸、人声等生物识别信息的显著编辑功能，还需取得被编辑的个人信息主体的单独同意。 [1]

“深度伪造”技术发展至今，有哪些变与不变？又是如何被应用的？本期全媒派（ID：quanmeipai）带你走进真假难辨的虚拟世界，探讨这项技术的发展是如何影响内容创作和体验的。

更接近真实的换脸与合成语音

首先，我们再回顾一下“深度伪造”，这是指以AI合成技术为核心、基于深度学习和虚拟现实等生成合成类算法制作文本、图像、音频、视频或虚拟场景的技术，主要包括以图像形式存在的脸部替换、以音频形式存在的声音替换以及影像中脸部与声音的同步替换。

自2018年发展至今，AI合成技术的更新迭代速度超乎想象，正在无限趋近于真实，其中又以AI换脸技术和AI语音合成技术为代表。

AI换脸

众多证据表明，AI人脸合成技术已经发展到以假乱真的地步。譬如国外小有名气的造脸网站This Person Does Not Exist就能提供一秒生成人像的AI造脸术，逼真程度令人咂舌。再比如Generated Photos通过对庞大的真实人像数据库的深度学习，能自动生成10万张人脸照片，允许用户用作社交网站交友头像等其他用途。[2]

也有研究表明，AI生成的人脸甚至可以比真实的人脸更自然。在加州伯克利大学近期一项研究中，315名随机挑选的参与者被要求从800张图片中分辨出400张AI生成人脸和400张真实人脸。两组人脸分别涵盖白人、黑人、东亚人和南亚人各100张。

结果显示，315名参与者最终的正确率是48.2%，甚至低于随机挑选的准确率。随后，研究者召集了另外219名参与者，提供识别AI合成脸的教学训练。这组参与者的最终正确率提升至59%，但研究者认为“差别不大”。[3]

一组由AI合成技术生成的人脸，你看出来了吗？图片来源：New Scientist

AI合成语音

搭乘机器学习技术发展的快车，AI语音合成技术在近几年同样是突飞猛进。过去制作仿真语音通常需要先录取一段真实的人声，把一段话切割成单独的语音单位，再像字母拼图一样重新拼合成新的语音片段。

而现在，人工智能已经可以通过学习目标人声的语音数据而自动生成一段内容完全不同的音频，更快，更便捷，也更真实自然。

相关应用更是达到可以传递情绪、语气的程度。例如在Sonantic公司设计的一款语音软件上，用户可以用文字打出想要生成的语音片段，并挑选他们想要传递的情绪，比如愤怒、恐惧、悲伤、愉悦或兴奋。

此外，用户还可以通过“导演模式”进一步调节声音的语调、语气的强弱，甚至可以插入笑声、呼吸声等非语言类声音，就像是“语音版的PS”。该公司目前不仅已经和3A游戏公司、娱乐公司等达成合作，还成功在今年年初成为奔驰汽车的车载语音助手。[4]

Sonantic的用户操作页面。图片来源：The Verge

在未来几年，AI合成语音技术最广泛的应用场景可能是名人声音克隆，即获得明星名人的授权后用他们的声音合成定制化语音并商用。一家名为Veirtone的美国公司在年初推出一项服务，明星网红们只需要简单授权就可以让自己的声音出现在广告代言或电视广播中。[5]

逐步影响日常内容体验的“深度伪造”

不断降低的技术门槛、合成类音视频的强娱乐性和社交网络的传播属性使得“深度伪造”内容的用户创作数量在互联网上呈井喷式增长。

《深度合成十大趋势（2022）报告》显示，互联网深度合成内容创作与传播数量呈指数级增长，国内外十大音视频平台（腾讯视频、爱奇艺、优酷、哔哩哔哩、抖音、快手、微博、YouTube、Twitter、TikTok）内的深度合成视频的点赞量就高达3.16亿。[6]

图片来源：《深度合成十大趋势（2022）报告》

“深度伪造”技术不再是科技公司的专属，也不再局限于影视作品和广告营销中，越来越多相关应用和平台的出现让普通大众也可以在更广泛的场景中体验AI生成。

AI播客剪辑

Descript就是一款由美国同名公司使用AI合成语音技术研发的播客编辑软件。用户可以通过AI语音克隆技术编辑甚至创作自己的专属音频内容。使用软件的“叠录”功能克隆并生成自己的AI人声后，只需要通过编辑转录的文字就可以调整音频，用户可以直接删减或增添文字来更改音频内容，页面对于用户使用来说也十分简单、易操作。 [7]

制造视频迷因

AI换脸技术也正在凭借FakeApp和DeepFaceLab等工具走向普罗大众。去年在短视频上爆火并快速席卷海内外社交媒体的汤姆·克鲁斯换脸视频就是一个有力的佐证。在视频中，一个从长相到声音都酷似汤姆·克鲁斯的“人”或是穿着花衬衫表演“硬币戏法”，或是在街头某家男装店闲逛，做出一些与好莱坞巨星身份存在巨大反差的举动。

这些视频均出自视觉特效艺术家Chris Umé之手。他找到汤姆·克鲁斯的顶级模仿者进行合作，并使用“深度伪造”技术创作出这些爆款视频。事实证明，高度普及的社交媒体和先进的AI合成技术使得“深度伪造”内容具备随时随地成为“网络迷因”的潜力。

汤姆·克鲁斯在tiktok上的“深度伪造”视频截图。图片来源：tiktok@deeptomcruise

“复刻亲人”

以色列公司D-ID所创建的视频技术平台Deep Nostalgia更是在圈内造成不小的轰动。通过使用平台提供的AI人脸生成服务，用户可以重新上传已故亲人的图片，生成会动的影像。视频中的“亲人”能够做出眨眼、微笑、点头等一系列动作，用户可以获得一种和“活人”面对面的视觉效果，借助AI合成技术让逝者在网络空间中“活”过来已经不再是天方夜谭。

深度伪造+内容创作的边界与未来

当“深度伪造”技术逐渐“平民化”，互联网用户在内容创作上将会有更多元的选择和创新。不难想象在不远的将来可能会有一款游戏，玩家可以在角色创建页面中生成并使用自己的AI人声，更沉浸式地体验游戏里的世界。

然而，当“真”与“假”之间的界限被技术的迭代更新反复冲刷，内容创作与传播的边界又该如何被重新界定？法律、道德和伦理始终是我们无法回避的命题。

早在2019年3月，《华尔街日报》就曾报道过一起诈骗案件：犯罪分子使用AI语音合成技术，冒出德国老板的声音，欺诈“下属”英国子公司负责人转账了约合人民币173万元的款项。 [8] 除信息诈骗等犯罪行为之外，这项技术目前造成的最大威胁依然是未经本人允许创作或传播的色情视频。

而对于社交网络而言，“深度伪造”技术目前最主要的隐患在于传播错误信息，影响公众舆论。当“眼见”不一定“为实”，真实信息的公信力将大幅度降低。再加之互联网的传播能力，真假信息之间会越来越难以分辨。

既然音视频可以以假乱真，任何人都可以污蔑真实内容为合成技术的产物，以试图颠倒黑白、逃避责任，甚至引发公众对真实信息的大规模质疑，即所谓的“骗子的红利”。[9]这可能会是“深度伪造”技术对真实世界造成的最严峻的考验之一。

弗吉尼亚大学应用伦理学荣誉教授Deborah Johnson在最近创作的《我们该如何应对“深度伪造”技术》一书中也提到，“深度伪造”技术会严重影响官方媒体的公信力和网络信息的可信度。

“我们将不再相信我在网络上看到和听到的一切”。但与此同时，用标签标记可能是应对这类威胁最简单快速的方法，“如果观看视频的人事先知道它是AI合成的，可能会比较不容易受骗”。[10]

然而，如何在恰当标记合成内容的同时不破坏创作者的意图？又如何界定相关内容涉及到的性别、年龄、种族等一系列伦理问题？这无疑给内容管理者抛出了一长串难题。

纽卡斯尔大学法学院的Lilian Edwards教授提出，AI合成内容被商用后的所有权和使用权也值得探讨。例如，当使用已故演员Steve McQueen的人脸生成视频作为商业化用途时，他的家人是否能够拥有视频的所有权并从中获利，仍有待商榷。“目前每个国家的相关规定都略有不同”。[11]

即便牵扯到种种错综复杂的问题也并不影响一个趋势即将成为事实：在不远的未来，“深度伪造”技术将走进千家万户，每个人都可以通过AI合成克隆自己的人脸和声音，并用于短视频、直播、交互媒体等更广阔的领域。然而，无限接近于真实，却依然不是真实，在这宏伟蓝图背后可能暗藏的隐患和还未浮现的新挑战，仍然有待书写和填补。