还在相信网络小视频?AI让音视频学会“说谎”

2017/07/03 root 375

在6月8日参议院情报委员会的一次会议上,前联邦调查局局长詹姆斯·科米(James Comey)如是指出:“我打心底希望用磁带(验证真相)。”柯米之所以希望用磁带纪录的声音作为证据,是因为目前在我们的社会,将声音和视频文件作为证据并不完全可靠,其并不等同于真相。

优傲视觉识别机器人

  现在而言,当人们看到暴力、犯罪等视频,特别是那些具有一定质量,没有明显编辑痕迹的视频时,往往可认为视频所描绘的事件实际上真正发生了。

  但是,眼见为实的真相视频即将被人工智能所改变。

  我们的分析预测,大数据和机器学习等技术有助于监控现实并辨别事实。但从另一方面,这些技术也能够帮助我们说谎。如同人工智能技术的飞速发展一样,音频和视频伪造技术也正在取得惊人的进步,这主要得益于人工智能技术的不断提升。在未来,人们需要处理更多真假难辨的音视频。无论是音频,视频,图像或是文本,人们很难弄清真真假假。

  斯坦福大学以及其他机构的研究人员在视频伪造技术中取得了竟然的进展开。研究人员仅使用现成的网络摄像头,通过人工智能软件就能够改变YouTube视频中个人的面部表情以及与言语相关的口腔运动。一位研究员重新编辑了关于前美国总统乔治·W·布什(George W. Bush)的视频,在其中实时插入了新的面部表情和言语表达动作。  Lyrebird是一家位于蒙特利尔的深度学习技术创业公司。目前该公司正在开发一项技术,使任何人都可以用任何个人的声音创造出令人惊讶的逼真演讲。 Lyrebird通过演示器技术,仿造出唐纳德·特朗普,巴拉克·奥巴马以及希拉里·克林顿等名人的演讲。目前看来,Lyrebird的模拟虽然令人印象深刻的,但质量不高,机器合成的迹象明显,甚至于常人也能够轻松分辨出其是机器合成的。不过,类似的技术进步很快。创意软件巨头Adobe正在开展类似的技术,宣布了打造音频界的图像编辑软件(Photoshop for audio)这一目标。

  其他人工智能研究小组已经证明了反向运行图像识别功能的技术,这种技术允许在文本描述的基础上生成合成图像。领导这项工作的研究人员杰夫·克朗(Jeff Clune)指出,“人们向我发来真实的图像,我会怀疑这些图像是否是假冒的。反而当他们给我发送假图像时,因为质量很好,我会认为是真实的。“

  综合来看,伪造音视频的质量越来越高,成本越来越低,这难免令人担忧。按照目前的进度,两三年之内音频伪造技术足够骗过公众的耳朵,而在五到十年之后,伪造者甚至可以到办案专家。当制作假视频的工具能够生成更高质量的视频,同时在公众中普及的话,这些伪造音视频或将会影响到整个信息生态系统。相关技术的发展将在新闻,政府交流,刑事司法证据以及国家安全领域改变证据和真相的定义。

  据报道称,俄罗斯情报部门雇用了数千名全职工作人员,他们在主流网站上提供假新闻文章,社交媒体帖子和评论。这些代理人反过来又控制着数百万社交媒体僵尸账户。牛津互联网研究所的计算宣传研究项目的一项研究发现,俄罗斯进行评论的Twitter帐户中有一半是机器人。这些行动并没有限制在其境内:在美国,俄罗斯社交媒体机器人已经表现出了推动主流媒体报道假冒新闻甚至影响美国股票价格的能力。

  当这些代理人和僵尸网络开始分享假高清视频和音频时,会发生什么?技术产业和政府不应该无动于衷。这种技术的威胁是多方面的。所以需要有相应的解决方案。

  有些将是技术性质的,类似于试图阻止像Photoshop这样的图像软件被用来伪造货币的技术解决方案一样,也会有相应的技术解决方案来减轻人工智能伪造的最坏影响。 在这一方面,区块链技术Blockchain,提供了一种可能性:这种技术为比特币交易的排序提供了加密的可靠证据。我们大可以设计使用块链技术的相机和麦克风来创建无法篡改的视频录制日期灯记录。虽然这不会阻止再次编辑或伪造,但是至少能保证在特定日期存在特定文件的加密安全相关证据。

  其他解决方案将是监管和程序性的。警察和检察官必须制定证据标准,以证明特定照相机或麦克风形成的监管链。匿名电子邮件的视频文件可能最终不会成为有效证据。由于电话和视频聊天不仅可以被数字拦截,还可以数字模拟,因此人们在高级别会议中会尽可能采用面对面的交流方式。

  自19世纪末以来,随着照片和留声机的发明,人们通过一些重要的音视频资料找到答案。理查德·尼克松总统表示,他不知道水门事件。但录音带证明了在他说谎。面对音视频伪造的发展,需要社会的正确面对,否则我们必会生活在得不到真相的社会。