魏紫语音模仿视频

AI语音技术发展的如火如荼。在另一个空间维度,一些触动人心的神秘事件正在悄然发生。

如果你是网络名人、演员、领导、公司创始人,或者你在短视频网站上有大量的公共音视频,很有可能被不法分子利用来合成生成你的声音,业内称之为Deepfake。

2065438+2009年3月,英国某能源公司高管接到德国母公司CEO的紧急电话,要求其将资金汇给匈牙利供应商。来电者称“要求很紧急”,要求行政人员在一小时内支付220000欧元(约合1730806人民币)。这位英国高管一开始并没有意识到哪里出了问题。在整个通话过程中,这位CEO略带德国口音的表现得淋漓尽致。这位高管没有任何怀疑,直到再次被要求转账。罪犯总是打三次电话。第一次转账22万欧元后,他们打电话来说母公司已经转账还款给英国公司了。然后他们在当天晚些时候召开了第三次电话会议,再次假扮CEO,要求二次调动。由于第三个电话是从奥地利打来的,英国公司的行政部门起了疑心,没有再转账。调查后发现,这22万欧元并没有转给所谓的匈牙利供应商,而是转到了墨西哥等国。警方调查该事件后发现,诈骗者使用了一种人工智能语音合成软件来模仿德国母公司CEO的声音,但仍无法找到幕后的诈骗者。

某科技记者受密歇根大学前社交媒体责任中心CTO Aviv Ovadya影响,做了一个实验。他用AI合成软件模仿自己的声音,然后给妈妈打电话。世界上最熟悉你自己声音的人是谁?你妈妈一定是最熟悉的声音,但可怕的结果是她妈妈根本没听出什么不同。

由蒙特利尔大学的三位博士共同创立的Lyrebird公司开发了一种“语音合成”技术。只要将目标人物的语音高质量录制65,438+0分钟,扔给Lyrebird处理,就可以获得一个特殊的密钥,用它可以生成目标人物想说的任何话。Qinbird不仅可以利用语音模仿演算模仿任何人的声音,还可以在声音中加入“情感”元素,让声音听起来更真实。

即使我们不是名人,我们的普通用户也在移动社交语音平台上留下了成千上万的历史声音。通常情况下,APP中的语音是无法转发的,但网络上有一种“增强软件”,可以保留并转发APP中对话的语音文件,这样只要盗取好友账号,获取好友语音,不法分子就可以轻松合成听起来很熟悉的家人和朋友的声音。

知此而知彼:语音诈骗和攻击的几种主要手段

为了知此而知彼,有必要对常见的语音攻击诈骗手段进行深入的了解和研究。目前常见的语音攻击欺诈手段有三种,即文本转语音(TTS)、语音转换(VC)和重放。在世界顶级比赛ASVspoofing中,语音合成和语音转换系统的场景称为LA(逻辑接入),录音回放的场景称为PA(物理接入)。

语音合成和语音转换的工作原理如图1所示,基于神经网络的波形建模技术生成的语音与WaveNet生成的语音相似,非常接近真实语音。语音转换挑战赛2018最佳系统产生的语音,大大提高了模拟人声的自然度和相似度。

图1语音合成和语音转换工作原理

ASVspoofing Challenge是近年来研究语音攻击并试图解决这一问题的世界级比赛。目标是设计一个有效的抗攻击安全系统,能够准确发现最新算法或不同算法产生的伪造的假语音,甚至是隐形算法。至今已举办三届,分别是ASVspoofing2015、ASVspoofing2017、ASVspoofing2019。众多顶级研究机构和知名公司参与其中。在asvspoofig 2019主办方提供的训练、测试和验证数据集里,列举并收录了业界最新的攻击算法和手段,包括TTS的10主流算法,VC的4种主流算法,TTS和VC的3种融合算法。算法和结果如图2所示。可以看出,最新的算法主要使用神经波形模型和波形滤波,或者是这些技术的变种。同时,TTS/VC的最新算法也借鉴了说话人识别中的一些核心技术点。这些算法可以基于Merlin、CURRENT、MarryTTS等一些工具包生成。同时,我们可以观察到其他一些重要的细节。评价自动说话人确认系统性能的重要指标是等错误率EER。EER越低,ASV识别的性能越好。当没有虚假语音攻击时,ASV的性能只有2.48%,但当系统受到TTS和VC合成的虚假语音攻击时,性能迅速下降。从图2可以看出,EER最高可以上升到64.78%,可见攻击语音对说话人识别、声纹识别等语音系统的影响很大,安全措施对识别虚假、抵御攻击的意义。