Alexa科学家声称音频水印技术具有接近100%的检测准确率
你听说过音频水印(无双关)吗?这是在PC上添加可识别且独特的声音模式的过程,是网络视频主机、机顶盒、媒体播放器发布版权曲目的主要方式。然而,水印方案在噪声环境中不是特别可靠,例如当所讨论的音频通过扬声器广播时。由此产生的噪声和干扰——在学术文献中被称为“第二屏”问题——,它严重扭曲了水印,并引入了检测器通常难以协调的延迟。
然而,亚马逊研究人员认为,他们已经创造了一个新颖的解决方案。他们在一篇论文(“带调制自相关的航空音频水印”)中描述了这种解决方案,该论文发表在预打印的服务器Arxiv上,并附有一篇博客文章。该团队声称,他们的方法——将在5月份的国际声学、语音和信号处理会议上详细解释,即使扬声器和检测器之间的距离超过20英尺,——也可以检测水印增加到大约两秒钟的音频,具有“几乎完美的准确性”。
好些了吗?与传统的声学指纹识别方法不同,传统的声学指纹识别方法需要为每个实例存储单独的指纹,计算复杂度与指纹数据库成正比。研究人员的方法具有恒定的复杂性,这使得它非常适合蓝牙等低功耗设备。耳机。
亚马逊Alexa语音群研究科学家、本文合著者袁元泰写道:“我们的算法可以补充声学指纹技术,可以防止Alexa听到媒体提到自己的名字时被误叫醒。”我们还假设音频水印可以提高Alexa自动语音识别系统的性能。Alexa ——音乐、有声读物、播客、广播和电影——播放的音频内容可以动态添加水印,因此支持Alexa的设备可以更好地测量房间混响并过滤掉回声。
最近怎么样?正如Tai所解释的,这种模型采用“扩频”技术,水印能量在时间和频率上传播,使得人耳听不见,不受后处理(如压缩)的影响。并且它从固定持续时间的噪声块中生成水印,并且每个噪声块将其自己的不同模式引入到宿主音频信号的所选频率分量中。
传统检测器将获得的噪声块序列(解码密钥)与参考副本进行比较。然而,Tai和他的同事采用了不同的方法:他们的算法多次将噪声模式嵌入音频信号,并与自己进行比较。泰解释说,由于信号通过相同的声学环境,模式的实例以类似的方式失真,因此可以直接进行比较。
“探测器利用的是通道造成的失真,而不是直面它,”他补充道。
这不是一个完美的解决方案。——它需要一个短的噪声模式,这与检测精度低有关,当目标音频包含音乐时,节奏有时会过于模仿重复的噪声模式。然而,该团队表示,通过重复噪声阻挡模式,这些问题可以在很大程度上得到缓解。——他们随机反转一些区块,降低区块增加的幅度,反之亦然。
然后,解码密钥变成二进制值序列而不是噪声块(浮点值序列),指示给定的噪声块是否被反转。(与噪声阻断模式相比,它们在检测器相位上相反。实验中,团队表示他们的算法性能几乎达到了100%的检测准确率,水印长度为1.6秒。