【亚博陆界面】百度发布DeepSpeaker:大规模声纹识别的端对端系统
发布时间:2021-05-14
按:迄今为止(公共编号:)多次报道百度语音技术的进展。
本文摘要:按:迄今为止(公共编号:)多次报道百度语音技术的进展。

按:迄今为止(公共编号:)多次报道百度语音技术的进展。前几天,百度美研院宣布声纹识别取得的突破性成果。研究指出,利用深度自学的方法比传统的i-vector方法在识别精度上明显提高。

声纹识别算法要求从声音中识别说话者的身份。两个罕见的识别任务是证明(说出者是否是他主张的人)和说出者的身份识别(在不知道的说出者中证明声音的来源)。

该技术已经得到了各种应用。例如,声纹可用于指定设备。出口人员证实也可以作为金融交易的额外安全措施。此外,智能家庭助手等共享设备也可以利用该技术获得个性化服务。

最近,用于神经网络开展声纹识别的论文已经改良了传统的i-vector方法(参考Interspech教程的完整论文和幻灯片)。i-vector方法指出,说明内容可分为两部分,一部分依赖于说明者和信道的可变性,另一部分依赖于其他相关因素。

I-vector声纹识别是一个多步骤的过程,与不同说明者的数据有关,估算标准化的背景模型(一般为高斯混合模型),收集充分的统计数据,提取I-vector,最后用分类器展开识别任务。一些论文用神经网络代替了i-vector生产线的方法。

其他研究人员训练与文本有关(用户必须说某种程度的话)的终端语言识别系统,或者训练与文本独立国家(该模型与说明内容无关)的终端语言识别系统。DeepSpeaker:终端对端的神经声纹识别系统在文本相关和文本独立国家的场景下取得了良好的效果。

这意味着这个系统可以通过训练来识别谁在说话。无论是对家庭助手说wake还是在会议上说话。

DeepSpeaker由深度神经网层组成,从音频中提取特征,基于馀弦相似性的时间池和三元组损失。百度美研院研究了ResNet转录的卷积模型和现有模型在提取声学特征上的效果。说明:这里百度美研院用于脸部识别中使用的三元组损失。训练中,他们自由选择说话者的话,计算映射(标记为Anchor)。

另外,发生两个映射,一个完全相同的演讲者(标记为Positive),另一个来自不同的演讲者(标记为Negative)。在训练过程中,Anchor和positive映射之间的馀弦接近度低于Anchor和negative映射之间的馀弦接近度。

百度美研院展示了DeepSpeaker在三个不同数据集中的有效性,包括文本相关和文本独立国家的任务。其中一个UIDs数据集还包括约250000名说话者,是科学知识文献中仅次于的数据集。实验结果表明,DeepSpeaker比基于DNN的i-vector方法更显着。例如,文本独立国家的数据集中在随机选择100名演讲者,DeeptSpeaker在演讲者身份证明任务中的错误率为1.83%,正确率为92.58%。

与基于DNN的i-vector方法相比,它降低了50%的错误率,提高了60%的正确率。说明:实验中百度美研院使用的数据集是UIDs、西安Du、Mandarin。UIDs和西安aoDu是普通话数据集,Mturk是英语数据集。UIDs和Mturk是文本独立国家的数据集,西安Du是文本相关的数据集,基于百度的觉醒字。

为了在不同大小的训练集中实验,他们使用了所有UIDs数据集(250,000)和其子集(50,000)。在评价阶段,他们自由选择Anchor,从测试部分随机选择Anchorpositive样本和99个Anchornegatives样本。

团队还发现了Deepspeaker与语言有关的特征。在普通话语境中训练时,Deepspeaker在英语证明和识别任务中可以超过5.57%的错误率和88%的正确率。另外,使用普通话进行英语训练比使用英语训练更加精确。这些结果表明,尽管不同的语言听起来非常不同,但深度语言的人自学了横跨语言的声音特征。

这些结果类似于Deep和Speech2的结果,可以用于识别不同语言的声纹识别。关于DeepSpeaker模型的更好细节,无论是培训技巧还是实验结果,都可以在论文中找到。论文地址:https://arxiv.org/abs/1705.02304viaresearch.baidu翻译成原始文章,允许禁止发布。

下一篇文章发表了注意事项。


本文关键词:亚博网页版,亚博陆界面

本文来源:亚博网页版-www.jfevanstrucking.com