当前位置:网站首页>声纹技术(七):声纹技术的未来
声纹技术(七):声纹技术的未来
2022-06-25 07:37:00 【u013250861】
7.1 概述
第3 章~第6 章介绍了声纹技术的主要应用,包括声纹识别、声纹分割聚类,以及基于声纹的语音识别、语音合成、语音检测、人声分离等。这些应用很多都经历过数年甚至数十年的发展,已经变得十分成熟,并且被部署到了许多商业级别的系统、产品及服务中。
本章将眼光投向更长远的未来。首先,讨论现有声纹技术所面临的诸多挑战。然后,探讨未来的声纹系统如何解决其对数据的海量需求,并介绍一些声纹领域新兴的研究方向。在这些研究方向中,包含了目前还不够成熟,但可能会在未来得到普及的应用。
7.2 声纹技术的挑战
7.2.1 对信道变化的鲁棒性
从事过声纹领域研究的人员大概都会有这样的经历,在某一类数据集上,我们可以训练出准确率很不错的模型,但是一旦该模型被用于实际应用,就会发现准确率远远达不到预期。例如,如果用LibriSpeech 数据集[97] 训练我们的声纹识别模型,即使该模型可以在LibriSpeech 的测试集上达到非常高的准确率,一旦将该模型用于电话语音或网络视频语音的声纹识别,其准确率便会大幅下降。
造成这一现象的原因,在于实际应用中,我们将面对更复杂的信道,导致应用场景与训练数据之间的信道不匹配[26]。而声纹技术所面临的一大挑战,便是其对于信道变化的鲁棒性(robustness)。造成信道不匹配的原因可能有很多种,笔者列举一些最常见的原因:
(1)环境噪声的影响。在不同的应用场景中,可能存在不同类别的环境噪声。例如在交通工具上,可能存在汽车引擎的声音;在人群聚集的场所,可
边栏推荐
- 打新债真的安全吗? 风险大吗
- How to calculate the distance between texts: WMD
- Incluxdb time series database
- Wechat applet_ 7. Project practice, local life
- leetcode.13 --- 罗马数字转整数
- 各种同步学习笔记
- 股票网上开户安全吗?小白求指导
- City Chain technology platform, really Realizing value Internet reconstruction!
- Common action types
- Software engineering review questions
猜你喜欢
紧急行政中止令下达 Juul暂时可以继续在美国销售电子烟产品
Retrieval model rough hnsw
各种同步学习笔记
2021 "Ai China" selection
故障:Outlook 收发邮件时的 0x800CCC1A 错误
VOCALOID notes
Unity addressable batch management
Various synchronous learning notes
How to calculate the D value and W value of statistics in normality test?
What are the indicators of VIKOR compromise?
随机推荐
Measure the current temperature
Rqt command
堆栈认知——栈溢出实例(ret2libc)
[QT] QT 5 procedure: print documents
Discrimination of configuration, software configuration items and software configuration management items
How to interpret the information weight index?
微信小程序_7,项目练习,本地生活
What is the role of software validation testing? What is the price of the confirmation test report?
4 raisons inconnues d'utiliser le "déplacement sûr à gauche"
Super simple case: how to do hierarchical chi square test?
Quickly build a real-time face mask detection system in five minutes (opencv+paddlehub with source code)
[operation tutorial] how does the tsingsee Qingxi video platform import the old database into the new database?
[reinforcement learning notes] common symbols in reinforcement learning
UEFI:修复 EFI/GPT Bootloader
Common action types
2021 "Ai China" selection
How to do factor analysis? Why should data be standardized?
How to calculate the distance between texts: WMD
What are the indicators of DEA?
【总结】1361- package.json 与 package-lock.json 的关系