變更

← 較舊編輯

语音识别

增加 117 位元組, 4 年前

無編輯摘要

[[File:语音识别.jpeg|有框|右|<big>语音识别</big>[https://pic2.zhimg.com/v2-19f5ef2148aa1f5b3ff6ffbefaf3c6e4_1440w.jpg?source=172ae18b 原图链接][https://zhuanlan.zhihu.com/p/105462454 来自知乎的图片]]]

''' 语音识别 ''' （speech recognition） [[ 技术 ]] ，也被称为自动语音识别（英语：Automatic Speech Recognition, ASR）、电脑语音识别（英语：Computer Speech Recognition）或是语音转文本识别（英语：Speech To Text, STT），其目标是以 [[ 电脑 ]] 自动将人类的语音内容转换为相应的 [[ 文字 ]] 。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

语音识别技术的应用包括语音拨号、语音 [[ 导航 ]] 、室内设备控制、语音文档检索、简单的听写 [[ 数据 ]] 录入等<ref>[https://www.sohu.com/a/234169208_100184907 语音识别技术到底有多难？ ]，搜狐，2018-06-05</ref>。语音识别技术与其他自然语言处理技术如机器 [[ 翻译 ]] 及语音合成技术相结合，可以构建出更加复杂的应用，例如语音到语音的翻译。

语音识别技术所涉及的领域包括：信号处理、 [[ 模式识别 ]] 、概率论和信息论、发声机理和听觉机理、 [[ 人工智能 ]] 等等。

==历史==

早在 [[ 计算机 ]] 发明之前，自动语音识别的设想就已经被提上了议事日程，早期的声码器可被视作语音识别及合成的雏形。而1920年代生产的~~"Radio~~ “Radio Rex" “ 玩具狗是最早的语音识别器，当这只狗的名字被呼唤的时候，它能够从底座上弹出来。最早的基于 [[ 电子计算机 ]] 的语音识别系统是由AT&T贝尔实验室开发的Audrey语音识别系统，它能够识别10个英文数字。其识别方法是跟踪语音中的共振峰。该系统得到了98%的正确率。。到1950年代末，伦敦学院~~(Colledge~~ （Colledge of London) ）的Denes已经将语法概率加入语音识别中。

1960年代， [[ 人工神经网络 ]] 被引入了语音识别。这一时代的两大突破是线性预测编码Linear Predictive Coding (LPC)，及动态时间规整Dynamic Time Warp技术。

语音识别技术的最重大突破是隐含马尔科夫模型Hidden Markov Model的应用。从Baum提出相关 [[ 数学 ]] 推理，经过Rabiner等人的研究， [[ 卡内基梅隆大学 ]] 的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。此后严格来说语音识别技术并没有脱离HMM框架。

尽管多年来研究人员一直尝试将“听写机”推广，语音识别技术在目前还无法支持无限领域，无限说话人的听写机应用。

目前，主流的大词汇量语音识别系统多采用统计模式识别技术。典型的基于统计模式识别方法的语音识别系统由以下几个基本模块所构成：

信号处理及特征提取模块。该模块的主要任务是从输入信号中提取特征，供 [[ 声学 ]] 模型处理。同时，它一般也包括了一些信号处理技术，以尽可能降低环境 [[ 噪声 ]] 、信道、说话人等因素对特征造成的影响。

声学模型。典型系统多采用基于一阶隐 [[ 马尔科夫模型 ]] 进行建模<ref>[https://www.sohu.com/a/114841892_114877 大牛讲堂|语音专题第三讲,声学模型]，搜狐，2016-09-22</ref>。

发音词典。发音词典包含系统所能处理的词汇集及其发音。发音词典实际提供了声学模型建模单元与语言模型建模单元间的映射。

语言模型。 [[ 语言模型 ]] 对系统所针对的语言进行建模。理论上，包括正则语言，上下文无关文法在内的各种语言模型都可以作为语言模型，但目前各种系统普遍采用的还是基于统计的N元文法及其变体。

解码器。 [[ 解码器 ]] 是语音识别系统的核心之一，其任务是对输入的信号，根据声学、语言模型及词典，寻找能够以最大概率输出该信号的词串。

==视频==

==参考文献==

[[Category:312 電腦科學]]

水中莲

64,106

次編輯