人工智能大作业

内蒙古科技大学2014/2015 学年第一学期。

人工智能》结课报告。

课程号：76807376-01

考试方式：结课报告

使用专业、年级：计算机应用2012-3,4

任课教师：陈淋艳。

班级：计算机科学与技术-4班。

学号：姓名：

摘要。本文简要介绍了语音识别技术的发展历史，所采用的关键技术以及所面临的困难与挑战，最后讨论了语音识别在通信等领域中的应用。机器能听懂人类的语言吗？

我们能扔掉键盘、鼠标用自然语言操纵计算机吗？随着语音识别技术的发展，梦想正在变为现实。语音识别以语音为研究对象，它是语音信号处理的一个重要研究方向，是模式识别的一个分支，涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域，甚至还涉及到人的体态语言（如人在说话时的表情、手势等行为动作可帮助对方理解），其最终目标是实现人与机器进行自然语言通信。

简要介绍语音识别的发展历史，采用的关键技术，面临的困难与挑战以及广阔的应用前景。为了以后发展进行**，借鉴一些成熟的技术，例如：苹果的siri.

目录。一、语音识别技术的发展历史 2

1、国外的发展形势 2

2、国内的发展 3

二、语音识别技术发展所面临的困难 3

1、认识语音识别系统 3

2、面临的困难 4

3、解决困难的方法 5

三、语音识别技术的应用以及发展前景 5

1、目前语音识别技术在许多领域的应用 5

2、对语音识别技术的发展前景 5

四、结束语（结论） 6

课后总结 7

参考文献 7

首先，从国外的形势看来。语音识别的研究工作可以追溯到20世纪50年代at&t贝尔实验室的audry系统，它是第一个可以识别十个英文数字的语音识别系统。但真正取得实质性进展，并将其作为一个重要的课题开展研究则是在60年代末70年代初。

实验室语音识别研究的巨大突破产生于20世纪80年代末：人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍，他们把原本艰涩的hmm纯数学模型工程化，从而使统计方法成为了语音识别技术的主流，更多地从整体平均的角度来建立最佳的语音识别系统。人工神经网络方法、基于文法规则的语言处理机制等也在语音识别中得到了应用。

20世纪90年代前期，许多著名的大公司如ibm、苹果、at&t和ntt都对语音识别系统的实用化研究投以巨资。语音识别技术有一个很好的评估机制，那就是识别的准确率，而这项指标在20世纪90年代中后期实验室研究中得到了不断的提高。其中ibm公司于2023年开发出汉语vi**oice语音识别系统，其平均识别率可以达到95%。

该系统对新闻语音识别具有较高的精度，是目前具有代表性的汉语连续语音识别系统。

看了国际的情况，现在看看我们国家的语音识别技术的发展情况。我国语音识别研究工作起步于五十年代，但近年来发展很快。研究水平也从实验室逐步走向实用。

我国的语音识别研究起始于2023年，由中国科学院声学所利用电子管电路识别10个元音。直至2023年才由中国科学院声学所开始计算机语音识别。由于当时条件的限制，我国的语音识别研究工作一直处于缓慢发展的阶段。

进入80年代以后，随着计算机应用技术在我国逐渐普及和应用以及数字信号技术的进一步发展，国内许多单位具备了研究语音技术的基本条件。2023年3月我国高科技发展863计划启动，语音识别作为智能计算机系统研究的一个重要组成部分而被专门列为研究课题。从此我国的语音识别技术进入了一个前所未有的发展阶段。

在非特定人语音识别方面：清华大学计算机科学与技术系在87年研制的声控**查号系统并投入实际使用。在连续语音识别方面：

91年12月四川大学计算机中心在微机上实现了一个主题受限的特定人连续英语——汉语语音翻译演示系统。在孤立字大词汇量语音识别方面：最具代表性的要数92年清华大学电子工程系与中国电子器件公司合作研制成功的thed-919特定人语音识别与理解实时系统。

首先介绍一下语音识别系统的分类方式及依据。根据对说话人说话方式的要求，可以分为孤立字（词）语音识别系统，连接字语音识别系统以及连续语音识别系统。根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统。

据词汇量大小，可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外，还涉及到语音识别单元的选取。

不同的语音识别系统，虽然具体实现细节有所不同，但所采用的基本技术相似，一个典型语音识别系统的实现过程如下图所示。

目前，语音识别技术还面临着许多的问题，还不够成熟，主要有：第一，语音识别的研究工作进展缓慢，主要表现在理论上一直没有突破。虽然各种新的修正方法不断涌现，但还缺乏普遍适用性。

第二，语音识别系统的适应性差，主要体现在对环境依赖性强，即在某种环境下采集到的语音训练系统只能在这种环境下应用，否则系统性能将急剧下降；另外一个问题是对用户的错误输入不能正确响应，使用不方便。第三，高噪声环境下语音识别进展困难，因为此时人的发音变化很大，像声音变高，语速变慢，音调及共振峰变化等等，这就是所谓lombard效应，必须寻找新的信号分析处理方法。第四，语言学、生理学、心理学方面的研究成果已有不少，但如何把这些知识量化、建模并用于语音识别，还需研究。

而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。第五，我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等方面的认识还很不清楚；其次，把这方面的现有成果用于语音识别，还有一个艰难的过程。第六，语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决，识别速度、拒识问题以及关键词（句）检测技术（即从连续语音中去除诸如“啊”、“唉”等语音，获得真正待识别的语音部分）等等技术细节要解决。

在研究语音识别的道路上既然出现了这么多的问题，那么为了解决这些问题，研究人员提出了各种各样的方法，如自适应训练，基于最大互信息准则（mmi）和最小区别信息准则（mdi）的区别训练和“矫正”训练；应用人耳对语音信号的处理特点，分析提取特征参数，应用人工神经元网络……所有这些努力都取得了一定成绩。

当然，如果要使语音识别系统性能有大的提高，就要综合应用语言学、心理学、生理学以及信号处理等各门学科有关知识，只用其中一种是不行的。

目前世界各国都加快了语音识别应用系统的研究开发，并已有一些实用的语音识别系统投入商业运营。在美国语音识别系统的销售额逐年上升，由于使用了语音识别系统，为企业赢得了巨额收入。语音识别系统有at＆t于2023年开发的vrcp系统。

该系统是有五个单词（collect，person，third number，operator和calling card）的非特定人小词汇量语音识别系统，现已应用于at＆t通信网上，可以实现自动话务员协助式呼叫，代替话务员完成五种呼叫类型。此外，语音识别技术在iphone中应用也是很广泛了。

中文大词汇量连续语音识别技术近年来发展迅速，并在许多领域得到了广泛的应用，国内外许多大公司加大了对语音识别技术的研究，不少商业化的语音识别系统已经面世，并得到较为广泛的使用。

当然在国内，中文的语音识别也有已经较为成熟并投入消费应用的技术。上市企业科大讯飞的高级副总裁、研究院院长胡郁告诉环球企业家，讯飞口讯、讯飞输入法等主要产品，总计有800万**用户，每天有200万次语音交互。同时其技术也在新浪微博的语音搜索中使用，腾讯则获得其语音能力的授权，正在研发相关产品。

在他看来，语音智能之所以现在爆发，与移动互联网和云计算紧密相关。不过相比美国，中国在人工智能和操作系统的技术上仍有很大差距，因此在短期内产生和siri同级别的产品，可能性甚微。苹果**的faq中提到，明年siri将会提供中文服务。

人工智能大作业

人工智能大作业

人工智能大作业

人工智能大作业

其他用户还读了