[原创]语音识别技术(1--8)

[ADMINOPE=黑色叶子|ccreat|奖励积分 10|好贴|1130411372][这个贴子最后由x86在 2005/10/27 06:00pm 第 2 次编辑]

[watermark]第一章  绪论
1.1语音识别的重要性
1.1.1  语音信息处理与语音识别
人类利用语言相互交流信息，包括语音和文字两种表达方式。通过语音相互传递信息，这是人类最重要的基本功能之一。随着信息社会的发展，人与人之间，自不必说，即使在人与机器之间也每时每刻都需要进行大量的信息交换。人类在利用语音进行信息交流时，说话人大脑产生思想，通过语言转换，再由发声器官发出相应的语音；语音的声波经由空气传播到达听话人的耳朵，通过听觉器官将语音传送到大脑，由此理解该语音所表达的语言意义。这是人类进行信息交流与处理的过程。用计算机来模拟人类的这一交流信息的过程，包括以下几个部分：
（1）将大脑产生的思想转换成语言；
（2）将语言转换成相应的语音；
（3）识别表达语言的语音内容；
（4）理解语音所表达的语言意义。
上述（1）与（4）的部分属于自然语言生成和理解的研究范围，（2）的部分属于语音合成的研究范围；（3）的部分则属于语音识别的研究范围。
1.1.2语音识别的重要性
计算机语音识别是智能计算机系统的重要特征。这一技术的应用将从根本上改变计算机的人机界面，从而对计算机的发展以及推广应用产生深远的影响。基于电话的语音识别技术，使计算机直接为客户提供金融、证券和旅游等方面的信息查询及服务成为可能，进而成为电子商务进展中的重要一环(Voice-Commerce)。其次，语音识别技术作为声控产业，必将对编辑排版、办公自动化、工业过程和机器操作的声控技术起到重大的推进作用。因此可以预言，语音技术必将对工业、金融、商业、文化、教育等诸方面事业产生革命性的影响。这是一项具有巨大应用推广前景的工程。正是由于这一点，一些主要先进国家都把此工程列为国家级研究项目。
面对如此广阔的应用领域，目前国内外众多公司正积极推动语音识别技术的应用。
•微软：让计算机能说会听
在1997年秋季COMDEX世界计算机博览会上，语音识别和文本至语音的转换(Speech to Text)系统已是引人注目的技术之一。在主题演讲大会上，微软Bill Gates在描绘IT事业的发展宏图时，率先指出下一代操作系统和应用程序的用户界面将是语音识别。并提醒大家：“工业界应对语音识别领域的重大突破做好充分准备，因为那将是一场席卷全球的另一次热潮”。展览会上，微软与其合作伙伴将原语音指令和控制程序与连续语音识别技术结合在一起联合推出了语音识别产品VoiceExpress。1998年11月5日，微软中国研究院在北京成立，该中心的任务是重点研究计算机在中文环境下的易用性。
•IBM：ViaVoice仍居主流
IBM公司潜心研究语音识别技术迄今已达30年之久，投资超过2亿美元。IBM公司于1995年在北京成立了中国研究中心，中文语音信息处理成了该中心三大研究领域之一，并于1997年9月4日，在北京推出了中文连续语音识别产品ViaVoice。
•Intel：做语音技术倡导者
1998年，英特尔公司也宣布致力于推广语音识别技术，除了在北京举办首届语音技术国际论坛之外，还在北京、上海、成都、广州等地展开了“基于英特尔框架的语音识别技术”的宣传活动，并联合了七家世界著名学术机构（中科院自动化所、清华大学、香港科技大学、香港中文大学、麻省理工学院、俄勒岗研究院、WATERLLOO大学）成立了“国际语音技术研究组织”，致力于计算机语音技术的基础研究，以加速中文语音识别技术的发展，由此可见英特尔公司对语音识别技术的重视程度非同一般。
[/watermark]
[watermark]1.2语音识别的定义、原理及分类
1.2.1  语音识别的定义
语音识别是研究如何采用数字信号处理技术自动提取以及决定语音信号中最基本、最有意义的信息的一门新兴的边缘学科。它是语音信号处理学科的一个分支。显然，有意义、有内容的信息是构成语音音韵特性、即语音的共性特征之基础，因此也可将其称为音韵信息。从广义上讲，语音识别也包括了对说话人的识别(Speaker Recognition)，其主要内容是提取语音信号中有关个人特征的信息、即语音的个性特征（如：音律特性等），在这里专指有意义、有内容的识别。
语音识别所涉及的学科领域相当广泛，如：信号处理、物理学（声学）、模式匹配、通信及信息理论、语言语音学、生理学、计算机科学（研究软硬件算法以便有效地实现用于识别系统中的各种方法）、心理学等。
1.2.2语音识别的基本原理
语音识别的原理框图如图1.2所示。如图所示，识别有意义、有内容的语音信息的基本方法是：预先分析出语音特征，按照要求送给机器储存起来，这个语音参数库中的语音参数称为“模板(Template-based Approach)”，而这一过程称为“训练(Training)”。接着，送来识别的语音（又称待识语音）经过与训练时相同的分析，得到语音参数，将它与库中的参考模板一一比较，并采用判决的方法找出最接近语音特征的模板，得出识别结果，这一过程就称为“识别(Recognition)”。当然，在进行比较时要有个标准，这就是计量语音参数矢量之间的“失真测度(Distortion Measures)”。即：失真最小的那个模板所代表的内容就是识别的结果。
目前，常用的语音识别算法有：基于模式匹配的动态时间规正法(DTW: Dynamic Time Warping) 、基于统计模型的隐马尔柯夫模型法(HMM: Hidden Markov Model))以及基于神经网络的识别法(DNN、NPN、TDNN)等。

1.2.3语音识别的分类
语音识别可以从三个方面进行分类。
（1）按语音识别器的类型
•孤立单词识别(Isolated Word Recognition)
对汉语语音来说，识别的单元为字、词或短语，它们组成识别的词汇表(Vocabulary)，对它们中的每一个通过训练建立标准模板或模型。待识别的语音是这些字、词或短语中的某一个。
•连续语音识别(Continuous Speech Recognition)
•连续单词识别(Connected Word Recognition)
      以比较少的词汇为对象，能够完全识别每个词。识别的词汇表和标准样板或模型
也是字、词或短语，但识别时可以是它们中间几个的连续，其中典型的有：词汇表中
包括“0”到“9”十个数字，识别时可以说“3” 、“27” 、“659”等等。
•连续言语识别与理解(Conversational Speech Recognition)
以多数词汇为对象，待识的语音是一些完整的句子。虽然不能完全准确识别每个
单词，但是能够理解其意义，连续言语识别也称会话语音识别。理解是在识别了语音
之后，根据语言学知识来推断语音的含义内容的。
（2）按语音识别器对使用者的适用情况
•特定人语音识别(Speaker-Dependent)
语音识别的标准模板或模型只适应于某个人，实际上，该模板或模型就是该人通
过输入词汇表中的每个字、词或短语的语音建立起来的（称为训练：Training）。其他人使用时，需同样建立自己的标准模板或模型。
•非特定人语音识别(Speaker-Independent)
语音识别的标准模板或模型适应于指定的某一范畴的说话人（如说标准普通话），
标准模板或模型由该范畴的多个人通过训练而产生。识别时可供参加训练的发音人（圈
内人）使用，也可供未参加训练的同一范畴的发音人（圈外人）使用。
（3）按语音词汇表的大小
•有限词汇识别
按词汇表中字、词或短句个数的多少，大致分为：
100以下为小词汇；100～1000为中词汇；1000以上为大词汇。
•无限词汇识别（全音节识别）
当识别基元为汉语普通话中对应所有汉字的可读音节时，则称其为全音节语音识
别（音节字表：Lexicon）。全音节语音识别是实现无限词汇或中文文本输入的基础。
[/watermark]
[watermark]1.4  语音识别的历史回顾
1.4.1  国外语音识别研究的历史
对机器识别语音的研究，可以追溯到50年代。1952年贝尔研究所Davis等人研究成功了世界上第一个能识别10个英文数字发音的实验系统。1960年英国的Denes等人研究成功了第一个计算机语音识别系统，从此开始了计算机语音识别研究的阶段。
大规模的语音识别研究是在进入了70年代以后，这一时期取得了许多实质性的进展，特别是在小词汇量、孤立词的识别方面。这一时期的语音识别方法基本上是采用传统的模式识别策略。其中以苏联的Velichko和Zagoruyko、日本的迫江和千叶，以及当时在美国的板仓等人的研究工作最具有代表性。苏联的研究为模式识别应用于语音识别这一领域奠定了基础；日本的研究则展示了如何利用动态规划(Dynamic Programming)技术在待识语音模式与标准语音模式之间进行非线性时间匹配的方法；而板仓的研究提出了如何将线性预测分析技术(LPC)加以扩展，使之用于语音信号的特征抽取的方法。另外，值得一提的是，目前在大词汇语音识别方面处于领先地位的IBM语音研究小组，就是在70年代开始了它的大词汇语音识别研究工作的。AT&A的贝尔研究所也开始了一系列有关非特定人语音识别的实验。这一研究历经10年，其成果是确立了如何制作用于非特定人语音识别的标准模板的方法。
进入80年代以后，语音识别研究更加活跃。这一时期，研究的重点逐渐转向大词汇量、非特定人连续语音识别。而且，在研究思路上也发生了重大变化，即由传统的基于标准模板匹配的技术思路开始转向基于统计模型、特别是隐马尔柯夫模型(HMM)的技术思路。此外，再次提出了将神经网络技术引入语音识别问题的技术思路。这一时期所取得的重大进展有：
（1）隐码尔柯夫模型(HMM)技术的成熟和不断完善成为语音识别的主流方法。
（2）以知识为基础的语音识别的研究日益受到重视。在进行连续语音识别的时候，除了识
   别声学信息外，更多地利用各种语言知识，诸如构词、句法、语义、对话背景方面等
   的知识来帮助进一步对语音作出识别和理解。同时在语音识别研究领域，还产生了基
   于统计概率的语言模型。
（3）人工神经网络(ANN)在语音识别中的应用研究的兴起。在这些研究中，大部分采用基
   于反向传播法（BP算法）的多层感知网络。ANN具有区分复杂的分类边界的能力，
   显然它十分有助于模式划分。
进入90年代以后，在语音识别的系统框架方面并没有什么重大突破。但是，在语音识别技术的应用及产品化方面出现了很大的进展。特别是在电话语音识别方面，由于其有着广泛的应用前景，成了当前语音识别应用的一个热点。另外，面向个人用途的连续语音听写机技术也日趋完善。这方面，最具代表性的是IBM的VTD(VoiceTypeDictation)和Dragon公司的Dragon Dictate系统。这些系统具有说话人自适应能力，新用户不需要对全部词汇进行训练，便可在使用中不断提高识别率。
DARPA(Defense Advanced Research Projects Agency)是在70年代由美国国防部远景研究计划局资助的一项10年计划，其旨在支持语言理解系统的研究开发工作。CMU（卡内基梅龙大学）、MIT（麻省理工学院）、IBM、AT&T等都参与了这一计划的开发工作。该计划执行的结果是1976年推出了HARPY(CMU)系统。虽然，这是有限词汇和限定领域的识别系统，但改变了原来只利用声学信息的状况，开始应用高层次语言学知识（如构词、句法、语义、对话背景等）。在这为期10年的阶段中尽管所有的研究计划均未能达到预期目标，但它对语音识别和理解研究的发展起了重要的推动作用。通过这一阶段的研究使人们认识到语音识别任务的艰巨性，总结出许多有意义的经验教训，并且从此对语音识别提出了许多基础性的研究课题。这些课题主要涉及到语音信号和自然语言的多变性和复杂性。所谓多变性和复杂性大致包括以下几个方面：
（1）连续语音词与词之间没有明显的停顿，词与词之间的分割比较困难；
（2）每一个基本的声学识别基元（如音素）受前后音素发音方式的影响（协同发音）使特征变得不稳定；
（3）不同人、不同心理和生理以及在不同的说话环境下说同一词时，声学信号特征会发生变化；
（4）一个词的读音不仅包含了词义特征，而且还包含了说话人性别、年龄、情绪等大量与词义无关的信息，而这些信息的分离是不容易的；
（5）自然语言的多变性难以借助于一些基本语法规则进行描述，因而使计算机编程变得困难。
到了80年代，美国国防部远景研究计划局又资助了一项为期10年的DARPA战略计划，其中包括噪声下的语音识别和会话（口语）识别系统，识别任务设定为“（1000单词）连续语音数据库管理”。到了90年代，这一DARPA计划仍在持续进行中。其研究重点已转向识别装置中的自然语言处理部分，识别任务设定为“航空旅行信息检索”。
日本也在1981年的第五代计算机计划中提出了有关语音识别输入-输出自然语言的宏伟目标，虽然没能实现预期目标，但是有关语音识别技术的研究有了大幅度的加强和进展。1987年起，日本又拟出新的国家项目---高级人机口语接口和自动电话翻译系统。日本在开展研究工作时的特点是：建立全国的合作体系、分派任务、避免重复；共享通用语音资料、尽可能采用标准化设备和分析技术，交流研究结果和经验。
1.4.2  我国语音识别研究的历史
我国的语音识别研究起始于1958年，由中国科学院声学所利用电子管电路识别10个元音。直至1973年才由中国科学院声学所开始计算机语音识别。由于当时条件的限制，我国的语音识别研究工作一直处于缓慢发展的阶段。进入80年代以后，随着计算机应用技术在我国逐渐普及和应用以及数字信号技术的进一步发展，国内许多单位具备了研究语音技术的基本条件。与此同时，国际上语音识别技术在经过了多年的沉寂之后重又成为研究的热点，发展迅速。就在这种形式下，国内许多单位纷纷投入到这项研究工作中去。在北京就有中科院声学所、自动化所、清华大学、北方交通大学等科研机构和高等院校。另外，还有哈尔滨工业大学、中国科技大学、四川大学等也纷纷行动起来。1986年3月我国高科技发展计划(863计划)启动，语音识别作为智能计算机系统研究的一个重要组成部分而被专门列为研究课题。在863计划的支持下，我国开始了有组织的语音识别技术的研究，并决定了每隔两年召开一次语音识别的专题会议。从此我国的语音识别技术进入了一个前所未有的发展阶段。现在，国内有不少语音识别系统已研制成功。这些系统的性能各具特色。在孤立字大词汇量语音识别方面，最具代表性的要数92年清华大学电子工程系与中国电子器件公司合作研制成功的THED-919特定人语音识别与理解实时系统，此系统荣获“92’中国新产品新技术博览会”金奖。在连续语音识别方面，91年12月四川大学计算机中心在微机上实现了一个主题受限的特定人连续英语---汉语语音翻译演示系统。在非特定人语音识别方面，有清华大学计算机科学与技术系在87年研制的声控电话查号系统并投入实际使用。此系统获得国家发明奖。
[/watermark]
[watermark]2.1发音的生理机构与过程
2.1.1  发音的生理机构
人的发音生理机构见图2.1。如图所示，
发音器官主要由以下三个部分所构成：
（1）主声道：一般将声门（声带开口处）
   以上，经咽喉、口腔（舌、唇、腭、
   小舌）的管道称为主声道。
（2）鼻道：经小舌和鼻的管道称为鼻道。
   鼻道只有在发音时通过小舌下才被
   打开。小舌上抬时鼻道将被关闭。
（3）次声门系统：经肺、支气管和气管
   的管道称为次声门系统。

2.1.2  语音的产生过程
语音的产生过程可分为音源产生、声道调音和向外辐射三个阶段。
　　音源可分为声带音源和非声带音源两大类，非声带音源又可分为噪声音源和爆破音源。声带振动周期称为基本周期(Fundamental Period)，其倒数称为基本频率(Fundamental Frequency)。男性的基本频率一般为50～250Hz，女性的基本频率一般为100～500Hz。当发音的基本周期随时间变化时，便可感知重音和语调(Intonation)。音源波由基波及其谐波成分构成。
　　声道调音(Articulation)指为了发出各种各样的声音，需要诸如舌、口唇、腭等的器官对声道形状进行的调整。有了不同的声道形状，就能给出声道的不同的传递特性，并由于声道腔的共鸣作用，使得语音能量按频率发生强弱变化。声道腔共鸣特性反映在其频率特性上，便有一系列共振峰的出现，这些共振峰所对应的频率称为共振峰频率(Formant)。
　　根据产生的音源不同大致可形成以下三种语音：
（1）浊音(V: Voiced speech)的产生
音源是位于声门处的准周期空气脉冲序列。空气从肺部排出形成空气流，空气流
经过声带时，如果声带是绷紧的，则将在声门处产生出一个准周期性脉冲气流。即声带产生弛张振动，形成周期性地开启和闭合。声带启开时空气流从声门喷射出来，形成一个脉冲，声门闭合时相应于脉冲序列的间隙。该空气脉冲流通过声道后最终从嘴唇辐射出声波，这便是浊音语音。
（2）清音(U: Unvoiced speech)的产生
音源是位于声道的某个收缩区的湍流（类似噪音）。如果声带是完全舒展开来的，则肺部发出的空气流将不受影响地通过声门。空气通过声门后，如果声道某个部位发生了收缩，形成了一个狭窄的通道，则当空气流到达此处时将被迫以高速气流冲过收缩区，并在附近产生出空气湍流。这种湍流空气通过声道后便形成所谓的清音（也称摩擦音）。
（3）爆破音(P: Plosive speech)的产生
音源是位于声道某个闭合点处建立起来的气压，其具有突然释放的特性。声带状态同湍流音源一样，但当空气通过声门后，如果声道的某个部位完全闭合在一起，当空气流到达时便在此处建立起空气压力，一旦闭合点突然开启便会让气压快速释放，经过声道后便形成所谓的爆破音。
2.1.3语音分类
按主声道、鼻道可以将语音分为以下两种类型：
（1）口音：指在发音时气流不经过鼻腔的音，即通过主声道发出的音。
（2）鼻音：指在发音时气流经过鼻腔的音。
按音源的激励形式可以将语音分为以下三种类型：
（1）浊音：发音时声带振动使气流产生准周期的脉冲，这一空气脉冲激励声道而得
   到的音（也称有声语音）。
（2）清音：发音时声带不振动，仅以类似于宽带噪声音源输出的湍流气流高速冲过
   某处收缩的声道而产生的音（也称无声语音）。
（4）爆破音：由声道在完全闭合的情况下突然释放而产生的音。
[/watermark]
[watermark]2.2  语音的基本特性
2.2.1语音的物理属性
语音既然是人的发音器官发出来的一种声波，它就和其它各种声音一样，也具有声音的物理属性。这就是说，每种音都具有一定的音色、音调、音强和音长。
音色是一种声音区别于其它声音的基本特征。音色因以下三个音素而不同，①发音体（声带）振动发出的音与声带不振动而由别的发音器官发出的音的音色不同；②虽然应用相同的发音器官，但采用送气的方法与不送气的方法发出的音的音色不同；③声道形状和尺寸的不同发出的音的音色不同。
音调是指声音的高低，它取决于声波的频率（也称语音基频），而声波频率又与发音体的长短、厚薄以及松紧程度有关。
音强是指声音的强弱，它是由声波振动幅度所决定的。
音长是指声音的长短，它取决与发音持续时间的长短。
2.2.2  汉语语音基础及其特性
任何语言的语音都有元音(Vowel)和辅音(Consonant)两种音素(Phoneme)，它们是按音素的发音特征来分类的。
音素：根据语言学（音韵论）的定义，声音的最小基本单位称为“音素” ，采用音韵符号 / a / 表示。
元音：其特征是由声带振动而发音并且声道比较畅通。元音最重要的特色是由于声道中发生谐振的结果使声音具有音色。也就是说，每个元音的特点是由声道的形状和尺寸来决定的。
辅音：其特征是声道受阻，有无音响还在其次。辅音最重要的特色是语音流中有湍流和其它间断。发辅音时，如果声带不振动，发出的辅音称为清辅音（也称噪音），如果声带振则称为浊辅音。形成受阻的部位和发音方法的不同，发出的辅音也就不同。
声母和韵母是按汉语字音的结构来分类的。在我国，传统的音韵学对语音的分析，是采用音、韵、调系统的分析方法。每个“字音”分析为“声母”和“韵母”两部分，每个“字音”又有阴平、阳平、上声、去声四种声调。
声母：声母可以由辅音来充当，但辅音不一定就是声母。汉语普通话中共有22个辅音，除ng以外的21个可以作为声母（参见表2.1）。
韵母：韵母可以由元音来充当。它包括单韵母（一个元音）、复韵母（两个或两个以上的元音）和带声韵母（元音和辅音、即用“n”或“ng”收尾的韵母）。
汉语普通话中有10个元音组成38个韵母。表2.2列举了35个韵母，另外“i资” 、“i知” 、“er” 、“ ê” 为4个特殊韵母。
在汉语中一个字对应与一个音节(Syllable)，所以它是由声母、韵母和声调按一定的方式构成的，它是语言的最小使用单位。
一般韵母又可分为韵头、韵腹和韵尾，韵头只能是“i”、“u”、“ü”，韵腹是主要部分，其发音较强，韵尾只能是“i”、“u”、“n”和“ng”，前两者可作为韵母独立存在。

声调具有区分字义的功能。对同一个
声母和韵母构成的字音，音调不同，则对
应的字也不同，意思也完全不同。图2.2
表示汉语四种声调的位置关系。
在汉语普通话中，并不是任何声母和
韵母都能组合拼成音节的，21个声母和35
个韵母共约配合成400个音节，再加上四个
声调组成1600个左右的带调音节。
2.2.2语音的波形特征
语音可以直接用它的时间波形来表示。根据时间波形可以看出语音信号的一些重要特征。图2.3给出了一个音节字为“沙地(sha1di4)”的波形。从中可观察到以下几种类型的波形区间：
（1）静息波区间(S: Silence speech)：这是语音未发声区间，反映在语音信号的始端、音节之间的间隙和语音信号的终端。在波形上是由背景噪声所构成的一条细线。
（2）准周期波区间(V: Voiced speech)：这是元音“a”和“i”的波形，具有比较明显的周期性，各个元音的波形是不同的。在充分短(5ms～30ms)的时间区间（也称短时区间）内，可观察到语音信号的变化非常缓慢，故可近似地认为在短时区间内语音信号的特性基本上是不变的。对汉语语音，还可以从其周期性变化趋势推断出声调变化等。另外，还能从波形推断出其能量主要集中在低频成分。
（3）噪声波区间(U: Unvoiced speech)：这是辅音“sh（清擦音）”的波形，其振幅小于准周期波的振幅。从波形推断出其能量主要集中在高频成分。
（4）脉冲波区间：这是辅音“d（塞音）”的起始阶段波形。
（5）过渡区间：这是辅音与（或称转接）元音、元音与元音之间的过渡区间。
2.2.3语音的频谱特性
语音还可以通过频谱表现(spectral representation)来描述其音素的特性。常用的有语谱图(sound spectrogram)。语谱图是一种用二维图形，用来描述语音能量在连续频率轴上随时间的变化规律。即其纵轴对应于频率，横轴对应于时间，图像浓黑程度正比于语音信号的能量。图2.4表示普通话的语谱图。
语谱仪的带通滤波器为宽带(300Hz)时，便可得到宽带语谱仪。这时由于时间分辨率高，因而可以明显看出时间波形的每个周期（纵向细线层）。但是，由于频率分辨率不高，不足以分辨激励所形成的细微结构（横向细线层）。宽带语谱仪能够清晰地显示出共振峰随时间的变化情况（参见图2.4(a)）。窄带语谱仪(50Hz)，因频率分辨率高，能显示出激励信号的基频及其各个谐波（参见图2.4(b)）。但是，由于时间分辨率的下降，不能明显看出共振峰的变化。

另外，在分析音素特性时，常用到振幅频谱图（或对数振幅谱）。对元音而言，在其频谱图上能清楚地看出浊音的基音及其谐波频率。此外，还能看到3～4个能量集中的区域，这就是对应的几个共振峰频率，从低到高分别称为F1 、F2 、F3等。表2.3给出了普通话七个韵母的共振峰频率。从表中可以看到，各韵母音色上的差异可用斗三个共振峰频率(F1、F2、F3)来表征，F1主要分布在290Hz至1KHz范围内，F2分布在500Hz至2.5KHz范围内，而F3分布在205Hz至4KHz范围内。图2.4给出了普通话六个韵母语音的频谱图
2.2.4语音的音律特性
汉语的音律特性，主要是指语音的音高、音强和音长等方面所显示出来的抑扬顿挫的特性。音高即对应了声调。从语音信号处理的角度讲，声调一般可用基频随时间变化的曲线来表征。音强指的是语音的轻重问题。一般存在三种重音，即正常重音、对比重音和轻音。正常重音的声学特点是，声调的完整性和音长的加长，而不是音强的加强。轻音首先失去了原有的声调，其次是音长大大缩短。对比重音不同于正常重音的地方是，它的音高范围大，音长更长，音强也往往有所增加。音强一般可用信号的能量、持续时间来表征。
语音的韵律特性还有待于进一步研究。
[/watermark]
[watermark]第三章  用于语音识别的信号处理及分析方法
3.1  短时分析与窗函数
3.1.1  语音信号的数字化
数字信号是指时间和幅度均为离散的信号。为了把模拟信号变换成数字信号，必须经过取样和量化这两个步骤。
（1）取样(sampling)：如图3.1所示，取样是将时间上连续的信号xa(t)离散化成一个样本序列x(n)= xa(nT)，T是取样周期(sampling period)，其倒数称取样频率(sampling frequency)。取样后的信号称离散信号(discrete signal)。被取样的模拟信号的频带和取样周期之间，存在着香农—染谷的取样定律。即，模拟信号xa(t)受到带宽0～W(Hz)限制时，若每隔T=1/(2W)，对xa(t)进行取样处理，则从样值序列就完全能够再现原样波形。当于信号的频带W不明确时，需要在取样前接入低通滤波器，以进行带宽限制。若取样时不能满足取样定理，就会产生所谓的折叠失真(aliasing distortion)，如图3.2所示，信号中的高频成分将发生失真。
（2）量化(quantizing)：量化是将上述样本序列中的样本幅度再加以离散化。即用有限个值中的一个近似地表示某个波形的取样值。设信号范围为 | x(n) | ≤Xmax，则为了有效地使用二进制代码，一般将峰值到峰值的范围表示成：
            2Xmax = Δ2B；                                        (3.1)
式中，Δ表示量化级；2B为电平数。量化后的样值和原有模拟值的误差e(n)称为量化误差或量化失真或量化噪声(quantization noise)。若根据式(3.1)来选定Δ和B，则量化噪声就由式(3.2)决定。
      -Δ/2 ≤ e(n) ≤Δ/2                                  (3.2)

图3.1  波形的取样处理          图3.2  非准确取样时的折叠失真
3.1.2短时分析的概要
在第二章中，我们已经知道，语音信号具有
短时平稳特性（例如，可以认为在10～20ms内
语音信号近似不变），因此可将语音信号分成一些
段来进行分析处理。这些短段语音具有固定的特性，
这种分析处理方法就称为“短时”分析方法。
从语音信号流中切取出短时语音信号的过程
称为分帧。如图3.3所示，语音信号的分帧是通
过可移动的有限长度窗口进行加权的方法来实现
的。图中，窗口为矩形窗(长度为N)，xj(n)表示从离散信号x(n)取出的第j帧的短时信号。当然，也可以采用其它形式的窗口来进行分帧处理。
一般，我们把乘以窗函数后取出的短时语音区间部分称为帧，这个区间的长度称为帧长，而使这个区间移动的周期称为帧周期。
3.1.3几种典型的窗函数
式(3.3)、式(3.4)和式(3.5)给出了三种常用的窗函数。
（1）矩形窗
　　　　　　　　　　　　　　1  (0≤n≤N-1)
               wR(n) =
                        0  ( Other )
（2）汉明窗(Hamming)
　　　　　　　　　　　　　  0.54 – 0.46COS(2πn/(N-1))  (0≤n≤N-1)
               wH(n) =                                           (3.4)
                        0  ( Other )
（3）哈宁窗(Hanning)
　　　　　　　　　　　　　  0.50 – 0.50COS(2πn/(N-1))  (0≤n≤N-1)
               wH’(n) =
                        0  ( Other )
波形乘以汉明窗时，压缩了接近函数两端的部分波形，这等效于分析用的区间缩短了40%左右，因此频率分辨率也随之下降40%左右。所以，即使在周期性明显的浊音频谱分析中，乘以合适的窗函数，也能抑制基音周期分析区间的相对相位关系的变动影响，从而可以得到稳定的频谱。这样，由于等效分析区间的缩短，为了追踪随时间变化的频谱，要求一部分区间作重复移动。汉明窗在通带外的衰减要比矩形窗小得多，而且通带与阻带起伏也比较小（有关上述窗函数的衰减特性请参见参考书（5）图4.5）。
[/watermark]
[watermark]3.2  时域分析
3.2.1  短时平均能量、幅度及过零数
（1）短时平均能量Ej的定义
      N-1
Ej = ∑{ xj (n)2 }
   n=0
  Ej ：第j帧语音信号的短时平均能量，j为帧的编号。
  xj (n)：原样本序列x(n)在j时刻起，由长度为N的窗口w(n)所切取出
      的短时语音段。
Elog(j) = 10log10(1+Ej)
  Elog(j)：第j帧语音信号的对数短时平均能量（单位：分贝）。
（2）短时平均振幅Mj的定义
      N-1
Mj = ∑| xj (n) |
   n=0
  Mj：第j帧语音信号的短时平均幅度。
（3）短时平均过零数(zero crossing number)Zj的定义
      N-1
Zj = ∑{ neg(xj (n) xj (n+1)) }
n=0
  Zj：第j帧语音信号的短时平均过零数。
　　　　　　　 0  (x ≥ 0 )
   neg(x) =
               1  (x ＜ 0 )
有关静息、无声（清音）以及有声语音（浊音）的平均能量和过零数的分布关系，如图3.4所示。由图可知，利用这些分布特性，我们就可将短时平均能量（或幅度）和过零数应用于：①检测语音信号的有无（语音端点检测）；②区分有声与无声语音的分界、连字（指字之间无间隙）的分界等。另外，平均能量还常作为一种超音段信息，被应用于语音识别。

      (a)  短时平均能量Elog(j)(dB)             (b)  短时平均过零数Zj (次/10ms)
         图3.4  用于语音端点检测参数的统计分布示意图
3.2.2  短时自相关函数与平均振幅差函数
（1）短时自相关函数(short-time auto-correlation function)Rj(m)的定义
            N’-1
Rj(m) = { ∑{xj(n) xj(n+m)} } / N，( 0≤m≤M0-1)
      n=0
      Rj(m)：第j帧语音信号、延迟为m的短时自相关函数值。
      N ：帧长。
      M0 ：最大延迟时间（应至少大于原信号的周期）。
      N’ ：累加变量n的上限值。
               N’ = N  ：对j≤n≤j+N-1区间以外的x(n)值也需要
                        进行累加计算。
               N’ = N-m：只需对上述区间内的数据进行累加即可。
                        此时，在切取出xj(n)时，一般采用两端
                        衰减的窗函数。
（2）短时平均幅度差函数AMDF(average magnitude differential function)
         N-1
rj(m) = { ∑|xj(n) - xj(n+m)| } / R，( 0≤m≤N-1)                      (3.12)
      n=0
      rj(m)：第j帧语音信号、延迟为m的短时平均幅度差函数值。
            N-1
   R = ∑{| xj(n) |}                                           (3.13)
      n=0
自相关函数（或AMDF）的主要用途为：①提取语音信号的基本周期，获取声调模式；②对带噪信号进行语音端点检测；③区分有声与无声语音的分界、连字（指字之间无间隙）的分界等。此外，在后面的线性预测分析中也要用到自相关函数。
3.2.3  中值滤波
[/watermark]
[watermark]3.3  频域分析
3.3.1  傅里叶分析概要
（1）连续周期信号与傅里叶级数(FS: Fourier Series)
（2）离散周期信号与离散傅里叶级数(DFS: Discrete Fourier Series)
（3）连续非周期信号与傅里叶变换(FT: Fourier Transform)
（4）离散(时间)非周期信号与离散傅里叶变换(DTFT: Discrete Time Fourier Transform)
3.3.2  短时傅里叶变换(DFT: Discrete Fourier Transform)
设xj(n)为从原样本序列xj(n)的j时点、通过某窗函数w(n)的作用切取出的短时语音信号。
（1）DFT
         N-1
Xj(k) = ∑ xj(n)exp(-j2πkn/N)，( 0≤k≤N-1)
   n=0
         Xj(k) = R(Xj(k)) + I(Xj(k))
         |Xj(k)| =  R(Xj(k))2 + I(Xj(k)) 2
         tgθ(k) = I(Xj(k)) / R(Xj(k))
（2）IDFT
            N-1
xj(n) = ∑ Xj(k) exp(j2πkn/N)，( 0≤n≤N-1)
                  k=0
3.3.3DFT与快速傅里叶变换(FFT: Fast Fourier Transform )
在进行DFT计算时，通常都采用FFT算法以提高运算速度。在使用FFT算法时应注意以下两点：
　　（1）时间窗要求采用两端衰减型的窗函数
      因不能保证切取出的的信号正好是一个周期，所以若不用两端衰减型的时间窗的话，两端的信号（不连续性）则将影响频谱特性，从而导致频谱不稳定。因此，为削弱这种影响，需采用两端衰减型的窗函数。
（2）数据长度要求：N=2M
      当原数据长不够2M时，可以通过追加0值来满足长度的要求。

3.3.4  振幅谱和功率谱
（1）振幅谱|Xj(k)|
通常把 |Xj(k)| 称为振幅频谱。
（2）功率谱Sj(k)
   功率谱Sj(k)定义为：
      Sj(k) = |Xj(k)|2 / N
         = { R(Xj(k))2 + I(Xj(k)) 2 } / N                                  (3.16)
      对数功率谱：
      Sj(log)(k) = 10log10(Sj(k)) (dB)                                        (3.17)
（3）样本数对频谱的影响
      对基本周期已知的信号，帧长一般可取大于1个周期的长度。对未知周期的信号，
则需按具体情况而定。对于语音识别问题，通常取20ms长左右。
   •频率分辨率Δf
      频率分辨率Δf定义为：
      Δf = 1 / (TN)，（T：取样周期；N：帧长）
      由上式可知，频率分辨率与分析用的区间长度成正比例提高。即：频率分辨率高，
   则时间分辨率低，反之，则反。
•时间分辨率
   分析区间越短，时间分辨率就越高。因为区间长度越长，频谱的平均化作用就越
强，这样就很难得到频率对时间变化的特性。
[/watermark]

返回列表回复发帖

[原创]语音识别技术(1--8)

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]