语音合成系统中波形拼接过渡算法的研究。
姓名:赵越学号:20085512 年级:2008级。
黑龙江大学电子工程学院自动化专业。
摘要:在现代的汉语语音合成的波形拼接合成方法中,没有考虑前后音节的声学影响,导致在音节连接处出现协同发音的低质合成,这大大降低了合成语音的自然度。为解决这一问题,本文提出了一个根据汉语语音韵律特征的研究,通过修改音节的韵律特征参数,实现音节之间韵律特征参数波形拼接平滑过渡的算法。
实验表明本文所提方法的有效性,其语音合成的自然度更高,对语料库的要求更低。
关键词:协同发音,语音合成,波形拼接,音素,韵律过渡。
0 引言。以音节为基元的汉语语音合成中,当一个以元音结尾的音节与下一个以元音或摩擦音开头的音节相接时,前后音节的音调彼此互相影响会发生变异,甚至失去了原有的调型,即出现协同发音现象[3]。如果不考虑协同发音,语音波形的拼接会完全不同于真实的语音,这主要因为波形拼接使合成语音基元之间过渡连接的谱包络、幅度和基频特性的连续性变差,降低了合成语音的自然度[4]。
例如,“我去西安。”一句,协同发音出现在“西安”两字处。如果不考虑协同发音,直接合成语音的发音是一字一顿,听起来感觉明显不自然。
现行的解决方法是声调被切成过渡音素,诸如i-a, a-o, a-n-g, i-n-g, 等,当存在协同发音现象时,用过渡音素拼接,这种方法只适用于大的语音库。所以,如何利用语料库的有限存储容量来提高语音合成的自然度,一直以来是波形拼接合成方法研究的主要课题。人类通过语音信号的能量、基频和时间等,即韵律特征来感知语音[4]。
音节或音素的能量和频率被表示为频谱能量分布,时间表示频谱能量分布的频率变化。由于发音器官的惯性作用,人类的发音过程中韵律特征参数分布是连续的,特别是协同发音短语时[5,6,7]。所以,我们提出了一个以音节为基元的波形拼接的语音合成算法,在音节连接处的过渡带内移动频谱能量分布。
这种方法包含两个问题:一个是音节之间韵律特征参数的平滑过渡,另一个是语音基元的拼接。
1 语音基元之间过渡方法介绍
汉语音节的发音通常分为 “声母+韵母”和只有“韵母” 两种情况。因此,两个相邻音节之间的连接就是其前音节的韵母和后音节声母之间的连接过渡,或者是前后两个元音之间的连接过渡,这种连接过渡会随着前音节的韵母和后音节的声母组合形式的不同而不同。由此而来,两个相邻音节的拼接问题在语音合成过程中可以转化为下面三种拼接形式:
1.1 连续能量过渡。
音节及音节之间可以被分成两部分:稳定语音带和过渡语音带。稳定语音带的谱能基本保持不变, 而过渡语音带的谱能是从前音节的韵尾连续而平滑地过渡到下一音节的韵头。
语音信号经傅里叶变换计算后得到它的谱能,然后修改谱能系数,即从前音节韵尾的最后一个音素的谱能平滑过渡到相邻的下一音节韵头的第一个音素。修改后的结果再经傅里叶逆变换到时域,最后用psola拼接信号波形。通过在过渡段修改谱能来合成过渡语音带,再把修改的过渡语音带与稳定语音带拼接,就实现了整个语音波形的拼接。
语音信号具有短时周期属性。要实现基于帧的语音信号处理,语音信号先被分成重叠的帧片段,为此,语音信号与汉宁窗相乘。
1.2 过渡语音带的波形拼接。
从到过渡带的波形拼接,如图1、图2所示。
图1 从 i 到 a 过渡带的自然语音波形图2 从 i 到 a 过渡带的合成语音波形
通过基音标注来实现基音同步叠加算法(psola),该算法使用相同的音素进行拼接,并且波形变化不大。本文是对两个过渡音素拼接。在这个方案中,语音波形的相邻周期变化反常,所以基音标注方法在这里并不适用。
为此,提出了内帧最小失真算法来解决这个问题。这个算法从语音信号的最后一帧,提取一段周期小于基音周期的语音,并把这段语音信号与下一帧语音信号相比较,找出与其最相似一段的语音信号。为此,定义相邻帧之间最小失真为:
这里是滑动窗口的大小,通常选择大于2个基音周期,来保证窗口内语音2个周期,选择拼接结束点作为中的最小值。
2 主观测试和听辨实验
实验采用mos(mean opinion scores)测试。用20组平稳语调发音的汉语普通话语音合成,包括协同发音现象作为实验样本。与20段具有相同内容的自然语音短语比较,4位听者根据5分制的mos给出可接受的自然度,即优-5分、良-4分、一般-3分、差-2分、太差-1分,实验结果如表1 所示。
表1 主观测试结果。
table 1 results of subject test
3 结论 本文提出了一个根据汉语语音韵律特征的研究,通过修改音节的韵律特征参数,实现音节之间韵律特征参数拼接过渡的算法。这种方法充分利用了句子中前后相邻两个音节韵律变化的渐变关系,即在实现语音合成中的拼接阶段,将前音节的韵尾和后音节的韵头在韵律特征参数过渡方面给于充分的考虑,使得前后音节的韵律特征参数过渡连续与一致。由于本文所提出方法在最大程度上使用了自然语音,其合成语音的自然度显著提高。
实验结果表明,本算法对语料库的要求更低,可以应用于更小语料库上的语音合成。
参考文献 1] zhou xunyi, the influence of co-articualation on syllable perception in utterance[j]. acta psychologica sinica, 2003.35(3):
340-344.
2] zhang qin, new mandarin speech synthesis based on co-articulation[j]. mini-micro systems, vol.24 no.
6 june 2003: 435-440.
3] 张鹏, 王琳, 刘胜.基于韵律匹配代价、韵律拼接代价的汉语语音合成.哈尔滨工业大学学报, 2006,38(11) :2006-2008..
4] 张鹏,王丽红,刘胜.汉语语音合成语调基频曲线的合成及控制方法的研究.第27届中国控制年会**集, 2008,7 : 739-742.
5] ni xin, hybrid unit model based non-uniform unit selection [j]. mini-micro systems ,vol.26 no.
6 june 2005 : 206-210.
6] j gutiérrez ,et al . a new multi-speaker formant synthesizer that applies voice conversion techniques [a]. proc eurospeech [c].
aalborg, denmark: isca, 2001 : 357-360.
7] tomakitoda,et al .unit selection algorithm for japanese speech synthesis based on both phoneme unit and diphone unit[c]. ieee.
2002 : 465-468
摘要:200-
关键词:3-5个
直流调速系统应用案例。
篇幅不超过6页。
1 引言。2 系统组成及工作原理。
1.1 系统组成。
1.2 系统工作原理。
3 硬件电路。
2.1 直流电动机。
4 控制软件。
5 实验**。
6 结论。参考文献
交流调速系统复习
交流调速系统 复习题。一 填空。1 根据公式,交流异步电动机有三种调速方法 变频调速 变转差率调速 包括 调速 调速 调速 调速调速。2 电动机调压调速,调压方法有和晶闸管交流调压器三种,晶闸管交流调压器可采用 和 进行调压。3 单相调压电路两种控制方法为通断控制和相位控制。其中通断控制主要用于大容...
photoshop大作业样本
photoshop 图像处理技术 课程大作业。姓名。学号。专业。班级。任课教师。塔里木大学信息工程学院。大作业一 英雄联盟比赛海报。具体步骤 1 启动photoshop cs6.0 2 执行 文件 新建 命令,弹出新建对话框,名称设置为 海报 宽度设置为50cm,高度设置为35cm,分辨率设置为72...
photoshop大作业样本
photoshop 图像处理技术 课程大作业。姓名。学号。专业。班级。任课教师。塔里木大学信息工程学院。大作业一 英雄联盟比赛海报。具体步骤 1 启动photoshop cs6.0 2 执行 文件 新建 命令,弹出新建对话框,名称设置为 海报 宽度设置为50cm,高度设置为35cm,分辨率设置为72...