法律状态公告日
法律状态信息
法律状态
2019-01-11
专利权的转移 IPC(主分类):G06N3/08 登记生效日:20181224 变更前: 变更后: 申请日:20120710
专利申请权、专利权的转移
2018-02-09
专利实施许可合同备案的注销 IPC(主分类):G06N3/08 合同备案号:2016320000213 让与人:南京邮电大学 受让人:江苏南邮物联网科技园有限公司 解除日:20180116 申请日:20120710
专利实施许可合同备案的生效、变更及注销
2016-12-14
专利实施许可合同备案的生效 IPC(主分类):G06N3/08 合同备案号:2016320000213 让与人:南京邮电大学 受让人:江苏南邮物联网科技园有限公司 发明名称:一种基于DIVA神经网络模型的汉语元音发音方法 申请公布日:20130116 授权公告日:20150128 许可种类:普通许可 备案日期:20161118 申请日:20120710
专利实施许可合同备案的生效、变更及注销
2015-01-28
授权
授权
2013-02-27
实质审查的生效 IPC(主分类):G06N3/08 申请日:20120710
实质审查的生效
2013-01-16
公开
公开
查看全部
技术领域
本发明涉及一种发音方法,更具体地说是一种基于DIVA神经网络模型的汉语元音发音方法。
背景技术
将大脑中的思维过程“阅读"出来,这一直是人类的一个梦想。波士顿大学语音实验室的弗兰克·冈瑟教授(Guenther.F.H.)提出的DIVA自适应神经网络模型帮助人们实现了这一梦想。他发明的DIVA模型依赖的语音背景是英文的29个基本音素,图5中给出了DIVA模型依赖的29个英文音素。对于以汉语为母语的中国人来讲,要“阅读”其思维过程,需要对汉语语音加工过程中的大脑机制进行深入研究和讨论。DIVA(Directions Into of Articulators)模型是一种关于语音生成与获取后描述相关处理过程的数学模型,主要用来仿真和描述有关大脑中涉及语音生成和语音理解区域的相关功能。可以说,它是一种为了生成单词、音节或音素,用来控制模拟声道运动的自适应神经网络模型。该网络模型在计算机中学习控制模拟声道的运动,以产生相应的语音。学习完成之后,模型能够产生语音的任意组合。DIVA网络模型为许多长期研究的语音生成现象包括运动等效、语境变化、说话时速度的影响、预期的协同发音和结转协同发音提供了一个统一的解释。
对于人类语言能力统一计算模型的需求推动着DIVA模型的发展,自冈瑟教授在1994年首次提出DIVA网络模型以来涌现出了不少新的版本,不同版本的DIVA模型大致地反映了神经解剖学和大脑有关区域的关联性。到目前为止,DIVA网络的定义和测试相对而言仍然是最彻底的,并且是唯一应用伪逆控制方案的模型,这种控制方案对于人类发音器官的运动学数据提供了十分精确的解释。
要让DIVA模型“读懂”中文发音者的思想,让说汉语的人能将其思维过程用人工语音合成系统自然的表述出来,需要建立正确的映射关系,这涉及到两方面的知识:
(1)汉语发音的脑机制研究和脑区成像研究;
(2)DIVA网络模型对成像结果的再利用。
DIVA模型的语言基础是英文的29个基本音素。对于母语为汉语的中国人来说DIVA模型是否也能完成中文语音生成和获取的任务呢?汉语是一门有语调的语言,它不像英语的语音识别是通过仅凭音节的识别就能获得很好的识别结果。对于汉语的识别,音调和韵律起着非常重要的作用。相同的音节不同的音调也会导致识别为不同的汉字。语音加工是语言认知的核心功能,其脑机制是当前研究者关心的重要问题,有关语音加工脑机制的研究,既包括听觉通道中语音加工的脑机制,也包括视觉通道中语音加工的脑机制。这个过程涉及到不同语言持有者在说话的时候,其发音过程对大脑皮层中布洛卡(Broca)区以及相关区域的不同影响。一系列的实验结果发现左侧颞上回后部的威尔尼克区与语音理解有关,左侧额下回的布洛卡区与语音产生有关。有多个脑区参与了听觉和视觉通道中的语音加工过程,包括左侧额下回、左侧颞上回、左侧顶下小叶、以及左侧颞顶枕联合区等脑区;而且某些脑区的功能似乎并不单一,例如左侧额下回既负责语音复述又负责语音的短时储存。各脑区在功能上不是孤立的,而是相互联系与影响,构成一个神经网络共同负责语音加工的过程。
如果将DIVA模型应用到中文发音的语音合成任务中,就要对其已有的英文因素—脑区映射关系进行重新考虑和修改,找到适合中文—脑区的映射关系。其中最重要的一个步骤就是汉语语音建模的问题。过去的几十年里,在中文语音识别系统中,研究人员分别考虑用过不同粒度的建模单元,这其中包括:词(word)、音节(syllable)、声韵母(initial/final,IF)、音素(phoneme)等。
以词或者音节为粒度去构建建模单元集,往往会造成建模单元数目过于庞大,从而出现训练数据稀疏的问题,导致模型参数得不到充分而准确的估计,而且还会使解码的搜索空间增大,大大降低解码效率,因此一般只适合用在一些小词汇量的中文识别系统(如命令词或者数字串识别系统)中。
以声韵母构建建模单元集,在一定程度上反映了中文语音学的知识和特点,并且被成功地用于搭建大词汇量连续语音识别系统,也是目前被广泛认可的建模单元集。但是与英文音素建模单元集相比,声韵母建模单元集的建模单元数目还是比较多,特别是在带调的情况下。
鉴于音素建模单元集已在英文系统中被广泛应用,并且取得了良好的性能,近年来有许多研究机构也倾向于在中文大词汇量连续语音识别系统中使用以拼音音素为粒度构建的建模单元集。虽然音素没有声韵母那么清晰的中文语音学特点和背景,但它的建模单元集的建模单元数目却比声韵母建模单元集的少了很多,在同等训练数据量的情况下,音素建模单元的参数能够得到更为充分和准确的估计。而且,现在中文数据库中英文单词和专有名词(如NBA、CEO等)频繁出现,用音素建模单元集去近似地进行拆分会比用声韵母建模单元集稍显合理。
发明内容
本发明公开了一种可以模拟人体发音且发音精度高的基于DIVA神经网络模型的汉语元音发音方法。
为解决上述技术问题,本发明一种基于DIVA神经网络模型的汉语元音发音方法,利用DIVA神经网络模型对汉语元音目标进行分类学习训练并产生汉语元音发音,包括以下步骤:
步骤1、通过麦克风采集所有的汉语元音,并获取所有汉语元音的共振峰频率;
步骤2、利用主元音方法建立汉语元音音素单元集,并将汉语元音音素单元集中的音素转换为共振峰频率的形式后映射到DIVA神经网络模型中,初始所有的汉语元音音素单元集中的音素单元为未激活状态;
步骤3、随机输入一个汉语元音的共振峰频率,对该汉语元音进行训练和学习,具体为:判断汉语元音音素单元集中是否存在与该汉语元音的共振峰频率相同的音素单元,若存在,则激活映射到DIVA神经网络模型中的汉语元音音素单元中相应的音素单元;若不存在,则结束训练该汉语元音;
步骤4、再次随机输入一个汉语元音的共振峰频率,判断此汉语元音是否已经在DIVA神经网络模型中学习过,若已经学习过,则跳过训练过程,直接通过扬声器发出该激活状态的音素单元所对应的元音;否则对该汉语元音进行训练和学习,具体为:判断汉语元音音素单元集中是否存在与该汉语元音的共振峰频率相同的音素单元,若存在,则激活映射到DIVA神经网络模型中的汉语元音音素单元中相应的音素单元;若不存在,则结束训练该汉语元音,
重复执行步骤4直至所有汉语元音都训练和学习完毕为止;
步骤5、利用DIVA神经网络模型将训练完成的所有汉语元音通过扬声器输出。
优选地,本发明一种基于DIVA神经网络模型的汉语元音发音方法中,所述步骤1中,获取共振峰频率的方法为基于线性预测(LPC)或倒谱法。
优选地,本发明一种基于DIVA神经网络模型的汉语元音发音方法中,所述步骤4中判断此汉语元音是否已经在DIVA神经网络模型中已经学习过,具体为:通过判断输入的汉语元音的共振峰频率与映射到DIVA神经网络模型中汉语元音音素单元集中的音素的共振峰频率,是否相同来确定该汉语元音所对应的音素是否被激活,若相同则该汉语元音所对应的汉语元音音素单元集中的音素处于激活状态,则此汉语元音已经在DIVA神经网络模型中学习过;若仍处于未激活状态,则此汉语元音没有在DIVA神经网络模型中学习过。
本发明与现有技术相比,具有以下显著的优点:本发明以DIVA神经网络模型为基础,在神经解剖学和神经生理学层次上描述和仿真了汉语元音生成和获取的相关功能,使模型能够流利的产生汉语元音发音,为以后的大词汇量连续语音识别系统(LVCSR)的建立提供了基础。DIVA神经网络模型最终可以通过与脑机接口(BCI)的结合,构造出符合汉语语音发声规律、具有真正生理学意义的汉语语音生成与获取的神经计算模型。
说明书附图
图1为采用LPC方法获取汉语元音共振峰频率的流程图;
图2为汉语单元音的前五个共振峰频率值;
图3为汉语元音音素集列表;
图4为现有的DIVA神经网络模型的结构示意图;
图5为现有的DIVA神经网络模型依赖的29个英文音素列表;
具体实施方式
本发明一种基于DIVA神经网络模型的汉语元音发音方法,利用DIVA神经网络模型对汉语元音目标进行分类学习训练并产生汉语元音发音,包括以下步骤:
步骤1、通过麦克风采集所有的汉语元音,并获取所有汉语元音的共振峰频率,所述获取共振峰频率的方法为基于线性预测(LPC)或倒谱法;
步骤2、利用主元音方法建立汉语元音音素单元集,并将汉语元音音素单元集中的音素转换为共振峰频率的形式后映射到DIVA神经网络模型中,初始所有的汉语元音音素单元集中的音素单元为未激活状态;
步骤3、随机输入一个汉语元音的共振峰频率,对该汉语元音进行训练和学习,具体为:判断汉语元音音素单元集中是否存在与该汉语元音的共振峰频率相同的音素单元,若存在,则激活映射到DIVA神经网络模型中的汉语元音音素单元中相应的音素单元;若不存在,则结束训练该汉语元音,DIVA神经网络模型出现的常见误差都是由于神经元在信息传递过程中存在着延时这一性质造成的,延时可以视为神经网络模型中的一种在时间域的扰动。DIVA神经网络模型利用前馈预测补偿及反馈调节技术相结合的方法在时间特性中给与模型适当的调节,以达到模型在时间域中趋于稳定的要求;
步骤4、再次随机输入一个汉语元音的共振峰频率,判断此汉语元音是否已经在DIVA神经网络模型中学习过,若已经学习过,则跳过训练过程,直接通过扬声器发出该激活状态的音素单元所对应的元音;否则对该汉语元音进行训练和学习,具体为:判断汉语元音音素单元集中是否存在与该汉语元音的共振峰频率相同的音素单元,若存在,则激活映射到DIVA神经网络模型中的汉语元音音素单元中相应的音素单元;若不存在,则结束训练该汉语元音。重复执行步骤4直至所有汉语元音都训练和学习完毕为止;
步骤5、利用DIVA神经网络模型将训练完成的所有汉语元音通过扬声器输出。
共振峰是反映声道谐振特性的重要特征,它代表了发音信息的最直接的来源,而且人在语音感知中利用了共振峰信息。所以共振峰是语音信号处理中非常重要的特征参数,已经广泛地用作语音识别的主要特征和语音编码传输的基本信息。共振峰可以等效为声道系统函数的复极点对,由于人的声道长度为17cm,而语音信号的能量主要集中在0~5KHz,因此一般语音通常包含4到5个稳定的振幅较强的共振峰频率。DIVA的模拟声道使用的是前田声道模型,它使用八个参数来描述声道模型的形状,分别舌头的位置、舌头的形状、舌尖、嘴唇高度、唇凸、颚和喉咙的高度以及声门的紧缩程度,对这八个参数进行简单的设置就能够获得各种各样的语音。
共振峰信息包含在频率包络之中,因此共振峰参数提取的关键是估计自然语音频谱包络,一般认为谱包络中的最大值就是共振峰。与基因检测类似,共振峰估计也是表面上看起来很容易,而实际上又受很多问题困扰。这些问题包括:
(1)虚假峰值。在正常情况下,频谱包络中的极大值完全是又共振峰引起的。但在线性预测分析方法出现之前的频谱包络估计器中,出现虚假峰值是相当普遍的现象。甚至在采用线性预测方法时,也并非没有虚假峰值。为了增加灵活性会给预测器增加2~3个额外的极点,有时可利用这些极点代表虚假峰值。
(2)共振峰合并。相邻共振峰的频率可能会靠的太近而难以分辨。这时会产生共振峰合并现象,而探讨一种理想的能对共振峰合并进行识别的共振峰提取算法存在很多实际困难。
(3)高音调语音。传统的频谱包络估计方法是利用由谐波峰值提供的样点。高音调语音的谐波间隔比较宽,因而为频谱包络估值所提供的样点比较少,所以谱包络的估计就不够精确。即使采用线性预测进行频谱包络估计也会出现这个问题。在这样的语音中,线性预测包络峰值趋向于离开真实位置,而朝着最接近的谐波峰位移动。
提取共振峰频率的几种常用方法包括:
(A)基于线性预测(LPC)的共振峰求取方法:一种有效的频谱包络估计方法是从线性预测分析角度推导出声道滤波器,根据这个声道滤波器找出共振峰。虽然线性预测法也有一定的缺点,例如其频率灵敏度与人耳不相匹配,但对于许多应用来说,它仍然是一种行之有效的方法。
(B)倒谱法:声道响应的倒谱衰减很快,在[-25,25]之外的值相当小,因此可以构造一个相应的倒谱滤波器,将声道的倒谱分离,对分离出来的倒谱做相应的反变换,就可以得到声道函数的对数谱,对此做进一步处理即可求得所需的各个共振峰。
目前,LPC仍然是计算速度比较快而且又较为有效的共振峰频率估计方法。声道的系统函数可以由一组线性预测系数唯一确定,因此通过LPC分析能估计出声道调制的效果,即获得共振峰参数。具体来说,LPC分析共振峰频率有两种方式,一种是通过求解逆滤波器A(z)的分母多项式的复根来得到共振峰。但是,高阶多项式的跟没有统一的表示,只能用近似法求解,因而该方法的计算量比较大,而且求根的递归过程有可能发散,所以已经不再广泛使用;另一种是峰值检测法。即利用LPC系数求出声道系数函数的LPC谱,然后通过搜索LPC谱中的峰值位置来得到共振峰频率。
如图1所示,采用LPC方法获取汉语元音的共振峰频率时,首先对汉语元音进行预滤波,消除干扰;对预滤波之后的元音进行分帧、预加重、加窗与端点检测,确定原因的起始端点和结束端点,利用线性预测编码对数据进行分析,获得汉语单元音的共振峰频率,对获得的汉语元音共振峰频率进一步进行中值滤波和线性平滑得到DIVA神经网络模型最终输入的汉语元音共振峰频率。
如图2所示,采用LPC方法获取的汉语单元音a、o、e、i、u、ü的前五个共振峰频率值。
如图3所示,通过主元音方法构建的汉语元音音素集共83个音素单元,在构建这个音素建模集的时候,主要是参考BBN、UW、RWTH 音素建模单元集系列的依赖和变化关系,综合考虑了UW-ph81和RWTH-ph71这2个音素建模单元集,只作了少许变化:1)同时保留元音/y v/和变体/I/、/IH/;2)没有将/I2/并入/I1/;3)各元音的轻音调均用第4个声调替代。跟据功能磁共振成像脑区域成像技术的研究,发音者产生汉语发音时有多个脑区参与了汉语语音的加工过程,包括左侧额下回、左侧颞上回、左侧顶下小叶、以及左侧颞顶枕联合区等脑区;而且某些脑区的功能似乎并不单一,例如左侧额下回既负责语音复述又负责语音的短时储存。各脑区在功能上不是孤立的,而是相互联系与影响,构成一个神经网络共同负责语音加工的过程。根据产生汉语时对应激活的脑区位置把通过主元音方法构建的汉语元音音素映射到DIVA神经网络模型中。
如图4所示,DIVA神经网络模型主要是由前馈控制子系统、反馈控制子系统和声道所构成的。所述前馈控制子系统包括:语音映射集的一部分、小脑、发音器官速率和位置映射集(部分);反馈控制子系统包括语音映射集的一部分、听觉误差映射集、听觉状态映射集、体觉误差映射集、体觉位置映射集、发音器官速率和位置映射集;声道采用前田声道模型,把模拟声道分成8个组成部分:舌头的位置、舌头的形状、舌尖、嘴唇高度、唇凸、以及颚、喉咙的高度和声门的张合程度。语音映射集的作用是根据模型中已经存在的映射关系把模型的输入进行映射编码;听觉状态和误差映射集的作用是通过编码来调基频F0和前三个共振峰频率F1~F3的位置来描述当前发音;发音器官速率和位置映射集的作用是来决定DIVA神经网络模型的声道框架中各发音器官的位置;体觉状态和误差映射集的作用是调整发音器官的各个部件的位置和参数来调整当前发音。
实施例
步骤1、利用LPC方法获取汉语元音ɑ的前三个共振峰频率值为805Hz、1265Hz和2770Hz;
步骤2、利用主元音方法建立汉语元音音素单元集,并将建立完成的汉语元音音素单元集中的音素转换为共振峰频率的形式后映射到DIVA神经网络模型中,初始所有的汉语元音音素单元集中的音素单元为未激活状态;
步骤3、把汉语元音ɑ的前三个共振峰频率输入到DIVA神经网络模型中,对该汉语元音进行训练和学习,具体为:判断汉语元音音素单元集中是否存在与汉语元音ɑ的共振峰频率相同的音素单元,若存在,则激活映射到DIVA神经网络模型中的汉语元音音素单元中相应的音素单元;若不存在,则不能产生相应的汉语发音;
步骤4、再次随机输入一个汉语元音的共振峰频率,判断此汉语元音是否为汉语元音ɑ,若是汉语元音ɑ,则跳过训练过程,直接通过扬声器发出汉语元音ɑ;否则对该汉语元音进行训练和学习,具体为:判断汉语元音音素单元集中是否存在与该汉语元音的共振峰频率相同的音素单元,若存在,则激活映射到DIVA神经网络模型中的汉语元音音素单元中相应的音素单元;若不存在,则则不能产生相应的汉语发音。重复执行步骤4直至所有汉语元音都训练和学习完毕为止;
步骤5、利用DIVA神经网络模型将训练完成的所有汉语元音通过扬声器输出。
机译: 电话段的元音段发音方法null
机译: 运用语言形成基于听力的汉语语音翻译的方法,利用语言展现基于听力的汉语语音翻译的方法以及使用相同语言学习外国语言的方法
机译: 一种能够将包括发音的预定符号的韩文语音符号显示为语音的系统,以及使用该系统显示包括作为发音的预定符号的韩文语音符号的方法和系统的显示语音的方法。朝鲜语的汉语发音系统以及如何用朝鲜语音标写汉语发音