发布时间:2020-06-04 阅读数:396
吴树兴 张秀琴
摘? 要:近年来,随着语音信号处理技术的发展,合成语音在很多场景下已经能够满足实际的基本要求,但在自然度上方面,还需要进一步提高和改进。在汉语语音合成中,韵律结构的预测对于自然度的影响非常大,如何精确预测韵律结构,成为语音合成技术中需要解决的重要问题。该文结合注意力机制将深度神经网络双向RNN模型用于汉语韵律词的预测,得到的预测结果表明,具有注意力机制的双向RNN模型在进行韵律词的预测方面能够获得比较准确的效果。
关键词:韵律词? 双向RNN? 注意力机制? 深度神经网络
中图分类号:TP391 ? ?文献标识码:A 文章编号:1672-3791(2019)09(c)-0023-02
很多学者采用HMM模型,神经网络等技术对韵律结构进行预测,取得了不错的效果,但仍然得不到令人满意的效果。韵律词的预测可以说是韵律结构预测是基础,该文将采用深度神经网络,结合注意力模型对韵律结构中的韵律词预测进行尝试。
1? 汉语韵律结构
在汉语语言中,为了表达语义和情感,在连续的语流中,音节的发出不是连续的而是一组一组发出的,我们把这样的一组音节称为节奏群。同一节奏群中的音节之间紧密连接,其整体语调曲线也较连贯,不同节奏群之间会稍有停顿。节奏群里的最后一个音节与前边的音节不同,常以特殊边界形式表示,随后的节奏群开始的基频要重置,以上这种语音片段分分合合的结构被称作韵律结构。韵律结构是韵律特征主要部分,对生成语音的自然度和可懂度有着重要的影响,只有在连续的语流中,每个音节对应的韵律参数与当前的上下文语境协调一致时,才能得到自然度、清晰度和可懂度较高的语音结果。韵律结构主要是指韵律层级信息,包括不同的层级边界信息及不同韵律层级的词或短语的构成等信息[1]。一般来说,汉语中的韵律层级结构可分为:韵律词、韵律短语以及语调短语这3个层次。
2? 词向量及语言模型
在自然语言处理中,需要将词表示成模型可处理的表示方法,比较流行的两种表示方法是One-Hot表示和词向量表示。词向量表示可以在任意两个词之间建立关联,这种向量表示方法使相关或者相似的词,在向量空间上距离更为接近。向量的距离可使用欧氏距离来衡量,也可以用余弦夹角来衡量。词向量可以表征词语深层的语义信息,同时它是一种低维实数向量,词向量是伴随着对神经网络语言模型的研究而提出的,2013年一款将词表征为实数值向量的工具Word2vec[4]被开发出来。由Word2vec训练出的词向量可以用来做许多自然语言处理相关的工作,比如词性分析、聚类、分词等。词向量的维度一般在100维以下,就可以很好地表示词与词之间关联了,因此,避免了高维度输入特征带来的模型训练和学习的负担。另外,词向量具有较好的可移植性,能够在自然语言处理范围中作为输入特征处理多种任务,对于神经网络来说通用性较好。
3? 基于深度神经网络的韵律结构预测模型
韵律词的预测是韵律结构预测是基础。只有准确地预测出韵律词,再预测其他韵律结构,才能在语音合成中合成自然度高的语音。深度神经网络中的循环神经网络(RNN)对于处理seq2seq的序列预测问题有着较好的效果,这里引入RNN对韵律词进行预测。
我们采用双向RNN编码器,并使用注意力机制[3],与RNN解码器构成韵律词预测模型,如图1所示。图1中的解码器的序列输出与编码器的序列输入数目相同,输出序列的取值只有{0,1}二值序列,如果为0则表示前词和后词一起构成同一个韵律词,如果为1则表示前词和后词各自构成韵律词,也就是标志着前一个韵律词的结束边界和后一个韵律词的起始边界。形成标注数据时,将分词Xt所对应的标签0或1与输出Yt进行损失函数的计算,然后训练权值。注意力采用全局方式,权值分配按照距离和相似度来进行计算。
4? 实验结果及分析
该语音合成使用的标注语料是由清华大学人机交互与媒体集成研究所完成(简称TH-CoSS),共5406句,其中5000句为训练语句,文件为TH_CoSS.txt,其余406句为测试集。进行韵律结构的预测主要分为如下4个步骤。
第一步,进行分词,采用全网新闻数据(SogouCA),大小为2.1G,对文件中存在问题的数据进行处理,得到干净的全文本数据,使用中文分词开源工具jiaba运行jieba_seg.py文件進行分词,得到的分词文本语料与己经分好词的标注语料(TH_CoSS.txt)合并,作为词向量训练的输入数据。
第二步,使用工具word2vec进行词向量训练,在训练词向量时选择,我们训练出来的词向量最终是要用于训练网络模型的,也就是说用于训练网络模型的标注语料中的词需要在词向量表中被找到。
第三步,使用训练语料查找词向量,同时使用C编制的小程序按照分词结果将韵律词标识为0/1,形成训练数据。
第四步,将训练数据输入神经网络模型,进行训练,然后使用测试集进行统计。获得的预测结果表1所示。
从表1中可以看出:(1)随着词向量维度的增加,相应的模型训练时间也增加了。(2)随着词向量维度的增加,韵律词预测错误率有所下降,在20维达到最小之后随着词向量维数增加,错误率不会进一步降低反而有少许升高。因此,适当地增大词向量维数可以提高模型的预测能力,但是当维数过大时,韵律词错误率不会有改善反而增加了模型训练时间。
5? 结语
该文采用深度神经网络双向RNN模型并结合注意力机制对汉语语音的韵律词进行了预测,结果显示采用深度神经网络模型对韵律词进行预测是比较有效的,进一步提高预测精确度仍然是今后的努力方向。
参考文献
[1] 贺琳,初敏,吕士楠,等,汉语合成语料库的韵律层级标注研究[A].第五届全国语音学学术会议论文集[C].2003:323-326.
[2] Mikolov T,Yih W T,Zweig G.Linguistic Regularities in Continuous Space Word Representations[A].In HLT-NAACX,Association for Computational Lingaistics[C].2013.
[3] Vaswani,Ashish,et al.Attention is all you need.Advances in Neural Information Processing Systems[Z].2017.
编辑整理:科学技术创新杂志社编辑部 官方网站:www.hljkxzzs.com
上一篇:提高油田电网运行可靠性的探讨
下一篇:自主导航水下勘测机器人