语料库

1 King_tts_003语料库

1.1 文本与标注

语料库使用购买自海天瑞声公司的King_tts_003语料库,该语料库由专业的标准女播音员录制,总时长为15小时,近2万个句子。其中标注包括了拼音、韵律(韵律边界与重音)、音素发音时长、声韵母标注。语音文件以44.1 KHz,16bit,双音道,windows的无压缩PCM格式存储。除了此外,该语料库还提供了记录EGG(electroglottography)信号的音频。

声调的标记格式

采用数字1、2、3、4、5,代替《汉语拼音方案》中声调阴平(ˉ),阳平(ˊ),上声(ˇ),去声(ˋ),轻声(不标调)这几个标调符号

韵律的标记格式

韵律分成四级,分别用#4,#3,#2, #1表示。

#4 :
(1)一个完整语意的句子,切除前后可以独立成为一个句子,从听感上调形是完全降下来的,有明显的停顿。 (2)如果是以二声词结尾的短句,这个二声的词被拖长音,且与后面是转折的关系的,有明显的停顿。
#3 :
通常标在一个韵律短语后面,有时会是一个词,从听感上调形是降下来的,但不够完全,不能独立成为一个语意完整的句子。
#2 :
(1)表示被‘重读’的词或单个字(为了强调后面),有停顿,调形上有小的变化, 有‘骤停’的感觉。 (对于单音节词如果是被‘拖长音’,给#1;如果是‘骤停’要给#2 ) (2)并列关系的词如果被强调重读,给#2;如果是很平滑的,给#1。
#1 :
只是韵律词的边界,通常没有停顿

声韵母与停顿的标记格式

标注符号采用a,b,d,s四种标记符号进行标注,标注符号的意思如下:
  • a表示中文汉字的声母。
  • b表示中文汉字的韵母。
  • d表示句中的静音长度小于100ms的停顿。
  • s表示句子的起始点和结束点以及句中大于100ms的停顿。

声韵标注的具体规则

  1. 中文汉字拼音的声母用a表示,韵母用b表示。
  2. 其中有一些汉字音节以元音开头,称为零声母音节,如a/o/e/ang/eng/en/ai/ei/ao/ou/an/er/,我们用标记点a来进行标注。
  3. 其中有一些汉字是特殊读音,仅仅表示鼻子发出的气流,如m/n/ng/,分别对应汉字(呣,嗯,嗯),我们用标记点b来进行标注。
  4. 汉字发音为yu/yi/wu/的为整体认读音节,但我们此次把以w,y为声母加韵母的拼音按照声韵进行切分。

举一个例子

#1就怕#2自己的#1俗气#3亵渎了#2普者黑的#1风景

wo3 jiu4 pa4 zi4 ji3 de5 su2 qi4 xie4 du2 le5 pu2 zhe3 hei1 de5 feng1 jing3

2 语料库的获取

中文语料库

目前网络上尚未有免费的语料库,需要自行构建语料库或者是购买公司或者大学的语料库。对于自行构建语料库来说,除了韵律部分需要人工标记之外,其他部分实际上可以通过工具实现标注,例如字音转换,分词,词性标注,音素发音时长。

英文语料库

ARCTIC数据库是由卡内基梅隆大学(CMU)语言技术研究所开发的英文朗读语音数据库[51]。最初是用来训练基于单元挑选(Unit selection)的语音合成系统,后来成为基于HSS英文系统训练的通用数据库。该库包含1132句文本,选自文化作品数字化项目“古腾堡计划”中的两个英文短篇故事[52]。共有7名说话人参与录音,其中BDL、SLT、CLB和RMS四位说话人使用美式英语,其余三位是有加拿大、苏格兰及印度口音的英语母语说话人。为便于评测,本论文中的使用四位美式英语说话人的数据训练英文的声音模型。ARCTIC中另外一位说话人Roger也是美式英语,与其他人的数据独立发行,大量用于Blizzard Challenge测试中。ARCTIC数据库的上下文标注数据由开源语音合成系统Festival[53]的前端文本分析模块得到,使用由名古屋工业大学Tokuda实验室发布的以音素为单位的标准英文上下文标注格式。

CMU_ARCTIC speech synthesis system [OL] .http://festvox.org/cmu_arctic/index.html .2012

EMA数据库[54]是由南加州大学SAIL实验室开发的使用电磁设备记录发声器官数据的英文情感语音数据库。共包含2名女性(JN、LS)和1名男性(AB)美式英语母语说话人。录音文本共包含10句英文语料,每名说话人用每种情感将一句语料重复录制5次。然后通过一批测听人员对每条录音情感表现的打分,根据平均意见,决定哪些录音是有效的情感语音数据。这个数据库包含语音波形和同步录制的舌位动态信号,本身是用于研究情感语音的声学表现以及发声器官协同建模的小规模音库。在本文中,将用于学习中性语音到情感语音转换的声学参数变换规则。由于EMA只是用于进行声学分析,没有提供标注。因此,使用Festival的前端文本分析模块得到了与ARCTIC相同格式的英文上下文标注。

对于端到端的语料库,可具体参见github tacotron的复现项目,各自使用了不同的语料库