Triple M: A Practical Text-to-speech System With Multi-guidance Attention And Multi-band Multi-time LPCNet

 

Note: Testing text is not shown in the training set, and it is converted into system input (Chinese Pinyin with tone and pause) through the pre-trained front-end model.

 

Part1: Audio samples synthesized by the base text to feature model and the multi-guidance text to feature model (using the original LPCNet as the vocoder).

example1:虎目之中发出森冷的寒芒,这老虎正是所谓的烈虎。

Base text2feature model Multi-guidance text2feature model
         

example2:这样的数据是极其荒谬和可笑的。

Base text2feature model Multi-guidance text2feature model
         

example3:总而言之,这是很苦的差事,当地的法庭往往人手不够,于是需要周边城市的法院支援。

Base text2feature model Multi-guidance text2feature model
         

example4:不过须臾之间,一条厚厚的大棉被劈头盖脸地罩了过来,把明兰上下左右全都包住了。

Base text2feature model Multi-guidance text2feature model
         

 

 

Part2: Long sentences synthesized by the base text to feature model (failed examples), single GMM-based attention model (for comparison) and the multi-guidance text to feature model (using the original LPCNet as the vocoder).

long example1:经历的事情多了,人的性格就会慢慢改变,后来我们渐渐明白,成长需要付出代价,这或许就是人的一种自我保护机制,因为环境和挫折改变,悄悄告别了从前的自己,性格也开始变得冷淡起来,或者说更为理性,只有对家人还是一样温暖,这种脱胎换骨的改变,没有人能对你感同身受,可能有的人一辈子也无法体会到,老话都说,不经历大灾大难,很难做到心如止水,所以,如果你此刻正感受到痛苦,千万别放弃,相信度过痛苦,绝对会成就不一样的自己。

Base text2feature model Single GMM-based attention model Multi-guidance text2feature model
        

long example2:最终,他在最后一刻被打了下来,我们胜了,还要五个乐高人也被留了下来接受训练跟着定位装置,我们到了一座火山脚下,我们坐着车一路开进了云里,可又不像云,因为云没有这么大一片的,听了当地居民的谈话,才知道这叫云海,在云海里的视线越来越模糊,能见度越来越低了,只能看见距离两米内的东西,突然,前面出现一块大石头,但司机有惊无险的躲了过去,可是又有一块大石头从山上飞了下来,车子也被撞到了很远的地方,还好经验丰富的老司机带我们走出了云海,来到了山上的火山脚下,一下车,我便马上冻的全身发抖,但我一转身,又被热得像夏天里的狗一样,真是冰火两重天啊!

Base text2feature model Single GMM-based attention model Multi-guidance text2feature model
        

long example3:首先,像小户型的房子,一般可能都不会有明确的分区,大部分都是连体的,这样的房子相对来说其实风水布局的难度较大,一般这样的房子,极其容易引起运势的波动包括各个方面比如说财运事业婚姻健康等等方面,那么这样的房子在风水中就属于磁场比较弱的,而且极其容易受到外界以及里面的干扰,为什么这样说呢,打个比方,你家里面装一台冰箱可能刚好就和厨房相冲,这样就属于水火相济,再打个比方,家里稍微移动一下格局可能就导致风水大战这种形势,那么这种情况下如何来化解呢?

Base text2feature model Single GMM-based attention model Multi-guidance text2feature model
        

long example4:二零二零年11月份,应白校长之邀,来一中给老师们讲课,一个大大的会场,从头做到尾,登台十年的我有股莫名的激动和震撼,这种感觉比给其他班次要强烈很多,我深知,讲课的对象非同一般的学员,这些人都是战神,每天在知识的海洋遨游的,一中的作业审批是不过夜的,有的老师听课还带着试卷和作业题来的,我在台上多长时间,就会占用老师们多长时间,所以责任重大,一堂课下来,老师们的认真倾听,让我看到这个讲台不是听内容的红火热闹,不是看讲者有没有气场,更不是看讲者什么身份,这堂课深深教育了我,一堂课是要有温度的、是要通达心灵的、是可以发生思想碰撞的、是可以有所启发的,教学相长,感慨颇多。

Base text2feature model Single GMM-based attention model Multi-guidance text2feature model
        

long example5:大家都知道红枣是能够补血的好东西,而且吃起来非常的香甜,本身的效果就非常棒要是加上枸杞的话,两种食物的完美结合,一定是效果更佳的,一定能够帮助你们排除湿气,而且两种一起煮味道更香甜~~经常喝还能够防止失薏米本身就有排湿气以及毒气的效果,若是再加一些枸杞,不仅可以让味道变得更好,而且还能尽快排湿毒,当体内毒素和垃圾慢慢排出后,体重自然也会降下来,那很多的妹子应该是很开心的,我们常见的食用方法就是将薏米洗净控水,用小火慢慢烘培直到炒出香味后再放入一些枸杞,加一点蜂蜜,这样泡出来的味道会更棒。

Base text2feature model Single GMM-based attention model Multi-guidance text2feature model
        

 

 

Part3: Audio samples synthesized by the original LPCNet and the multi-band multi-time LPCNet (using the multi-guidance text to feature model).

example1:强撑着道:“你念得……很好,只是错了几个字而已,不妨事的,慢慢学就好。”

Original LPCNet Multi-band multi-time LPCNet
         

example2:哼,那就要命一条要头一颗,真的无路可走,她也不会客气。

Original LPCNet Multi-band multi-time LPCNet
         

example3:想到这里,明兰心里反而通透了,舒展着小肚皮,沉沉睡去了。

Original LPCNet Multi-band multi-time LPCNet
         

example4:明兰浑身哆嗦着,迅速抬头四下看,只见小船被灯笼照得通明。

Original LPCNet Multi-band multi-time LPCNet