AI 时代的多角色演播：打开声音世界的新宇宙

2023-07-0621:10

MetaPost

2023-07-06 21:10

MetaPost

2023-07-06 21:10

收藏文章

订阅专栏

你是不是也曾在畅享有声爽文时，因千篇一律的播讲形式而倍感苦恼？

是不是也曾期待有一款听书神器能让你感受到角色变化，深入情境获得沉浸体验？

在现实中，我们似乎更常听到这样的“AI 语音朗读”：单一音色播讲，无法区分各具特色的角色形象，长时间听书容易枯燥……

究竟什么才是新一代“AI 语音朗读”？相比单单追求“让用户听懂”的初衷，角色分明、声情并茂的演播能更好的吸引用户，这让火山语音嗅到了一个可以充分发挥自身优势、重新定义 “AI 语音朗读”的机会。

历经两年时间的用心打磨，目前团队形成了一套角色分明、情感丰富的「AI 多角色演播方案」，并作为首个 AI 有声小说领域高质量综合解决方案对外推出。所谓“AI 多角色演播方案”，即依托火山语音有声阅读场景 60+ 款优质音色构造的音色矩阵，通过 NLP 技术智能理解文本内容实现角色自动配音，形成媲美真人的多角色演播效果；此外，上述能力还结合有声创作流程落地创作平台，除实现规模化生产之外，还可满足差异化、精品化的内容定制需求。

“我们同番茄小说有着紧密的业务合作，在听书用户群体中孵化打磨方案，让效果表现更符合用户需求，以此助力我们在有声内容创作这个领域做专业做深入；更重要的一点，火山语音多年来在语音合成领域的技术积累和创新，更是我们炼成此方案的核心优势。”火山语音总结道。

PART 1.

超拟人效果构建竞争"护城河"

在小说演播场景下，要实现超拟人的精品效果，主要有以下几个难点：AI 音色能否适配小说中的各色角色？AI 能否进行情感化配音，通过情感演绎小说文本，展现小说人物性格特征和情感变化？在不同的情节下，角色能否做出诸如哭泣、大笑等「高浓度」的情感演绎？

千人千「声」打造精品「声音宇宙」

过去，传统语音服务商多从智能客服、语音助手起家，极少为阅读场景定制符合有声内容中角色人设的 AI 对话音色。面对如今网文的“爆发式增长”，火山语音历时两年时间围绕网文各类题材中的典型角色，着力打造出适配不同年龄、风格的 AI 音色矩阵。

目前，AI 配音家族已有60 多个精品音色，无论是穿越文里的睿智大女主，还是言情文中的霸气冷酷总裁，抑或是青涩校园中的鬼马少女，可以满足大部分小说的角色人设需求。快来感受下火山语音音库中的多样精品音色吧！

图 | 火山语音优质音色矩阵呈现

会「哭」会「笑」

多种情感演绎「以声传情」

在有声内容创作中，仅仅只有音色数量的积累还是不够的，如果在技术上无法达成媲美真人的效果水平，让霸道总裁、大女主用特定风格的声音讲故事，还是无法满足用户“沉浸式阅读”的需求。

为了让 AI 主播能「哭」会「笑」，像专业配音演员一样表达“深刻的人类情感”，火山语音还为每个 AI 音色赋予了开心、悲伤、愤怒、恐惧等多种感情，例如：

不仅如此，为了让不同情绪下的演绎更加贴合真人表达，团队还在“副语言”上进行了深入探索。“副语言”也称“类语言”，是指伴随话语出现的某些声音现象，包括语音要素特征，例如停顿、重音、语速、语调等；以及言语的功能性发声，例如笑声、哭腔、急喘、咬牙切齿等。

“我们针对'副语言'现象进行了精细化的建模还原，实现了有声书中常见的重音停顿、疑问反问、笑声哭腔以及各类叹息、叫喊声等，给用户带来更近一步的‘沉浸式体验’。”

PART 2.

除了效果 , 更关注成本与效率‍‍

其实对于火山语音来说，在声学技术层面实现高表现力的声音合成并不是最难的，更难的则是「AI多角色演播方案」如何能够更加低成本、批量化的高效率生产。例如在无人工标注的情况下，AI 能否像配音演员一样理解文本，自动区分旁白和对话？能否自动判定句子的情感、重音以及句间停顿？能否快速批量化地生产出高质量有声作品？这些问题，火山语音团队都在不断尝试解决。

01‍

突破传统生产瓶颈

AI 文本理解模型效率远超人工

在有声内容创作中，能否实现文本的语义理解并自动制作画本，是贴近多角色有声书批量化生产的关键。通常在精品 AI 有声书制作中，往往需要人工对文本进行标识，即划分出对话与旁白，并标识出每个角色的台词以及其表达的情感，但这一过程往往十分耗时耗力，造成精品 AI 有声书很难大规模批量生产的现状。

针对这一痛点，火山语音开发并应用了“AI 文本理解”模型 ，即一套多任务的长文本理解 AI 系统。基于预训练语言大模型在数百万章的小说文本上的大规模自监督预训练学习，通过小说人名识别、对话 - 说话人匹配以及人物指代消解三个任务，让“AI 文本理解”模型具备自动提取小说中对话角色、自动区分对话 / 旁白、自动判定对话所属的角色的能力。同时，为了让小说演绎情感丰富，团队还采用了对比学习得到句子情感表征，从而大幅提升对话情感的识别能力。

总体来说模型优化带来的成本降低以及产能提升的收益是显著的。在整体听感与纯人工标注齐平的前提下，AI 文本理解模型可以解放绝大部分的标注人力，大幅缩减标注的时间和成本，这意味着不必维持一个庞大的标注团队，也能让有声书量产成为可能，借助此模型精品 AI 有声书的制作效率得以大幅提升。

图 | 「AI 文本理解」模型

AI 有声内容创作平台

批量高效的生产工具

值得提及的是，火山语音还自主打造了 AI 有声内容创作平台，以实现 AI 多角色有声内容的批量高效生产。简单来说用户只需将目标书籍文本导入，即可由平台自动完成角色的抽取、对话 / 旁白的区分，同时判定对话所属的角色和情感。在配音环节，用户可以自主选择配置 AI 音色来匹配书中各角色，也可选择简单标定角色人设，依据平台内置策略一键配音。完成配音后，平台即会根据自动预测的信息完成音频的自动合成和拼接，仅需几小时便可完成一部数千章的成品有声书的生产！