本文深入探讨了 a16z 对 AI 语音助手的洞察,全面剖析了其发展机遇、技术架构、未来趋势,以及在 B2B 和 B2C 领域的应用潜力。
撰文:SenseAI
Phone calls are an API to the world — and AI takes this to the next level!
电话呼叫是通向世界的 API —— 而人工智能将其提升到了一个新的水平。
本篇文章深入探讨了 a16z 对 AI 语音助手的洞察,全面剖析了其发展机遇、技术架构、未来趋势,以及在 B2B 和 B2C 领域的应用潜力。
现在正是重新定义电话的时代。得益于最新的人工智能技术,人们不再需要亲自打电话了。他们只会在通话真正有价值时才选择通话。
对企业来说,这意味着:
1、节省人工呼叫所需的时间和劳动力成本;
2、有机会重新分配资源以增加收入;
3、通过提供更加合规和一致的客户体验来降低风险。
对消费者而言,语音助手能够提供与人类相媲美的服务,而无需支付额外费用或与真人进行匹配。目前,这包括了治疗师、教练和陪伴服务——未来,这种服务可能会扩展到更广泛的基于语音的体验。正如大多数 toC 软件一样,最终的「赢家」是不可预测的。
在语音助手的各个层面,都隐藏着巨大的发展机遇——无论是构建基础设施、打造消费者界面还是提供企业级代理服务。针对面向消费者(B2C)和企业(B2B)的语音助手,我们归纳总结出以下关键特征:
1、重视构建效率
我们正在寻找那些对语音助手建设有明确见解的创始人,他们专注于优化语音助手的关键性能指标——速度、准确性、语气 / 情感等,以提供无缝的用户体验。
2、垂直专业化
我们认为,表现出色的语音助手很可能专注于特定垂类行业或领域,利用为特定用例定制的模型和紧密集成的工具集。这种方法更易于实施,并且能够更快地在市场上取得成功。
3、实际的业务范围
完全依赖人工智能处理所有重要通话是一项挑战——我们预计短期内,语音助手公司可能会采取一些「不可扩展」的策略。这可能包括对每个客户进行个性化调优,或者在必要时将通话转接给人工代理完成。
新一代的多模态模型,例如 GPT-4o,可能会通过单一模型同时处理多个层面,从而改变现有的架构结构。这不仅能够降低延迟和成本,还能支持更自然的对话界面——因为许多代理在传统的堆叠架构下,难以达到真正类似人类的对话质量。
语音助手的有效运作需要经过几个关键步骤:首先接收人类语音(自动语音识别,ASR),然后利用大型语言模型(LLM)处理输入并生成输出,最后以语音的形式回复给人类(文本到语音,TTS)。
在某些公司或方法中,单个或一系列 LLM 负责处理对话流程和情感分析。而在其他情况下,有专门的引擎来增加情感表达、管理对话中断等。提供「全栈」服务的语音供应商能够一站式提供上述所有功能。
面向消费者(B2C)和企业(B2B)的应用位于这个架构的顶层。即使使用第三方服务提供商,这些应用通常也会集成自定义的 LLM——这些模型通常也用作对话引擎。
创建语音助手时,开发者可以选择在全栈平台(如 Retell、Vapi、Bland 等)上启动他们的代理,或者自行组装所需的技术堆栈。在做出这一决策时,有几个关键因素需要考虑:
1、复杂性
全栈解决方案为启动语音助手提供了一种简化的方法——它们隐藏了基础设施的复杂性,同时保留了自定义和调优的可能性。这包括从添加提示或知识文档(如 Retrieval-Augmented Generation, RAG)到集成大型语言模型(LLM)的各个方面。
2、灵活性
对于那些针对特定行业或用例构建产品的创始人来说,他们可能希望在堆栈的每个层面上拥有最大的操作灵活性,并尽可能减少延迟。在自行组装技术堆栈时,实现这种灵活性可能更加容易。
3、成本
全栈服务提供商可能会为每次调用增加额外成本,因为他们需要从中获得利润。然而,他们也可能有能力为大量用户提供更优惠的定价方案。对于大规模部署的语音代理来说,每分钟的成本差异,哪怕是几美分,也可能成为重要的考量因素。
4、控制
当出现问题时,语音代理的创始人需要能够迅速定位并解决问题——尤其是对于那些对准确性要求极高的用例。他们也可能希望对每一层的技术有深入的了解和控制。采用自行组装的技术堆栈可能会使得这些需求更容易得到满足。
下图是目前在各个技术层面上的一些领先参与者。这份列表并非详尽的市场地图,而是代表了语音助手创始人最常提及的一些名字。
我们预期,随着多模态模型的兴起,整个技术栈将会经历重大变革。
我们已经见证了 B2B 语音助手领域经历了三波主要的技术浪潮:
IVR(交互式语音应答)
在传统的 IVR 系统中,消费者通过按键选择来与系统交互。例如,他们可能会听到提示:「按 1 转销售部门,按 2 转客户支持」,然后根据语音提示选择相应的服务。
AI 1.0(电话树)
AI 1.0 代表了 IVR 系统的一个进步,它允许消费者使用自然语言与系统交流。代理会尝试通过一系列对话流程来理解消费者的需求,并引导他们到达正确的服务选项。
AI 2.0(LLM)
AI 2.0 进一步发展了这一概念,允许更自由形式的对话。在这种模式下,AI 不会强制将消费者的每一句话与预定义的选项相匹配。相反,它旨在理解消费者的整体意图,并提供更自然、更人性化的交互体验。
许多语音助手公司采取了针对特定行业(如汽车服务)或特定任务类型(如预约安排)的垂直特定方法,原因如下:
将呼叫委托给人工智能时,对话流程的质量标准非常高——很快就会变得复杂和具体。为这些垂直领域的「极端情况」而设计的公司更有可能成功(例如,一般模型可能无法理解的独特术语)。
一些语音助手公司面临特殊的法规限制和认证要求。医疗保健行业(例如 HIPAA 合规性)是一个典型例子,尽管这种情况也出现在销售等类别中,这些类别在国家层面都有 AI 电话营销法规。
在某些类别中,为了提供良好的用户体验(无论是对企业还是消费者),可能需要进行大量的集成或专门的集成。除非是为了满足特定用例的需求,否则这些集成可能不值得构建。
语音是进入预订、续订、报价等核心客户行为的自然入口。在某些情况下,这将成为这些企业进入更广泛的垂直 SaaS 平台的机会——特别是当客户群仍然主要在线下运营时。
我们正处于从 1.0 AI 语音(电话树)向 2.0 AI 语音(基于 LLM)的过渡期。在过去大约六个月中,2.0 公司不断涌现。虽然 1.0 公司目前可能在准确性上占优,但从长远来看,2.0 方法在可扩展性和准确性方面将更具优势。
不太可能存在一种通用的企业语音助手模型或平台,因为不同垂直领域之间存在一些关键差异:
这可能预示着垂直领域语音助手的兴起,这些专业代理在用户界面(UI)设计上具有强烈的个性化需求。这要求创始人团队具备深厚的领域专业知识或对特定领域有浓厚兴趣。劳动力成本是许多企业的主要成本中心,对于能够「做对」的公司来说,总可寻址市场(TAM)是巨大的。
近期的机会可能出现在那些对劳动力依赖性强、劳动力短缺严重且呼叫复杂度较低的行业。随着客服人员变得更加熟练,他们将能够处理更复杂的呼叫。
一、基于 LLM,但不一定从一开始就完全自动化
AI 语音助手的「强形式」将是完全由大型语言模型(LLM)驱动的对话,而不是传统的交互式语音响应(IVR)或电话树方法。然而,鉴于 LLM 并非始终 100% 可靠,对于更敏感或价值较大的交易,可能会暂时需要「人为介入」。这突显了垂直特定工作流程的重要性,因为它们可以最大化成功的可能性,同时最小化人为干预和边缘情况的发生。
二、定制模型与提示 LLM 方法的结合
B2B 语音助手需要处理特定领域(或垂直特定)的对话,而通用的 LLM 可能不足以应对这些需求。许多公司正在根据每个客户的数据(数百或数千个数据点)调整模型,并可能将其推断回公司范围内的基础模型。定制调整甚至可能进一步针对企业客户进行。注意:一些公司可能会针对其特定用例调整「通用」模型(供客户使用),然后根据每个客户进行定制提示。
三、拥有领域专业知识的技术团队
鉴于 B2B 语音助手的复杂性,拥有一定的人工智能背景将有助于(即使不是必需的)构建和扩展高质量的解决方案。然而,了解如何将产品包装并进入特定垂直领域同样重要——这需要相应的领域专业知识或浓厚兴趣。您不必拥有人工智能博士学位就能构建企业级语音助手。
四、对集成和生态系统有深刻的洞察
与上述情况类似,每个垂直领域的买家在购买前通常希望看到一些特定的功能或集成。实际上,这可能是产品在他们的评估中从「有用」转变为「神奇」的关键点。这也是从垂直领域开始构建产品的意义所在。
五、要么面向「企业级」市场,要么有强劲的产品主导增长(PLG)趋势
对于那些收入主要集中在顶级公司 / 供应商的垂直行业,语音助手公司可能会从企业级市场开始,最终通过自助产品「渗透」到中小企业。中小企业客户迫切需要解决方案,并愿意尝试各种选项——但他们可能无法提供足够的数据规模 / 质量,让初创公司将模型调整到企业级水平。
到目前为止,主导消费者市场的人工智能语音助手来自大型公司,例如 ChatGPT Voice 和 Inflection 的 Pi 应用。消费者语音助手的发展较慢有几个原因:
在 B2B 领域,语音助手主要通过替代现有的电话呼叫来完成特定任务。对于面向消费者的代理来说,用户必须选择继续参与,这更具挑战性,因为语音交互并不总是方便的。这意味着产品需要有更高的吸引力。
消费者语音助手的第一个也是最明显的应用是用人工智能替代昂贵或难以获得的人工服务。这包括治疗、指导、辅导等——任何可以基于对话并虚拟完成的服务。
然而,我们相信 B2C 语音助手的真正潜力可能尚未完全展现。我们正在寻找那些能够利用语音的力量,创造出以前不存在的新型「对话」的产品。这可能会重塑现有服务的形式,或创造出全新的服务。
对于提供卓越用户体验的产品,语音助手提供了一个前所未有的机会,可以以前所未有的水平与消费者互动——真正模仿人际联系。这可能体现在代理作为产品本身,或语音作为更广泛产品的一种模式。
一、明确解释为什么声音是必要的
我们期待看到那些能够清晰阐述语音如何为产品带来独特价值的产品和创始人——而不仅仅是为了使用语音而使用。在许多情况下,与文本界面相比,语音界面实际上是不利的,因为它使用起来更不方便,且获取信息的效率更低。
二、明确解释为什么实时语音是必要的
尽管语音的使用存在挑战,但实时语音的使用难度更大(与异步语音消息相比)。我们期待看到创始人能够理解为什么他们的产品需要围绕实时对话构建——也许是为了提供像人类一样的陪伴、练习环境等。
三、从拟物化到预人工智能「产品」
我们怀疑强形式的产品不会简单地复制人与人之间的对话,而是将人工智能语音助手作为人类服务提供者的替代。首先,达到这样的标准是困难的——但更重要的是,有机会利用人工智能更高效、更愉快地提供同样的价值。
四、垂直化到模型质量不决定胜者的程度
领先的通用消费级 AI 产品(如 ChatGPT、Pi、Claude )拥有高质量的语音模式。它们能够有效地参与多种类型的对话和互动。而且,由于它们拥有自己的模型和堆栈,它们很可能在短期内在延迟和对话流方面取得胜利。
我们期待看到初创公司通过针对特定类型的对话进行定制或调整,或构建为语音助手体验提供更多背景和价值的 UI 而取得成功——例如,随着时间的推移跟踪进度,或以有主见的方式引导对话 / 体验。
参考材料
https://a16z.com/ai-voice-agents/
https://gamma.app/docs/a16z-Real-Time-Conversational-Voice-AI--m3v486p98gt7jol?mode=doc
【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。