大家好,这里是最佳拍档,我是大飞 今天我们来聊一个AI领域 可能被大家忽视的一个重要领域 Voice AI,也就是语音人工智能 很多人的第一直觉可能会是 这不就是营销电话里的机器人客服嘛 或者就像ChatGPT里的实时对话那样 但是绝大多数人还没有意识到 Voice AI可能正在经历一个的转折点

它也许会成为一次真正意义上的界面革命 最近我听了Verticals的一期访谈 嘉宾是贝塞麦风险投资(Bessemer Venture Partners)的合伙人迈克·德雷施(Mike Droesch) 贝塞麦是全球最顶尖的风险投资机构之一

曾经投资过Twilio、Auth0、Pinterest等科技公司 而迈克·德雷施带领他的团队 在Voice AI赛道做了将近两年的系统性研究 投资了医疗AI记录公司Abridge、销售对话分析公司Rilla 以及语音AI基础设施平台Vapi等明星公司

就在不久前,Vapi刚刚完成了B轮融资 估值达到了5亿美元 在这期访谈里 迈克·德雷施分享了很多来自一线的反直觉判断 今天我就把他的核心观点整理出来 让大家了解到Voice AI这个赛道真正在发生什么 以及它为什么可能会成为AI时代最被低估的革命 首先,Voice AI到底为什么重要呢?很多人会说

因为语音交互更自然、更方便 解放了双手 但是迈克·德雷施的核心论点比这个要深刻得多 他认为,语音之所以重要 不是因为它更自然、更好用 而是因为它从根本上提高了数据流入AI的带宽 我们现在和AI交互的主要方式是 无非是打字、点击、填写表格 这些都是非常低带宽的交互方式 你传进去的信息是离散的、碎片化的

而且是经过你大脑过滤和精简的 比如你在网上申请理赔 需要填写一张长长的表格 你只会填写表格上要求的那些信息 很多你觉得不重要的细节 或者你当时没有想到的信息 根本不会出现在表格里 但是语音不一样

当你说话的时候 AI同时接收到的信息要丰富得多 它不仅能听到你说了什么内容 还能感知到你的语气、你的停顿、你的情绪、你的措辞习惯 甚至你在哪个问题上犹豫了一下 这些非语言信息加在一起 所传递的信息量远远超过打字所能传递的 带宽提高了 输出的质量自然就会跟着变 迈克·德雷施的逻辑非常清晰

当流入机器的数据更多、更丰富 流出的结果就会更好、更准确、更有针对性 这带来的将不只是线性的提升 而是一种质变 基于这个逻辑 迈克·德雷施把Voice AI定义为一个新的上下文层(context layer) 而不是一个能接电话的功能 这两种定义方式的差别非常非常大 如果只是个功能,那它就是锦上添花

有没有都行 但如果是上下文层 它就是整个软件系统里的基础设施 是所有智能决策的数据来源 这个定位 直接决定了Voice AI的天花板有多高 德雷施指出,人类的说话 其实是一种更接近思维流的表达方式

当你和别人聊天的时候 你的情绪、逻辑断点、隐含的顾虑 全都会自然而然地给带出来 这就是为什么语音数据对AI来说 质量天然比文字更高 Voice AI不只是换了一个输入方式 它在根本上改变了AI能看到多少的真实世界 以前的AI只能看到我们愿意写下来的那些结论和决定

而现在的AI能看到我们得出这些结论和决定的整个过程 随后 德雷施道出了一个非常反直觉的发现 他说,最让他意外的一件事 是哪些行业的Voice AI采用速度最快 他原本以为 最先采用Voice AI的会是那些互联网友好型的行业 比如电商、互联网服务、在线教育这些本来就数字化程度很高的行业 结果恰恰相反

跑得最快的反而是监管最严格的行业 比如医疗、保险、金融服务、法律 这乍一听这确实很反直觉 这些行业通常被认为是最保守的 合规流程复杂,决策链条长 新技术进来往往会遇到很大的阻力 但迈克·德雷施的解释非常有说服力

他说,这些行业之所以跑的快 恰恰是因为它们对于控制的要求极高 我们拿医疗行业来举例 在一次和患者的电话里 AI agent在释放任何健康信息之前 必须先严格验证对方的身份 包括确认生日 核对保单编号,回答安全问题等等 每一个环节都要有严格的对话关卡(gate) 不能有任何的疏漏

这种对流程和控制的极致需求 反而和Voice AI平台的能力高度契合 好的Voice AI平台 本来就是为精细控制对话的每一步 设置严格的评估(eval)机制而生的 它可以精确地规定AI在什么情况下可以说什么 在什么情况下必须验证身份 在什么情况下必须移交人工 每一步操作都有详细的日志记录

完全符合医疗行业的合规要求 这个发现对做产品的人来说有非常深的启示 我们总以为灵活是产品最大的卖点 但是在某些场景里 可控才是真正的价值主张 医院不需要一个随机应变、能和患者聊家常的AI

他们需要一个绝对按规矩来、不会泄露患者隐私、但是又能24小时不间断运转的AI 所以,能否在合规性上做到极致 反而是打开这些大市场的钥匙 而且那些门槛最高的行业 一旦你进去了 就不容易被赶出来 因为客户的切换成本极高 这是一种比技术壁垒更持久的产品黏性 随后

德雷施贡献了整个访谈里我觉得最重要的一个观点 Voice AI正在重写软件的经济学 因为它改变了整个SaaS行业的商业逻辑 SaaS的逻辑是什么?

是让人工作得更高效 你花3万美金一年买一套会计软件 本质上是在提升你公司会计的生产力 所以软件预算来自企业的IT部门 对标的是工具成本 是一个相对固定的小盘子 但是Voice AI不一样 当它真的能端到端完成一项工作的时候 整个逻辑就变了 它不是在让员工更高效 而是在直接替代人工 这时候 软件的预算就不再来自IT部门 而是来自人力成本、来自企业整体运营支出的大盘子 这个盘子

比IT部门的工具预算要大得多得多 德雷施举了一个非常具体的例子 一个传统的会计类SaaS工具 年合同额(ACV)大概是3万美金 但如果是AI Agent版本 真正能端到端完成整个会计工作流 包括从发票录入、凭证生成、银行对账 到税务申报、财务报表生成 全部由AI独立完成

那么它的年合同额可以达到15万美金 同样的客户,同样的问题 5倍的价格差距 这不是因为厂商漫天要价 而是因为预算的来源变了 你是在和企业原来雇那个会计师的工资竞争 一个初级会计师的年薪大概是6万美金 你收15万美金一年 相当于两个半会计师的工资 但是AI可以24小时工作,不用休息 不用交社保

不用请假 不会辞职,对企业来说反而更划算 当然,这里有一个非常重要的前提 那就是必须真的能做到端到端 如果你的产品只是帮人处理了工作流里的一个小环节 最后还是要靠人来收尾 那这个定价逻辑就不成立 这也是为什么德雷施反复强调

不要去做一个辅助性的语音Agent 要么拥有整个工作流 要么就是在给别人做功能 接下来的问题是 Voice AI的护城河到底在哪里呢?很多人可能会说 延迟低、音质好、模型准确、音色自然 这些就是Voice AI的壁垒 但是德雷施的回答非常直接,不是 这些都不是壁垒,这些只是入场券

做到了这些不代表你有优势 但做不到你就直接出局了 他以Vapi为例 分析了Voice AI真正的护城河是什么 在他看来 Vapi建立了两个真实的、难以复制的优势 第一个优势是开发者社区 Vapi有大量的开发者自发涌入 用它的API搭建各种各样的语音AI应用 这些应用大部分是小项目

可能是一个个人开发者做的预约助手 也可能是一个小团队做的客服机器人 但其中一小部分人 最终会把在Vapi上验证过的东西带进自己的企业项目 变成Vapi的大客户 这个成长路径跟Twilio、Auth0当年的路径非常像

Twilio就是靠开发者社区起来的 很多开发者用Twilio的API做自己的应用 当这些应用成长起来 Twilio就自然获得了大量的企业客户 开发者飞轮一旦转起来 就是非常强的分发壁垒 德雷施说道 分发(distribution)比以往任何时候都更重要 因为现在达到功能对等(feature

parity)太容易了 可能只需要几周时间 在大模型时代 技术的复制成本变得极低 你花了几个月做出来的功能 竞争对手可能几周就抄走了 但是开发者社区和分发渠道 是抄不走的 第二个优势是评估(eval)飞轮 每一次真实的对话都是宝贵的产品数据 Vapi收集了大量的真实对话数据

不断测试和优化自己的模型和对话流程 建立出越来越强的自我改进机制 这种飞轮一旦建立,跑的次数越多 质量领先就越明显 基础设施层面的竞争对手可以追上你的技术 但是这个数据飞轮很难复制 既然技术已经不是最大的问题 那现在Voice

AI发展的最大瓶颈是什么呢?德雷施给出了一个非常微妙也非常准确的判断 现在的瓶颈不是能力 而是信任 很多人担心的问题是,AI够不够聪明?能不能处理复杂情况?会不会听不懂奇怪的口音?会不会说错话?但德雷施的观察是 这些技术问题其实在很大程度上已经解决了 或者正在以非常快的速度被解决

真正的瓶颈不是AI能不能做 而是企业敢不敢让AI做 他说道 我们正在进入一个Agent理解得比人们预期的更多的世界 但是要让它真正连接到核心系统、帮你转账、结案一个理赔、完成一笔预订或者修改一条关键记录 需要的是完全不同级别的信心 这种信心不是靠好看的演示就能建立的 你给客户看一个完美的演示

说我们的AI能处理99%的情况 客户可能会觉得很厉害 但他不会马上就把自己的核心业务交给你 信任的建立靠的是治理框架(governance)、可观测性(observability)和不断重复的验证 换句话说

买家不会因为感觉不错就放心 他们需要看到 这个Agent出了问题能不能被发现?能不能被追溯?能不能被回滚?德雷施说得非常直接 买家的首席信息安全官(CISO)在不在意这个事 跟你想不想没关系 他们就在你的产品路线图上 早晚要面对 任何涉及企业核心系统的AI应用 都必须经过CISO的严格审核

这是企业采购的必经环节 接下来要聊的 是行业里争议很大的一个话题 人机移交(handoff) 一直以来,行业里有一种隐含的假设 AI接了电话又移交给人工 说明AI不够好,是产品失败的标志 很多创业者都在追求100%的自动化率 觉得自动化率越高 产品就越成功 但是德雷施对这个逻辑提出了不同的看法

他说,大多数人打电话进来 本来就已经是在处理一个边缘情况(edge case)了 你打电话给银行 通常是因为网上银行办不了 你打电话给保险公司 通常是因为APP里找不到理赔入口 你打电话给客服

通常是因为你已经尝试了所有自助方式 都解决不了问题 所以接进来的这通电话 本身就可能是一个复杂情况 这种情况下,AI能处理的就处理 处理不了的流转给人工 是完全合理的设计,不是失败 关键不在于AI能处理多少比例的通话 而在于移交的过程够不够顺畅 移交得好,信任就建立了 移交得不好,哪怕之前对话再顺

最后那一脚踢给人工的瞬间如果体验很差 用户对整个系统的印象就会彻底崩塌 所以德雷施说,人机移交的流畅程度 是信任建立还是被摧毁的关键时刻 现阶段 Voice AI实现里还是会有5%到10%的通话需要升级给人工处理 德雷施的看法是,这不是问题 真正的问题是,当评估体系足够成熟的时候

当我们对Agent的行为有足够的把握 我们才会放心地把它连接到更多核心系统 给它更多权限去执行更复杂的任务 这是一个成熟曲线 不是一个非此即彼的选择 把移交设计成一个产品功能 而不是一个失败后的兜底方案

本身就是高水准的产品思维 聊了这么多,大家肯定很关心 现在Voice AI赛道里 哪些方向已经人满为患 哪些地方还是真正的蓝海呢?德雷施在访谈里给出了一个非常实用的行业地图 对很多做产品的人来说很有参考价值 首先是已经过度拥挤的方向 包括预约排程(scheduling)、催债(debt

collection)、招聘(recruiting) 这些方向的逻辑很简单 高频、高量、对错误容忍度相对高 是最容易验证的场景 所以最先被大量创业者涌入 现在这几个方向,竞争已经非常激烈 没有明显的差异化很难杀出来 那还有机会的地方在哪里呢?

迈克·德雷施提到了几个很有意思的方向 第一个是法律行业的案件受理(legal intake) 比如人身伤害类诉讼的初步案情收集 这是一个复杂度高、对话质量要求高、之前从来没人会想到用AI来做的场景 但是从成本和规模来看 这里的价值非常大 第二个是专家网络访谈

德雷施投资的Qualitate就在做这件事 他分享了一个非常具体的案例 一家企业在做并购(M&A)前的尽职调查 需要尽量多地做专家访谈 了解目标公司所在行业的情况 以前 一个分析师一个电话要花一个小时 还要记录、整理,非常耗人力 用Qualitate的方案 整个周末完成了200通专家访谈

周一早上所有的反馈都已经整理好了 而且这个场景里 语音的优势非常明显 语气、停顿、情绪 这些在邮件或者文字问卷里完全看不到 但是在语音里能被准确捕捉到 AI可以根据专家的语气和停顿 判断哪些信息是重要的 哪些是专家有所保留的 然后引导出下一个问题 这是一个文字交互根本替代不了语音的场景

第三个是多模态混合场景(mixed modality) 比如一边监控用户的屏幕操作轨迹 一边用语音实时指导 往右一点,点那个蓝色的按钮 或者告诉用户 你现在需要输入身份证号码 这种客服体验是完全不同维度的

比单纯的语音或者文字指导要高效得多 还有工业现场检测 工人一边说话、一边拍照 所有的语音数据和图像数据整合起来给AI判断 自动生成检测报告 这是把Voice AI真正带进物理世界的尝试 比如屋顶检修、建筑工地质检、设备维护这类场景 都有非常大的应用潜力 最后 德雷施给正在做Voice

AI的创业者们提出了几个非常核心的忠告 第一个忠告,也是最重要的一个 不要花时间去做一个只能完成工作流一部分、最后还是要移交给人工的语音Agent 这种东西很容易做出来,演示很好看 对话很流畅,但本质上只是一个功能 不是一个真正的业务 真正值得花时间的 是找到一个你可以端到端拥有整个工作流的场景

从第一声铃响到最终动作完成 全部由AI负责 只有这样 你才有资格谈真正的规模效应 才有资格谈从IT预算跳到人力成本预算 才能建立真正的护城河 而且 这个工作流最好是经济价值很高的 否则做了一堆低价值的自动化

就算跑得再顺,天花板也很低 第二个忠告是关于定价的 现在不要强行做基于结果的定价(outcome-based pricing) 因为大多数场景里 结果是很难精确定义和验证的 现实中做得不错的公司 用的都还是平台费+使用量的组合 对买卖双方都更清晰、更可预期 等到某个场景的结果足够标准化、可验证了 再切换到结果定价也不迟 第三个忠告是关于融资的 什么样的公司值得在这个时代拿到A轮融资呢?

德雷施说 产品够不够神奇已经不是问题了 现在几乎所有产品演示都很神奇 他们更看重的是两个东西 第一 这个团队有没有清晰的飞轮理论 他们打算怎么建立防御性 不一定从第一天就要有 但团队要能清晰表达这个路径 第二,速度 不是以前意义上的速度 而是现在这个时代定义的速度 从有产品到出现模仿者 可能就是几周的事 你必须跑得比以前快得多 好了 以上就是这期访谈的主要内容了 希望能让大家对对Voice

AI这个赛道有一个更全面、更深刻的理解 感谢收看,我们下期再见