Voice AI下个界面革命 | 迈克·德雷施 | 语音交互 | 上下文层 | 行业采用 | 合规性 | 重写软件经济学 | 端到端 | 分发的重要性 | 人机移交

大家好，这里是最佳拍档，我是大飞今天我们来聊一个AI领域可能被大家忽视的一个重要领域 Voice AI，也就是语音人工智能很多人的第一直觉可能会是这不就是营销电话里的机器人客服嘛或者就像ChatGPT里的实时对话那样但是绝大多数人还没有意识到 Voice AI可能正在经历一个的转折点

它也许会成为一次真正意义上的界面革命最近我听了Verticals的一期访谈嘉宾是贝塞麦风险投资（Bessemer Venture Partners）的合伙人迈克·德雷施（Mike Droesch）贝塞麦是全球最顶尖的风险投资机构之一

曾经投资过Twilio、Auth0、Pinterest等科技公司而迈克·德雷施带领他的团队在Voice AI赛道做了将近两年的系统性研究投资了医疗AI记录公司Abridge、销售对话分析公司Rilla 以及语音AI基础设施平台Vapi等明星公司

就在不久前，Vapi刚刚完成了B轮融资估值达到了5亿美元在这期访谈里迈克·德雷施分享了很多来自一线的反直觉判断今天我就把他的核心观点整理出来让大家了解到Voice AI这个赛道真正在发生什么以及它为什么可能会成为AI时代最被低估的革命首先，Voice AI到底为什么重要呢？很多人会说

因为语音交互更自然、更方便解放了双手但是迈克·德雷施的核心论点比这个要深刻得多他认为，语音之所以重要不是因为它更自然、更好用而是因为它从根本上提高了数据流入AI的带宽我们现在和AI交互的主要方式是无非是打字、点击、填写表格这些都是非常低带宽的交互方式你传进去的信息是离散的、碎片化的

而且是经过你大脑过滤和精简的比如你在网上申请理赔需要填写一张长长的表格你只会填写表格上要求的那些信息很多你觉得不重要的细节或者你当时没有想到的信息根本不会出现在表格里但是语音不一样

当你说话的时候 AI同时接收到的信息要丰富得多它不仅能听到你说了什么内容还能感知到你的语气、你的停顿、你的情绪、你的措辞习惯甚至你在哪个问题上犹豫了一下这些非语言信息加在一起所传递的信息量远远超过打字所能传递的带宽提高了输出的质量自然就会跟着变迈克·德雷施的逻辑非常清晰

当流入机器的数据更多、更丰富流出的结果就会更好、更准确、更有针对性这带来的将不只是线性的提升而是一种质变基于这个逻辑迈克·德雷施把Voice AI定义为一个新的上下文层（context layer）而不是一个能接电话的功能这两种定义方式的差别非常非常大如果只是个功能，那它就是锦上添花

有没有都行但如果是上下文层它就是整个软件系统里的基础设施是所有智能决策的数据来源这个定位直接决定了Voice AI的天花板有多高德雷施指出，人类的说话其实是一种更接近思维流的表达方式

当你和别人聊天的时候你的情绪、逻辑断点、隐含的顾虑全都会自然而然地给带出来这就是为什么语音数据对AI来说质量天然比文字更高 Voice AI不只是换了一个输入方式它在根本上改变了AI能看到多少的真实世界以前的AI只能看到我们愿意写下来的那些结论和决定

而现在的AI能看到我们得出这些结论和决定的整个过程随后德雷施道出了一个非常反直觉的发现他说，最让他意外的一件事是哪些行业的Voice AI采用速度最快他原本以为最先采用Voice AI的会是那些互联网友好型的行业比如电商、互联网服务、在线教育这些本来就数字化程度很高的行业结果恰恰相反

跑得最快的反而是监管最严格的行业比如医疗、保险、金融服务、法律这乍一听这确实很反直觉这些行业通常被认为是最保守的合规流程复杂，决策链条长新技术进来往往会遇到很大的阻力但迈克·德雷施的解释非常有说服力

他说，这些行业之所以跑的快恰恰是因为它们对于控制的要求极高我们拿医疗行业来举例在一次和患者的电话里 AI agent在释放任何健康信息之前必须先严格验证对方的身份包括确认生日核对保单编号，回答安全问题等等每一个环节都要有严格的对话关卡（gate）不能有任何的疏漏

这种对流程和控制的极致需求反而和Voice AI平台的能力高度契合好的Voice AI平台本来就是为精细控制对话的每一步设置严格的评估（eval）机制而生的它可以精确地规定AI在什么情况下可以说什么在什么情况下必须验证身份在什么情况下必须移交人工每一步操作都有详细的日志记录

完全符合医疗行业的合规要求这个发现对做产品的人来说有非常深的启示我们总以为灵活是产品最大的卖点但是在某些场景里可控才是真正的价值主张医院不需要一个随机应变、能和患者聊家常的AI

他们需要一个绝对按规矩来、不会泄露患者隐私、但是又能24小时不间断运转的AI 所以，能否在合规性上做到极致反而是打开这些大市场的钥匙而且那些门槛最高的行业一旦你进去了就不容易被赶出来因为客户的切换成本极高这是一种比技术壁垒更持久的产品黏性随后

德雷施贡献了整个访谈里我觉得最重要的一个观点 Voice AI正在重写软件的经济学因为它改变了整个SaaS行业的商业逻辑 SaaS的逻辑是什么？

是让人工作得更高效你花3万美金一年买一套会计软件本质上是在提升你公司会计的生产力所以软件预算来自企业的IT部门对标的是工具成本是一个相对固定的小盘子但是Voice AI不一样当它真的能端到端完成一项工作的时候整个逻辑就变了它不是在让员工更高效而是在直接替代人工这时候软件的预算就不再来自IT部门而是来自人力成本、来自企业整体运营支出的大盘子这个盘子

比IT部门的工具预算要大得多得多德雷施举了一个非常具体的例子一个传统的会计类SaaS工具年合同额（ACV）大概是3万美金但如果是AI Agent版本真正能端到端完成整个会计工作流包括从发票录入、凭证生成、银行对账到税务申报、财务报表生成全部由AI独立完成

那么它的年合同额可以达到15万美金同样的客户，同样的问题 5倍的价格差距这不是因为厂商漫天要价而是因为预算的来源变了你是在和企业原来雇那个会计师的工资竞争一个初级会计师的年薪大概是6万美金你收15万美金一年相当于两个半会计师的工资但是AI可以24小时工作，不用休息不用交社保

不用请假不会辞职，对企业来说反而更划算当然，这里有一个非常重要的前提那就是必须真的能做到端到端如果你的产品只是帮人处理了工作流里的一个小环节最后还是要靠人来收尾那这个定价逻辑就不成立这也是为什么德雷施反复强调

不要去做一个辅助性的语音Agent 要么拥有整个工作流要么就是在给别人做功能接下来的问题是 Voice AI的护城河到底在哪里呢？很多人可能会说延迟低、音质好、模型准确、音色自然这些就是Voice AI的壁垒但是德雷施的回答非常直接，不是这些都不是壁垒，这些只是入场券

做到了这些不代表你有优势但做不到你就直接出局了他以Vapi为例分析了Voice AI真正的护城河是什么在他看来 Vapi建立了两个真实的、难以复制的优势第一个优势是开发者社区 Vapi有大量的开发者自发涌入用它的API搭建各种各样的语音AI应用这些应用大部分是小项目

可能是一个个人开发者做的预约助手也可能是一个小团队做的客服机器人但其中一小部分人最终会把在Vapi上验证过的东西带进自己的企业项目变成Vapi的大客户这个成长路径跟Twilio、Auth0当年的路径非常像

Twilio就是靠开发者社区起来的很多开发者用Twilio的API做自己的应用当这些应用成长起来 Twilio就自然获得了大量的企业客户开发者飞轮一旦转起来就是非常强的分发壁垒德雷施说道分发（distribution）比以往任何时候都更重要因为现在达到功能对等（feature

parity）太容易了可能只需要几周时间在大模型时代技术的复制成本变得极低你花了几个月做出来的功能竞争对手可能几周就抄走了但是开发者社区和分发渠道是抄不走的第二个优势是评估（eval）飞轮每一次真实的对话都是宝贵的产品数据 Vapi收集了大量的真实对话数据

不断测试和优化自己的模型和对话流程建立出越来越强的自我改进机制这种飞轮一旦建立，跑的次数越多质量领先就越明显基础设施层面的竞争对手可以追上你的技术但是这个数据飞轮很难复制既然技术已经不是最大的问题那现在Voice

AI发展的最大瓶颈是什么呢？德雷施给出了一个非常微妙也非常准确的判断现在的瓶颈不是能力而是信任很多人担心的问题是，AI够不够聪明？能不能处理复杂情况？会不会听不懂奇怪的口音？会不会说错话？但德雷施的观察是这些技术问题其实在很大程度上已经解决了或者正在以非常快的速度被解决

真正的瓶颈不是AI能不能做而是企业敢不敢让AI做他说道我们正在进入一个Agent理解得比人们预期的更多的世界但是要让它真正连接到核心系统、帮你转账、结案一个理赔、完成一笔预订或者修改一条关键记录需要的是完全不同级别的信心这种信心不是靠好看的演示就能建立的你给客户看一个完美的演示

说我们的AI能处理99%的情况客户可能会觉得很厉害但他不会马上就把自己的核心业务交给你信任的建立靠的是治理框架（governance）、可观测性（observability）和不断重复的验证换句话说

买家不会因为感觉不错就放心他们需要看到这个Agent出了问题能不能被发现？能不能被追溯？能不能被回滚？德雷施说得非常直接买家的首席信息安全官（CISO）在不在意这个事跟你想不想没关系他们就在你的产品路线图上早晚要面对任何涉及企业核心系统的AI应用都必须经过CISO的严格审核

这是企业采购的必经环节接下来要聊的是行业里争议很大的一个话题人机移交（handoff）一直以来，行业里有一种隐含的假设 AI接了电话又移交给人工说明AI不够好，是产品失败的标志很多创业者都在追求100%的自动化率觉得自动化率越高产品就越成功但是德雷施对这个逻辑提出了不同的看法

他说，大多数人打电话进来本来就已经是在处理一个边缘情况（edge case）了你打电话给银行通常是因为网上银行办不了你打电话给保险公司通常是因为APP里找不到理赔入口你打电话给客服

通常是因为你已经尝试了所有自助方式都解决不了问题所以接进来的这通电话本身就可能是一个复杂情况这种情况下，AI能处理的就处理处理不了的流转给人工是完全合理的设计，不是失败关键不在于AI能处理多少比例的通话而在于移交的过程够不够顺畅移交得好，信任就建立了移交得不好，哪怕之前对话再顺

最后那一脚踢给人工的瞬间如果体验很差用户对整个系统的印象就会彻底崩塌所以德雷施说，人机移交的流畅程度是信任建立还是被摧毁的关键时刻现阶段 Voice AI实现里还是会有5%到10%的通话需要升级给人工处理德雷施的看法是，这不是问题真正的问题是，当评估体系足够成熟的时候

当我们对Agent的行为有足够的把握我们才会放心地把它连接到更多核心系统给它更多权限去执行更复杂的任务这是一个成熟曲线不是一个非此即彼的选择把移交设计成一个产品功能而不是一个失败后的兜底方案

本身就是高水准的产品思维聊了这么多，大家肯定很关心现在Voice AI赛道里哪些方向已经人满为患哪些地方还是真正的蓝海呢？德雷施在访谈里给出了一个非常实用的行业地图对很多做产品的人来说很有参考价值首先是已经过度拥挤的方向包括预约排程（scheduling）、催债（debt

collection）、招聘（recruiting）这些方向的逻辑很简单高频、高量、对错误容忍度相对高是最容易验证的场景所以最先被大量创业者涌入现在这几个方向，竞争已经非常激烈没有明显的差异化很难杀出来那还有机会的地方在哪里呢？

迈克·德雷施提到了几个很有意思的方向第一个是法律行业的案件受理（legal intake）比如人身伤害类诉讼的初步案情收集这是一个复杂度高、对话质量要求高、之前从来没人会想到用AI来做的场景但是从成本和规模来看这里的价值非常大第二个是专家网络访谈

德雷施投资的Qualitate就在做这件事他分享了一个非常具体的案例一家企业在做并购（M&A）前的尽职调查需要尽量多地做专家访谈了解目标公司所在行业的情况以前一个分析师一个电话要花一个小时还要记录、整理，非常耗人力用Qualitate的方案整个周末完成了200通专家访谈

周一早上所有的反馈都已经整理好了而且这个场景里语音的优势非常明显语气、停顿、情绪这些在邮件或者文字问卷里完全看不到但是在语音里能被准确捕捉到 AI可以根据专家的语气和停顿判断哪些信息是重要的哪些是专家有所保留的然后引导出下一个问题这是一个文字交互根本替代不了语音的场景

第三个是多模态混合场景（mixed modality）比如一边监控用户的屏幕操作轨迹一边用语音实时指导往右一点，点那个蓝色的按钮或者告诉用户你现在需要输入身份证号码这种客服体验是完全不同维度的

比单纯的语音或者文字指导要高效得多还有工业现场检测工人一边说话、一边拍照所有的语音数据和图像数据整合起来给AI判断自动生成检测报告这是把Voice AI真正带进物理世界的尝试比如屋顶检修、建筑工地质检、设备维护这类场景都有非常大的应用潜力最后德雷施给正在做Voice

AI的创业者们提出了几个非常核心的忠告第一个忠告，也是最重要的一个不要花时间去做一个只能完成工作流一部分、最后还是要移交给人工的语音Agent 这种东西很容易做出来，演示很好看对话很流畅，但本质上只是一个功能不是一个真正的业务真正值得花时间的是找到一个你可以端到端拥有整个工作流的场景

从第一声铃响到最终动作完成全部由AI负责只有这样你才有资格谈真正的规模效应才有资格谈从IT预算跳到人力成本预算才能建立真正的护城河而且这个工作流最好是经济价值很高的否则做了一堆低价值的自动化

就算跑得再顺，天花板也很低第二个忠告是关于定价的现在不要强行做基于结果的定价（outcome-based pricing）因为大多数场景里结果是很难精确定义和验证的现实中做得不错的公司用的都还是平台费+使用量的组合对买卖双方都更清晰、更可预期等到某个场景的结果足够标准化、可验证了再切换到结果定价也不迟第三个忠告是关于融资的什么样的公司值得在这个时代拿到A轮融资呢？

德雷施说产品够不够神奇已经不是问题了现在几乎所有产品演示都很神奇他们更看重的是两个东西第一这个团队有没有清晰的飞轮理论他们打算怎么建立防御性不一定从第一天就要有但团队要能清晰表达这个路径第二，速度不是以前意义上的速度而是现在这个时代定义的速度从有产品到出现模仿者可能就是几周的事你必须跑得比以前快得多好了以上就是这期访谈的主要内容了希望能让大家对对Voice

AI这个赛道有一个更全面、更深刻的理解感谢收看，我们下期再见

Voice AI下个界面革命 | 迈克·德雷施 | 语音交互 | 上下文层 | 行业采用 | 合规性 | 重写软件经济学 | 端到端 | 分发的重要性 | 人机移交 | 蓝海方向 · 全文文字稿