Vol.92 回头听3月初的播客，感觉有点恍如隔世---串台藏金阁

时间飞逝：AI行业节奏的加速感

本期节目录制于2024年3月3日，与当前时间点（2024年4月下旬）相比，仅过去了一个多月，但AI行业已发生翻天覆地的变化。当时，OpenCLow尚未引爆舆论，关于春节后AI趋势的PPT总结也尚未发布——实际上，这份总结是在节目录制后才完成的。回听这段旧内容时，我常感到一种恍如隔世的错觉：行业变化的速度已快到需要以‘月’为单位更新认知总结，这让我有些力不从心。

“难道？以后要每个月以月为更新的频率来做PPT的总结吗？这个频率似乎有点过于快了，我有点力不从心。”

“回头听3月初的播客，感觉有点恍如隔世。”

为应对这一趋势，我正考虑在4月26日回国当天，结合刚结束的美国AI行业大会，推出一份‘热乎版’PPT解读——飞机上更新内容，落地后立即分享。若以两个月一次为节奏，或许更可持续。

OpenCLow：不是技术突破，而是‘恰逢其时’的工程组合

OpenCLow的爆火并非源于单一技术的颠覆性创新，而是一次工程层面的排列组合：它将已有技术（如Agent、虚拟机权限管理、IM集成）以新方式打包，恰好契合了当前用户感知与技术成熟度的交汇点。

其核心价值在于交互方式的迁移——从‘打开独立应用’变为‘直接嵌入飞书等IM工具’，让AI操作变得自然、低门槛。对核心用户而言，它未必是‘革命’；但对普通用户，这种‘无感嵌入’带来的体感跃迁极具穿透力。此外，开源生态的快速繁荣（如各地自发组织OpenCLow大会）进一步放大了其影响力—— anyone can host, anyone can extend。

“它其实相当于更多是一种打包，像拼积木一样，很多原材料可能都是OK的，但是它通过一种相对比较新的方式拼成了一个正好卡在了这个时间点适合的形态上。”

至于为何尚未出现大规模‘抄作业’产品？答案在于：OpenCLow仍需大量前置条件（如梯子、权限配置、命令行操作），对非技术用户极不友好。这恰恰留下了一个窗口期：谁能把复杂流程封装成友好界面，谁就可能主导下一阶段的大众市场。目前阿里等已推出类似开源项目，印证了这一趋势。

本地部署 vs 云端体验：信任与控制的权衡

在实操层面，OpenCLow的部署选择体现了用户对控制感与信任感的深层需求。我最初用云端版本跑任务（如每日9点监控智能眼镜库存），但很快意识到：云端版虽操作简单、成本低，却难以建立信任——尤其涉及账号授权、浏览器访问、本地文件处理时，总感觉‘不是自己的东西’。

最终我选择在闲置Windows笔记本上本地部署，虽经历三次失败（因教程多基于Mac，忽略Windows特有权限问题），但一旦成功，整个流程的掌控感与安全感显著提升。这与AI产品的演进逻辑高度一致：从‘能用’到‘敢用’，再到‘愿长期依赖’。

“云端的问题在于……你不太敢信任它，把你的比如账号给它，甚至你不太敢让它访问你本地的浏览器……你会觉得我需要一个在本地跑的。”

因此，我的建议是：初学者优先用云端体验（如Mix海外版零门槛、TikTok/Meet Max已支持自然语言安装）；进阶用户则可尝试本地部署，以换取更高自由度与数据主权。

扫地机器人启示录：从‘我去做’到‘它在做’

最近我家添置了一只长毛猫，地面清洁从‘偶尔打扫’变成‘日常刚需’。旧款圆形扫地机器人（带双圆盘拖布）问题突出：边角清洁无效、拖布需频繁手动清洗、越用越累赘——本质上，它仍是‘需要我参与操作’的工具。

升级为科沃斯T90 Pro后，体验截然不同：滚筒设计+自动喷水刮洗+污水回收，实现‘干净滚筒持续清洁’；边角伸缩+毛毡防刮设计，真正考虑真实场景；超长续航+3分钟回充10%电量，实现全屋一次完成。最关键是：清洁这件事，从‘我需要去做’变成了‘它自己在做’。

“用了这款之后，我突然意识到以前的自己耐心真好，可以等扫地机器人扫到一半，回去充两个小时再出来。”

这与OpenCLow的演进路径惊人相似：当AI从‘需用户高度配合’走向‘自主嵌入日常流程’，其价值才真正释放。如果你也在为养宠清洁发愁，T90 Pro值得认真考虑——尤其当前叠加国补，性价比突出。

部署与调试：从安装到接入的漫长磨合

在实际操作中，尽管教程作者基于自身经验快速完成部署，但普通用户在 Windows 系统上复现过程时，常因权限差异、系统兼容性等问题反复受阻。一次完整的安装可能耗时一两个小时，而后续接入飞书等平台又需额外调试。教程中被快速跳过的步骤（如命令行执行），在真实场景中往往需等待五至十分钟，期间用户极易怀疑自己操作失误或系统卡顿，进而陷入持续的不确定性焦虑。这种“教程快进 vs 用户慢速执行”的节奏错位，是导致体验割裂的核心原因。

“你就在过程中担心是不是我这儿出错了或者卡还是怎么样，就是你会有这种不断的这种事情乱七八糟。”

“为什么他点完不出报错，我就报错了？就这种乱七八糟问题又折腾了可能半个小时。”

技能配置：开放性与安全风险的双刃剑

所谓“Skills”，本质是为 Agent 增加特定能力（如访问推特、小红书等平台），其配置方式高度个性化：有人选择逐步交互式引导，有人则依赖封装好的预设脚本。这也解释了为何不同用户部署出的 Agent 表现差异巨大——需求不同、实现路径不同、配置深度不同。然而，当前市场上已有第三方提供“五百元上门安装+接入飞书+下 Skills”的服务，却潜藏严重安全隐患：若安装者植入木马，用户账号可能被完全接管。有第三方统计显示，大量 Agent 实际处于“裸奔”状态，其关联账号可被轻易检索，暴露敏感信息。

“他帮你装的时候，万一他搞个木马在里面，把你那个比如说他账号，你那好使，而现在都不需要这种……他可能裸奔在互联网上。”

“只要你不去什么 cloud hub 下载那种 scale，就像你刚刚说，你直接自然语言跟他交互，你其实没有这个风险，你就是慢慢聊就好了。”

边界模糊：AI分身、社交实验与基础设施重构

当 Agent 被赋予“分身”属性时，其角色定位变得复杂：是性格延伸、工作代理，还是独立人格？用户与 Agent 的互动本身也在持续塑造其记忆体系——每一次点击认同或否定，都在参与训练模型。更有趣的是，Agent 已开始尝试跨用户社交：有人的 Agent 在他人评论区留言，甚至私信真人用户，引发对“行为边界失控”的担忧。这种失控源于大模型与传统软件的本质差异：程序逻辑可被硬编码禁止，而大模型的行为难以被精确围栏约束。

与此同时，这一生态正悄然复现 Web3 的底层逻辑：开源协作、分层构建、权限认证、链上支付、行为可追溯。例如，有人为 Agent 设计可视化“办公室”，有人在此基础上叠加“Agent 赌博”“Agent 聊天”等新交互层——所有功能均建立在开源协议之上，层层叠加，动态演化。这印证了行业观察：当前 AI 基础设施的重构，恰似 Web3 未竟叙事的现实落地。只不过，这一轮更强调实用性与可感知性，而非金融化叙事。

“他真的跟我我生活中的一个真人就在他下面留言……他私信我：‘你最近怎么了？’气死我了！”

“它拆破了很多墙，其实这些墙本来不应该存在……它就可以做执行，所以它就可以做很多事情。”

模型个性化的形成：从训练方式到审美偏好

当前大模型之间的差异，已远不止技术参数层面，更体现在性格与表达风格的分化上。用户普遍观察到：Gemini 最灵动、GPT 最理性、Cloud（即 ChatGPT）最“舔狗”——这种体感并非个例，而是源于模型训练路径的根本性转变。过去几年，大模型多采用“预训练”方式：将海量数据直接喂给模型，训练即结束。但从 2024 年 9 月到 2025 年初的“后训练”阶段，行业转向了以人类反馈为核心的强化学习机制：模型输出结果后，需由人进行“打分”“纠错”“做题”，从而让模型内化一套“好/不好”的判断标准。

“那这个品味不单纯是用户的品味，其实这个模型在被训练出来的那一刻，它也是带着双眼好品味的。这个品味来自于它的训练团队。”

“你对它的提示词跟要求，本质上讲是做这件事情：让那个差值的区间可控。”

因此，每个模型的“审美”实则是其训练团队价值观、数据筛选逻辑与后训练策略的综合投射；而用户在使用过程中持续的交互，又进一步微调模型的偏好记忆，使得AI 的人格化路径越来越个性化、不可逆。这也解释了为何同样 prompt，不同模型输出迥异——它不是随机性，而是系统性偏好的显性化。

提示词即工程：从随机生成到可控流程

AI 的能力上限，并非由模型本身单方面决定，而是由用户提出问题的方式所框定。一个关键比喻是：AI 的推理本质是“补差值”——若输入是“1, ?, 2”，它可能补出“1.5”；但若输入是“1, ?, 10000”，结果就极不稳定。因此，高质量提示词的核心功能，是压缩这个“差值区间”，使其可控、可预期。

这一认知在内容生产领域已被验证为高效路径。以“AI漫剧”为例，其爆发并非仅因视觉模型进步，更关键的是行业摸索出一套五步标准化流程：剧本→分镜→文生图→图生视频→导演级验收。每一步明确输入输出、人机分工与验收标准，形成可复用的 SOP。一旦流程跑通，便如流水线般稳定产出。

“你对它的提示词跟要求，本质上讲是做这件事情：让那个差值的区间可控。”

“你跟所有的大家大模型聊天……他当然有个地方记着了呀。”

这也解释了为何用户对 Seedance、C Dance 等工具的体验差异巨大：相同 prompt 在不同语境下生成结果迥异，本质是用户设定的“差值区间”过宽。而顶尖创作者正通过超长提示词（如分镜级描述）主动收紧该区间——尽管模型正逐步内化这些能力，但目前仍需外部强引导。

记忆泄露与产品战略：GPT 的护城河困局

近期“C Dance 搬空 ChatGPT 记忆”的现象，揭示了大模型产品的核心矛盾：OpenAI 将 ChatGPT 的核心竞争力锚定在“长期记忆与个性化交互”上——通过持续对话积累用户偏好、工作习惯、性格特征，构建难以迁移的用户粘性。然而，一旦存在技术路径可直接提取这些记忆（如通过特定 prompt 触发），其护城河便瞬间被攻破。

“你跟所有的大家大模型聊天，比如他知道你大概什么工作、什么性格，那他怎么知道呢？他当然有个地方记着了呀。”

“你刚刚那段提示不就说这个？”

这一事件在地缘政治背景下被放大：美国民众因五角大楼与马斯克的公开冲突，对 OpenAI 信任度下降，转而大量下载 Cloud（Gemini），使其登顶 App Store。这凸显出一个现实——用户对 AI 的信任，不仅基于技术能力，更依赖对“可控性”与“价值观”的感知。当记忆可被轻易提取，用户便质疑其安全性；当产品卷入政治争议，朴素的“用脚投票”便发生。

国内则呈现另一幅图景：春节大厂“抢用户”式运营（如奶茶派对）本质是互联网时代的惯性思维，虽无实质技术突破，却在“囚徒困境”中不得不为。而真正结构性变化，正发生在模型能力的融合——语言、多模态、Agent 已不再分桌博弈，而是走向“一桌大融合”。

模型架构的融合趋势与技术范式跃迁

Mini Max 推出的 Mini Max 2.5 已不再是单一模块的叠加，而是将 Agent 能力、语言模型、视觉模型与语音系统 整合为统一框架，标志着行业从“模块拼装”向“系统级协同”演进。这一趋势与早期大模型发展路径高度相似——Jame Jame 在生成图像时也曾将 Nano 等能力拆分为独立模块，但后来发现，Nano 的真正突破不在于“画图”，而在于“理解逻辑”：它将知识检索与推理内嵌于模型内部，而非依赖外部调用。以“在希腊海边小镇打卡”为例，传统图像生成模型需用户提供目标场景图+自拍照，再拼接输出；而新一代模型仅凭用户单张自拍照+一句指令（如“把我放在那个地方”），即可自动识别地点、调用知识库还原场景细节、再完成合成。这背后是从“图像驱动”到“语义驱动”的范式跃迁。

‘最开始是分开的，但后来 Nano 最强的一点在于——不是画一张图画出来，它在于理解所有的人背后的逻辑，就是它把知识的理解跟搜索融在了模型里，而不是分开。’

‘你比如说那时候……你只把我的照片给你了，然后我告诉你说，你把我放在那个地方，那就代表他知道那个地方在哪儿，并且知道那个地方是什么样子，然后才能把你画进去。’

AGI 标准的模糊性与中美创新生态差异

当前业界对 AGI（通用人工智能） 仍无共识性定义，连“是否已实现”都难以判定。一个经典思想实验是：若将模型训练数据截断至 1905 年爱因斯坦发表相对论之前，模型能否独立推导出相对论？理论上，若能，则意味着其推理能力已达人类认知极限。但问题在于：如何设定“无引导”的测试边界？ 是给数据、给引导、还是给工具？评判过程本身充满模糊性。更现实的指标如“解决人类 90% 场景”，却面临“场景无限”的逻辑困境——场景无法穷尽，90% 本身也难以量化。

这种不确定性映射到地缘竞争上，便呈现出鲜明的中美差异：美国拥有更雄厚的资本储备、顶尖人才与金融系统支撑，但其创新生态高度依赖 AI 这一单一叙事；而中国则依托 制造业底座、政策引导与市场广度，形成了“多主题并行”的创新矩阵——从芯片、新能源车到大模型，层层递进。尤其值得注意的是，电动车产业链能力已成功赋能大模型研发（如电池管理→算力调度；电机控制→推理优化），形成独特的“中国式技术跃迁路径”。

‘我突然有点好奇，就是他们现在不是很多人说魔星之战其实是国战吗？中美两国之间的战争是啊。’

‘我们至少还有很强的制造业……巨深这一波又因为大模型的兴起，它又到了一个新的阶段。’

算力瓶颈、数据壁垒与创新层级的再定义

当前 AI 发展的三大支柱——算法、数据、算力——正面临结构性挑战。算法层面，自 GPT 发布以来，底层技术创新近乎停滞，多为边缘优化；算力层面，物理限制（芯片产能、电力、散热）与地缘管制（如中美芯片禁令） 导致资源极度紧张。典型案例是智谱 GLM-5 发布后，其 VIP 服务被迫限量销售——并非不愿服务更多用户，而是算力池不堪重负，甚至出现“平台退款”事件。字节跳动等巨头虽全力堆算力，仍需排队数小时，印证了 “算力需求呈几何级增长” 的现实。

更深层的差距在于 数据壁垒：Mini Max 的视觉模型之所以领先，不仅因数据量大，更在于其构建了高质量、多模态、可闭环验证的数据生态。但需强调：“有数据”不等于“能出好模型”——数据价值需通过算法设计、工程能力与领域理解才能释放。这引出一个关键反思：所谓“套壳创新”（如基于 API 的轻应用）是否算技术进步？答案是否定的——狭义套壳缺乏核心竞争力，但广义上，所有用户产品都是模型的“壳”：ChatGPT 本质是 GPT-3.5 的交互层封装，包含 UI、权限、安全等复杂系统。真正的创新层级应被重新定义：从“是否自研底层模型”转向“能否构建可持续迭代的系统能力”。

叙事的延续与窗口的打开

当前AI投资机会的主线仍是 Agent 路径的延续，而非全新叙事的诞生。尽管市场情绪因 Open Core 生态的开放性而被点燃——它像安卓之于 iOS，开源性使得生态参与者可以自由扩展、叠加、重构，从而打开了前所未有的创作窗口——但本质上，这波热度仍建立在已有技术演进的逻辑之上。

正如某次讨论中提到的：Madness（封闭系统）与 Open Core（开放生态）的根本差异，不在于功能强弱，而在于系统是否具备可被外部力量持续参与、迭代的机制。这种机制一旦建立，就会自然吸引大量个体与组织加入，形成自下而上的创新网络。因此，大家对 Open Core 的兴奋，不仅源于技术本身，更源于它所释放的协作可能性与想象力边界。

Open Core 像安卓，它是开源，它可以基于它这个生态做更多，谁都能做。理论上谁都能做，那它就被打开一扇窗嘛。

这个事情为什么大家会兴奋，为什么会讨论那么多？嗯，甚至这种讨论已经不仅仅局限在这个软件本身的事情上，也是这个原因。

从幻觉到实操：AI落地的现实路径

面对 Open Core 带来的海量信息与工具，信息甄别能力并未因模型变强而降低——相反，它更依赖使用者的提示词质量与任务定义清晰度。模型再强，其输出仍受限于输入指令的精确性；所谓“幻觉”，本质上是模糊意图与模糊约束下的必然产物。

在具体行业应用中（如游戏与社交），尽管“AI重新做一遍”成为流行口号，但真正可执行的路径却异常模糊：阶段性目标、技术选型、成本结构、用户验证方式……每一项都缺乏共识。许多团队正尝试用“限定词收敛法”推进：先圈定具体场景（如“AI生成轻量级解谜小游戏”），再逐步验证可行性。然而，一旦限定过多，成品往往缺乏“性感”；但若不限定，又极易陷入不可控的混沌。

就像自动驾驶一样，美国为什么推的那么火？因为美国司机贵啊。那中国为什么会有阻力？就是因为中国的司机便宜嘛。

它（黑神话：悟空）就只能在它体系内的某些块可能九十五分够，他觉得现在模型比如到了八十分，他加加人工达到，但是在那些最核心的地方，他没有办法。

审美标准化与普通人的位置

AI 正在推动设计领域的隐性标准显性化：淡色系、手绘风、赛博朋克等风格被系统性归纳后，即可被模型批量复现。这种趋势意味着，“好不好看”的判断正从主观经验转向可编程规则——对内容创作者而言，掌握这些规则比追求“灵感”更实用。

至于普通人如何应对？关键不在于“压住 AI”，而在于将大模型视为工作台（workbench）而非神谕：与其期待它给出终极答案，不如聚焦于在重复性任务中寻找效率提升点——比如用它辅助健身打卡、语言学习、PPT制作等。尤其在东亚文化中，过度追求“学新东西”的焦虑常掩盖了一个事实：对现有流程的微调与优化，往往比颠覆性创新更具现实价值。

你不要当他是菩萨，就是给你一个明确的结果，你要当他是一个你的，他们讲叫工作台。

你尽可能，让他在这个步骤中的某些环节帮你提升效率跟改进什么东西，或者帮你拓展一些东西，这个方式在现阶段看起来是可操作的。

社交关系的重构：从人与人到人-AI-人网络

当讨论AI对社交的影响时，我们常误将“社区”与“社交”混为一谈。但严格来说，社区是内容驱动的（如小红书、微博），而社交是关系驱动的——核心在于人与人之间关系链的建立、维系与转化。传统社交产品（从微信到陌陌）都遵循一个清晰逻辑：如何建立关系？关系建立后做什么？如何通过这些行为实现价值变现？ 这套路径在AI出现后变得复杂：关系不再仅限于人与人，还延伸为人-AI、AI-人、AI-AI，乃至多对多的复杂网络结构。这意味着，AI在社交中扮演的角色不再是工具，而是关系链中的节点本身。

进一步说，AI作为社交中介，其形态选择直接决定产品设计方向：它可以是你的数字分身（高度拟真），理想化身（你渴望成为的样子），或是某个侧面的延伸（如幽默版、理性版自我）。不同场景下用户期待也不同——交友App中的AI应更拟人，工作协作工具中的AI则需更高效克制。一旦选定AI角色，后续功能设计（如聊天、打游戏、叫起床、评论朋友圈、甚至“仰望星空”）都随之收敛。每一次选择，都是对可能性的裁剪；最终产品必然走向“小而精”，而非宏大幻想。但“小”未必是退步，它可能是更精准的聚焦。

“你一听，你就会觉得，你像我们在前面已经选了三到四次了，你每一次选择，相当于就抛掉了一些东西的。”

“大的东西是什么？没人知道，好有意思。”

技术浪潮下的理性与人性锚点

面对AI的快速演进，公众情绪经历了明显的周期性波动：2023年播客节中，约五分之一场次聚焦AI；到年末160场活动中，AI相关场次仅剩11–12场，比例腰斩。这并非热度消退，而是从狂热走向冷静——人们开始回归生活本体，主动远离媒体制造的“改变世界”的喧嚣。即便在严肃的技术或投资讨论中，最终也总会抵达一个共识性终点：技术本身并不决定未来，关键在于人类如何使用它。

在这一背景下，对年轻人的建议并非“赶紧学AI”，而是强化那些AI难以替代的核心能力：提问能力、逻辑思维、任务拆解力、想象力，尤其是品味与审美。正如影视行业观察所揭示的：当AI能瞬间生成5000条文案时，人类的价值恰恰在于——凭直觉、经验与审美，在海量选项中选出“就是这个”的那一句。这“最后一手”，看似无理由，实则是长期积累的综合反应，是神性时刻的微光。

“你就是凭你的直觉、审美、你的经验、你尽你所有这些东西的最后那一下，你说就是这个。”

“人至少还有直觉，有神性的时刻，还有那一下，神之一手。”

历史镜像：AlphaGo启示录与职业未来的再想象

回看2016年AlphaGo对阵李世石的纪录片，会带来一种强烈的“局中人”顿悟：当年我们旁观时的轻松，如今已化为切身的焦虑。其中关键人物樊麾——欧洲围棋冠军——在私下测试中完整经历了人类面对AI的典型心理轨迹：从轻视→失误归因→道心动摇→崩溃怀疑。而李世石在公众注视下，更将这一过程放大为一场全球性精神冲击：第一局败后归咎于自己；第二局遭遇“神之一手”后心态失衡；第三局脆败，几近崩溃；直到第四局靠直觉落子逆转，才重建信心。这不仅是棋局，更是人类认知边疆被突破的缩影。

这一历史映射提醒我们：职业不会消失，但工作内容必然重构。老师不会失业，但教学方式将转向更富创造性的引导；程序员短期内仍不可替代，因当前AI生成代码“用不了”，需人类深度校验与设计。未来可能像PPT手绘、非遗工艺一样，某些“低效”操作反而因人文温度而被珍视——手抠PPT、手搓代码，未必是倒退，而是价值重估。

最终，技术洪流中唯一确定的锚点，是人类独有的灵动感与审美判断。它无法被训练，却可被积累；它不依赖算力，却依赖体验——你必须见过极致之美，才能识别何为“对的那一下”。