158: V4发布前的DeepSeek：人才竞争、组织特点和独特的AGI目标

一朵AI界的奇葩：效率之外的另一种可能

DeepSeek 给人最直观的印象，是它在当下中国 AI 创业生态中显得格格不入——它是一朵AI界的奇葩，这里的“奇葩”取其本义：阆苑仙葩怎落凡家？在普遍崇尚加班文化、追求投入产出比的市场环境中，DeepSeek 的目标与风格极为独特，甚至难以找到第二家对标者。

其中最显著的特征之一，是它不怎么加班。若无特殊情况，多数员工会在傍晚六点至七点离开公司。这背后是梁文锋的一个核心理念：一个人每天能高质量输出和工作的时间很难超过六到八个小时；超长工作带来的疲劳与判断力下降，反而会浪费宝贵的算力资源，得不偿失。

这一理念不仅塑造了公司的节奏与文化，也成为其人才吸引力与流失现象背后的深层动因之一。正如梁文锋所言：

“一个人每天能高质量输出和工作的时间很难超过六到八个小时。超长工作带来的疲劳和昏庸判断，反而会浪费宝贵的算力，得不偿失。”

“买GPU的这种花钱烧钱行为，形容为就像家里买钢琴，一来买得起，二是因为有一群急于在上面弹奏音乐的人。”

人才流动与V4延迟：风暴前的平静？

截至当前，DeepSeek 员工总数不到两百人，其中研发团队约一百余人（含数据与Infra），产品团队数十人。但从去年底至今，已有数位核心成员陆续离职：

王炳轩（DeepSeek LLM 首代核心作者）于春节前后被腾讯姚顺宇团队挖走；
魏浩然（DeepSeek OCR 系列核心作者）疑似将加入某大厂；
郭达雅（DeepSeek R1 核心作者）近期正式离职；
阮冲（JLoS Pro 等多模态成果核心贡献者）早在2025年上半年离职，休息数月后于2026年1月官宣加入自动驾驶公司元融启行。

尽管在百人级研发团队中流失三四人比例并不高，但此次变动之所以引发广泛关注，是因为此前 DeepSeek 几乎没有全职员工流向竞对——上一次类似规模的离职还要追溯到2024年3月的张博（回归浙大任教），以及2025年初的罗弗利（加入小米）。而这一次，离职者几乎全部直接加入头部科技公司，标志着人才流动逻辑的悄然转变。

与此同时，DeepSeek V4 的发布一再延期。尽管其小参数版本已于2026年1月交付部分开源社区进行适配，原计划春节前后开源更大参数版本的预期落空。据最新信息，V4 预计将在4月开源，至少包含一个近300B与一个500–600B参数的版本，后续或有更多成果释放。

“同在清华遥班，在千问实习，只有每天四千二百元……如果五千五百元一天是真的话，一个月实习工资就超十万。”

期权之困与AGI之思：目标共识的裂隙

人才争夺战的白热化，直接推高了AI研究员的薪酬预期。据观察，字节的Seed与腾讯AI团队目前对DeepSeek成员最具吸引力：前者虽被指存在团队重叠问题，但其1500人规模在全球AI研发中仍属中等（对比DeepMind近8000人），且具备强大算力支撑；后者则因姚顺宇到任后积极扩编，为新人提供核心位置而更具吸引力。

然而，DeepSeek 在人才竞争中面临结构性劣势：缺乏明确公司估值与期权定价机制。员工虽签署期权协议，却难以评估其真实价值。而当 Minimax、智谱等首批大模型公司成功上市（市值达2500–3000亿人民币），街月星辰、Kimi 亦传出IPO计划后，这种不确定性带来的心理落差愈发明显。

梁文锋正试图回应这一挑战——他正在推动公司估值明确化，以稳定团队预期。但这只是表层变化，更深层的问题在于：他与团队在AGI目标上的理解是否仍具共识？

DeepSeek 的起点并非生存压力下的商业公司，而是梁文锋基于幻方七年量化实践（2015年起）、GPU集群建设（萤火一号1100张GPU，萤火二号达10000张）所孕育出的探索型组织。他本人对AGI的拆解，不仅关注模型性能上限，更强调两大方向：

基于国产生态构建大模型：如V3.1采用UEM80 FP8数据压缩格式，V3.2更将底层算子库从CUDA/Triton切换为北大杨智团队发起的国产开源项目 TaoLang；
坚持原创探索：如Janus系列（较早统一多模态理解与生成）、Prover系列（形式化证明）、OCR系列（将文字转为图像输入以提升文档理解），甚至引入神经科学顾问探索类脑学习机制。

“如果只是卷性能，靠中国其他的公司……大家也可以做得非常好。但梁文锋自己的目标……并不是简单的追求最强、卷性能、碾压。”

产品落地滞后与Agent赛道缺席

尽管 DeepSeek V4 预计仍将作为开源领域最强的模型发布，但当前模型能力的“强”已不再仅由跑分决定——体感与实际使用体验正成为更关键的评判标准。尤其在 Agentic 模型（智能体模型）竞争白热化的背景下，产品触点的丰富性、长尾场景覆盖能力及多样化数据反馈，正深刻影响模型的实际竞争力。而这些恰恰是 DeepSeek 此前因聚焦模型研发、产品投入相对较少所暴露的短板。

客观来看，DeepSeek 在去年下半年兴起的 Agent 应用浪潮中明显缺席。尽管 V3.2 已强化了 Agent 能力，但其模型迭代频次远低于同行：2025 年初至今，智谱、MiniMax、Kimi 分别更新了 5、4、3 次模型；仅 MiniMax 就在年内发布了 M2.1、M2.5 和 M2.7 三版迭代。智谱则推出了面向 OpenCLL 优化的 GLM-5 Turbo。OpenRouter 的数据（2 月 24 日至 3 月 26 日）显示，在 OpenCLL 相关模型消耗量排名中，前十名中有六款来自中国公司；DeepSeek V3.2 排第十二，若剔除免费模型（如 Step 3.5 Flash 和 Trinity Large Preview），则可进入前十——这侧面印证其模型虽老，性能仍具竞争力；但同时也说明，在 Agent 应用生态中，其影响力相对靠后。

“如果来比应用的话，智谱、MiniMax、Kimi、街月等等，包括字节的飞书，他们都做了龙虾相关的应用，DeepSeek 更是什么都没有这方面的投入。”

“DeepSeek 在 C 端的产品仍然是一个典型的 Chatbot……梁文锋也开始更多的在公司里去提要做产品化和商业化。”

组织基因与研究文化的坚守

DeepSeek 的人员流动虽偶有传闻，但并无大规模离职潮。绝大多数留任者高度认可梁文锋所坚持的 AGI 探索路径——即不被短期竞争驱动、专注基础性、非主流方向的研究。这种文化根植于其扁平化组织结构：公司无“二把手”，研究团队仅分“梁老板”与研究员两级，形成类似学术实验室的氛围。梁文锋亲自参与基模架构设计、数据策略与基础设施协同，常驻多个团队周会，推动跨组协作；新方向常由三五人自发发起，经小规模验证后获资源支持。

其研究风格亦高度统一：梁文锋坚持“高质量日工作时长仅 6–8 小时”，反对疲劳作战，认为昏庸判断反会浪费宝贵算力。这一理念在全球 AI 核心公司中极为罕见——即便 Google DeepMind 或 xAI，研究员周工作时长常超 60 小时。他亦极少参与融资与商务拓展：2023 年曾提出“固定回报上限”的投资模式未获接受；V1 爆火后更主动切断新投资人接触，专注模型研发本身。

在人才构成上，DeepSeek 以应届生与实习生留任为主：172 名研究者中，超 70% 为本科及硕士学历，超 70% 年龄低于 30 岁；2025 年初公司仅约 200 人，却以约 1/3–1/2 于大厂的人均工作时间，支撑起全球第一梯队的大模型研发。这种“小而精”的模式，使其在算力资源日益集中的军备竞赛中虽处劣势，却仍保有独特研究韧性。

“DeepSeek 是一个真心想做研究的人，在国内甚至是全球能找到的最好的地方。”

创始人特质与长期主义的悖论

梁文锋的个人特质深刻塑造了 DeepSeek 的组织气质：生活极简，不重外显符号——曾长期旅居酒店，现居北京租房；拒绝团建、聚餐与年终全程参与，仅在讲话时露面。其匿名慈善行为（如 2022 年“一只平凡的小猪”捐 1.38 亿）更添神秘色彩，但其核心逻辑始终如一：抵抗噪音，专注少数真正重要的事。

所谓“噪音”，既包括爆火后的过度追捧，也涵盖竞争加剧时的质疑声浪。当前挑战在于：如何在外部压力下区分信号与噪音，既坚守 AGI 长线目标，又适时调整策略。这考验的不仅是技术判断，更是组织哲学的现实适应力。

值得深思的是，在崇尚结果与竞争的中国科技生态中，DeepSeek 的存在本身即是一种“小概率事件”——它不以市场节奏为唯一指挥棒，却曾产出 R1 这类“奇迹”级成果。正如从业者所言：

“低头做事的人，也许不一定能在浮躁的市场洪流里笑到最后，但是只有更多 DeepSeek 这样的公司出现，中国科技才有从复刻到领跑的可能。”

其未来走向，将取决于能否在“成就驱动”与“竞争驱动”之间找到新的平衡点——既不被落后的恐惧驱策，又能持续产出强影响力成果。这不仅是 DeepSeek 的命题，亦是中国 AI 生态多样性的关键试金石。

独特目标：小概率事件中的大意义

在观察DeepSeek的过程中，一位从业者曾这样评价：低头做事的人，也许不一定能在浮躁的市场洪流里笑到最后，但是只有更多DeepSeek这样的公司出现，中国科技才有从复刻到领跑的可能。这一判断点出了DeepSeek的深层价值——它并非追逐短期热点的典型样本，而是在一个高度结果导向、崇尚竞争的环境中，敢于坚持独特AGI目标的“小概率事件”。正因罕见，才更显珍贵；正因不确定，才值得期待。它的存在本身，就是对中国科技生态多样性与长期潜力的一种积极验证。

很多人觉得二零二五年出的R1是一个奇迹。奇迹之所以是奇迹，就是因为它不常发生，是小概率事件。

在中国这个崇尚竞争和结果说话的环境里，敢于追求独特目标的DeepSeek的存在本身就是一个令人惊喜的小概率事件。它真的不一定会发生。

不被定义：公司终将成为自己

转发这篇文章时，作者写下了一句颇具深意的话：不用成为全村的希望，DeepSeek就是DeepSeek。这句话既是对外界过度期待的温和回应，也暗含了对组织自主性的尊重——每家企业最终都会走成它自己选择的样子，而非他人预设的模板。这种清醒的认知，或许正是DeepSeek能在激烈竞争中保持节奏与定力的关键。正如V4发布在即，作者私下也表达了一个朴素却真诚的期待：希望V4能在四月偏中上旬发布，离五一假期远一点，拜托——这句带点幽默的“托付”，恰恰折射出对产品节奏与团队状态的深切关注。