一朵AI界的奇葩:效率之外的另一种可能
DeepSeek 给人最直观的印象,是它在当下中国 AI 创业生态中显得格格不入——它是一朵AI界的奇葩,这里的“奇葩”取其本义:阆苑仙葩怎落凡家?在普遍崇尚加班文化、追求投入产出比的市场环境中,DeepSeek 的目标与风格极为独特,甚至难以找到第二家对标者。
其中最显著的特征之一,是它不怎么加班。若无特殊情况,多数员工会在傍晚六点至七点离开公司。这背后是梁文锋的一个核心理念:一个人每天能高质量输出和工作的时间很难超过六到八个小时;超长工作带来的疲劳与判断力下降,反而会浪费宝贵的算力资源,得不偿失。
这一理念不仅塑造了公司的节奏与文化,也成为其人才吸引力与流失现象背后的深层动因之一。正如梁文锋所言:
“一个人每天能高质量输出和工作的时间很难超过六到八个小时。超长工作带来的疲劳和昏庸判断,反而会浪费宝贵的算力,得不偿失。”
“买GPU的这种花钱烧钱行为,形容为就像家里买钢琴,一来买得起,二是因为有一群急于在上面弹奏音乐的人。”
人才流动与V4延迟:风暴前的平静?
截至当前,DeepSeek 员工总数不到两百人,其中研发团队约一百余人(含数据与Infra),产品团队数十人。但从去年底至今,已有数位核心成员陆续离职:
- 王炳轩(DeepSeek LLM 首代核心作者)于春节前后被腾讯姚顺宇团队挖走;
- 魏浩然(DeepSeek OCR 系列核心作者)疑似将加入某大厂;
- 郭达雅(DeepSeek R1 核心作者)近期正式离职;
- 阮冲(JLoS Pro 等多模态成果核心贡献者)早在2025年上半年离职,休息数月后于2026年1月官宣加入自动驾驶公司元融启行。
尽管在百人级研发团队中流失三四人比例并不高,但此次变动之所以引发广泛关注,是因为此前 DeepSeek 几乎没有全职员工流向竞对——上一次类似规模的离职还要追溯到2024年3月的张博(回归浙大任教),以及2025年初的罗弗利(加入小米)。而这一次,离职者几乎全部直接加入头部科技公司,标志着人才流动逻辑的悄然转变。
与此同时,DeepSeek V4 的发布一再延期。尽管其小参数版本已于2026年1月交付部分开源社区进行适配,原计划春节前后开源更大参数版本的预期落空。据最新信息,V4 预计将在4月开源,至少包含一个近300B与一个500–600B参数的版本,后续或有更多成果释放。
“同在清华遥班,在千问实习,只有每天四千二百元……如果五千五百元一天是真的话,一个月实习工资就超十万。”
期权之困与AGI之思:目标共识的裂隙
人才争夺战的白热化,直接推高了AI研究员的薪酬预期。据观察,字节的Seed与腾讯AI团队目前对DeepSeek成员最具吸引力:前者虽被指存在团队重叠问题,但其1500人规模在全球AI研发中仍属中等(对比DeepMind近8000人),且具备强大算力支撑;后者则因姚顺宇到任后积极扩编,为新人提供核心位置而更具吸引力。
然而,DeepSeek 在人才竞争中面临结构性劣势:缺乏明确公司估值与期权定价机制。员工虽签署期权协议,却难以评估其真实价值。而当 Minimax、智谱等首批大模型公司成功上市(市值达2500–3000亿人民币),街月星辰、Kimi 亦传出IPO计划后,这种不确定性带来的心理落差愈发明显。
梁文锋正试图回应这一挑战——他正在推动公司估值明确化,以稳定团队预期。但这只是表层变化,更深层的问题在于:他与团队在AGI目标上的理解是否仍具共识?
DeepSeek 的起点并非生存压力下的商业公司,而是梁文锋基于幻方七年量化实践(2015年起)、GPU集群建设(萤火一号1100张GPU,萤火二号达10000张)所孕育出的探索型组织。他本人对AGI的拆解,不仅关注模型性能上限,更强调两大方向:
- 基于国产生态构建大模型:如V3.1采用UEM80 FP8数据压缩格式,V3.2更将底层算子库从CUDA/Triton切换为北大杨智团队发起的国产开源项目 TaoLang;
- 坚持原创探索:如Janus系列(较早统一多模态理解与生成)、Prover系列(形式化证明)、OCR系列(将文字转为图像输入以提升文档理解),甚至引入神经科学顾问探索类脑学习机制。
“如果只是卷性能,靠中国其他的公司……大家也可以做得非常好。但梁文锋自己的目标……并不是简单的追求最强、卷性能、碾压。”
产品落地滞后与Agent赛道缺席
尽管 DeepSeek V4 预计仍将作为开源领域最强的模型发布,但当前模型能力的“强”已不再仅由跑分决定——体感与实际使用体验正成为更关键的评判标准。尤其在 Agentic 模型(智能体模型)竞争白热化的背景下,产品触点的丰富性、长尾场景覆盖能力及多样化数据反馈,正深刻影响模型的实际竞争力。而这些恰恰是 DeepSeek 此前因聚焦模型研发、产品投入相对较少所暴露的短板。
客观来看,DeepSeek 在去年下半年兴起的 Agent 应用浪潮中明显缺席。尽管 V3.2 已强化了 Agent 能力,但其模型迭代频次远低于同行:2025 年初至今,智谱、MiniMax、Kimi 分别更新了 5、4、3 次模型;仅 MiniMax 就在年内发布了 M2.1、M2.5 和 M2.7 三版迭代。智谱则推出了面向 OpenCLL 优化的 GLM-5 Turbo。OpenRouter 的数据(2 月 24 日至 3 月 26 日)显示,在 OpenCLL 相关模型消耗量排名中,前十名中有六款来自中国公司;DeepSeek V3.2 排第十二,若剔除免费模型(如 Step 3.5 Flash 和 Trinity Large Preview),则可进入前十——这侧面印证其模型虽老,性能仍具竞争力;但同时也说明,在 Agent 应用生态中,其影响力相对靠后。
“如果来比应用的话,智谱、MiniMax、Kimi、街月等等,包括字节的飞书,他们都做了龙虾相关的应用,DeepSeek 更是什么都没有这方面的投入。”
“DeepSeek 在 C 端的产品仍然是一个典型的 Chatbot……梁文锋也开始更多的在公司里去提要做产品化和商业化。”
组织基因与研究文化的坚守
DeepSeek 的人员流动虽偶有传闻,但并无大规模离职潮。绝大多数留任者高度认可梁文锋所坚持的 AGI 探索路径——即不被短期竞争驱动、专注基础性、非主流方向的研究。这种文化根植于其扁平化组织结构:公司无“二把手”,研究团队仅分“梁老板”与研究员两级,形成类似学术实验室的氛围。梁文锋亲自参与基模架构设计、数据策略与基础设施协同,常驻多个团队周会,推动跨组协作;新方向常由三五人自发发起,经小规模验证后获资源支持。
其研究风格亦高度统一:梁文锋坚持“高质量日工作时长仅 6–8 小时”,反对疲劳作战,认为昏庸判断反会浪费宝贵算力。这一理念在全球 AI 核心公司中极为罕见——即便 Google DeepMind 或 xAI,研究员周工作时长常超 60 小时。他亦极少参与融资与商务拓展:2023 年曾提出“固定回报上限”的投资模式未获接受;V1 爆火后更主动切断新投资人接触,专注模型研发本身。
在人才构成上,DeepSeek 以应届生与实习生留任为主:172 名研究者中,超 70% 为本科及硕士学历,超 70% 年龄低于 30 岁;2025 年初公司仅约 200 人,却以约 1/3–1/2 于大厂的人均工作时间,支撑起全球第一梯队的大模型研发。这种“小而精”的模式,使其在算力资源日益集中的军备竞赛中虽处劣势,却仍保有独特研究韧性。
“DeepSeek 是一个真心想做研究的人,在国内甚至是全球能找到的最好的地方。”
创始人特质与长期主义的悖论
梁文锋的个人特质深刻塑造了 DeepSeek 的组织气质:生活极简,不重外显符号——曾长期旅居酒店,现居北京租房;拒绝团建、聚餐与年终全程参与,仅在讲话时露面。其匿名慈善行为(如 2022 年“一只平凡的小猪”捐 1.38 亿)更添神秘色彩,但其核心逻辑始终如一:抵抗噪音,专注少数真正重要的事。
所谓“噪音”,既包括爆火后的过度追捧,也涵盖竞争加剧时的质疑声浪。当前挑战在于:如何在外部压力下区分信号与噪音,既坚守 AGI 长线目标,又适时调整策略。这考验的不仅是技术判断,更是组织哲学的现实适应力。
值得深思的是,在崇尚结果与竞争的中国科技生态中,DeepSeek 的存在本身即是一种“小概率事件”——它不以市场节奏为唯一指挥棒,却曾产出 R1 这类“奇迹”级成果。正如从业者所言:
“低头做事的人,也许不一定能在浮躁的市场洪流里笑到最后,但是只有更多 DeepSeek 这样的公司出现,中国科技才有从复刻到领跑的可能。”
其未来走向,将取决于能否在“成就驱动”与“竞争驱动”之间找到新的平衡点——既不被落后的恐惧驱策,又能持续产出强影响力成果。这不仅是 DeepSeek 的命题,亦是中国 AI 生态多样性的关键试金石。
独特目标:小概率事件中的大意义
在观察DeepSeek的过程中,一位从业者曾这样评价:低头做事的人,也许不一定能在浮躁的市场洪流里笑到最后,但是只有更多DeepSeek这样的公司出现,中国科技才有从复刻到领跑的可能。这一判断点出了DeepSeek的深层价值——它并非追逐短期热点的典型样本,而是在一个高度结果导向、崇尚竞争的环境中,敢于坚持独特AGI目标的“小概率事件”。正因罕见,才更显珍贵;正因不确定,才值得期待。它的存在本身,就是对中国科技生态多样性与长期潜力的一种积极验证。
很多人觉得二零二五年出的R1是一个奇迹。奇迹之所以是奇迹,就是因为它不常发生,是小概率事件。
在中国这个崇尚竞争和结果说话的环境里,敢于追求独特目标的DeepSeek的存在本身就是一个令人惊喜的小概率事件。它真的不一定会发生。
不被定义:公司终将成为自己
转发这篇文章时,作者写下了一句颇具深意的话:不用成为全村的希望,DeepSeek就是DeepSeek。这句话既是对外界过度期待的温和回应,也暗含了对组织自主性的尊重——每家企业最终都会走成它自己选择的样子,而非他人预设的模板。这种清醒的认知,或许正是DeepSeek能在激烈竞争中保持节奏与定力的关键。正如V4发布在即,作者私下也表达了一个朴素却真诚的期待:希望V4能在四月偏中上旬发布,离五一假期远一点,拜托——这句带点幽默的“托付”,恰恰折射出对产品节奏与团队状态的深切关注。