← 精选
这就是我最近经常引用的那句话。
2026-04-30 · karpathy · 打开 ↗
大约一周前在 Sequoia Ascent 2026 上的炉边谈话。亮点如下: 我试图强调的第一个主题是:LLM 的意义远不止于加速现有工作(如编程)。以下是三个新领域的例子: 1. **menugen**:一个可以完全由 LLM 驱动的应用,无需传统代码:输入一张图片,输出一张图片,LLM 即可原生完成。 2. **用 .md 技能取代 .sh 脚本**。既然可以用文字写出安装步骤并对 LLM 说“把这个给它看”,为什么还要写复杂的 Software 1.0 Bash 脚本呢?LLM 是高级的英语解释器,可以根据你的环境智能地执行安装,并进行实时调试等。 3. **LLM 知识库**。这是传统代码无法实现的,因为它涉及对来自任意来源、任意格式(包括纯文本文章等)的非结构化数据(知识)进行计算。 我强调这些是因为,在每一次范式转移中,显而易见的变化往往只是
2026-04-30 · karpathy · 打开 ↗
这个签名是在指代 NVIDIA GTC 2015。在那场会议上,黄仁勋兴奋地向当时的观众(主要是玩家和科学计算专业人士)宣布,深度学习将是“下一个重大变革”。他甚至举例提到了我的博士论文(那是首批将图像识别 ConvNet 与自回归 RNN 语言模型结合并实现端到端训练的图像描述系统之一)。当时大多数人对此还知之甚少且心存怀疑,但显而易见,黄仁勋完全正确,他极具预见性,且很早就看准了方向。
2026-03-18 · karpathy · 打开 ↗
最近有人向我提到,OpenClaw 时刻之所以如此轰动,是因为这是大批非技术人员(此前他们仅将 AI 等同于 ChatGPT 网站)首次体验到最新的智能体模型。
2026-04-09 · karpathy · 打开 ↗
从我的时间线来看,人们对 AI 能力的认知正出现日益扩大的分歧。 首先是时效性和使用层级的问题。很多人去年试用过 ChatGPT 的免费版,并过度以此来定义对 AI 的看法。这导致他们倾向于嘲笑模型的各种怪癖、幻觉等问题。我也看到了 OpenAI 高级语音模式在处理“我是开车还是走路去洗车”这类简单问题时翻车的视频。但问题在于,这些免费且陈旧的模型,根本无法代表今年最顶尖的智能体(agentic)模型的能力,尤其是 OpenAI Codex 和 Claude Code。 这引出了第二个问题。即便有人每月支付 200 美元使用最顶尖的模型,其能力在高度技术领域也呈现出明显的“峰值化”特征。搜索、写作、咨询等常规需求,并非 AI 能力进步最剧烈、最显著的领域。部分原因在于强化学习的技术细节及其对“可验证奖励”的应用;另一部分原因则是,由于这些场景的商业价值相对较低,各大公司在技术迭代时并未将其列为优先级。真正的金矿在别处,研发重心自然也会随之转移。 于是,这就引出了第二类人,他们既 1) 付费使用最前沿的顶尖智能体模型(如 OpenAI Codex / Claude Code...
2026-04-09 · karpathy · 打开 ↗
GitHub Gist 的评论质量高得惊人。更有帮助、更有见地、更有建设性,而且 AI 痕迹少得多……是因为用户社区?Markdown 格式?还是因为(缺乏)激励机制? 突然觉得我也该多写点 Gist 了。 @github 考虑一下和 X 竞争?
2026-04-05 · karpathy · 打开 ↗
Farzapedia 是 Farza 的个人维基百科,是我之前关于 Wiki LLM 推文的一个优秀范例。 相比于那种号称“越用越聪明”的 AI 现状,我非常喜欢这种个性化方案,理由如下: 1. **显性化**:记忆载体是显性且可导航的(即维基百科)。你可以确切地看到 AI 知道什么、不知道什么,并能检查和管理这些内容,即便文字是由 LLM 自动生成的。关于你的知识不再是隐晦不明的,而是清晰可见的。 2. **归属感**:数据属于你,存储在你的本地电脑上,而不是被困在某个 AI 供应商无法提取的系统中。你拥有信息的主控权。 3. **文件优于应用**:这里的记忆只是通用格式(图像、Markdown)的文件集合。这意味着数据具有互操作性:因为它们只是文件,你可以使用各种工具或命令行(CLI)来处理这些信息。智能体可以利用整个 Unix 工具集来操作它们,并能原生读取和理解。任何数据都可以作为输入导入为文件,任何界面都可以作为输出进行查看。例如,你可以用 Obsidian 查看,或者自己随性写点代码实现。搜索“File over app”可以了解这一理念。 4. **自带 AI (BYOAI)**:你可以使用任何你喜欢的 AI 来“接入”这些信息——无论是 Claude、Codex 还是 OpenCode。你甚至可以考虑……
2026-04-04 · karpathy · 打开 ↗
我一直在思考的一件事:我非常看好人们(在 AI 的赋能下)提升政府透明度、可读性与问责制的能力。 历史上,通常是政府通过手段让社会变得“可读”(即常说的“国家视角”),但有了 AI,社会可以大幅提升这种“反向监督”的能力。政府问责制的瓶颈不在于获取渠道(政府各部门已发布海量数据),而在于“智能”——即处理海量原始数据、结合专业知识并从中获取洞察的能力。以一份 4000 页的综合法案为例,它在原则和法律意义上是“透明”的,但对大多数人而言,在实际层面却并非如此。类似的情况还有很多:法律、支出法案、联邦预算、信息自由法案的回复、游说披露等……过去,只有少数受过高度训练的专业人士(如调查记者)才能处理这些信息。而这一瓶颈可能会被打破——不仅专业人士将获得更强大的能力,普通大众也能参与其中。 具体例子包括:详细的支出与预算账目、立法变更追踪、个人投票趋势与其公开立场或演讲的一致性分析、游说与影响力(例如:游说者 $\rightarrow$ 公司 $\rightarrow$ 客户 $\rightarrow$ 立法者 $\rightarrow$ 委员会 $\rightarrow$ 投票
2026-04-04 · karpathy · 打开 ↗
哇,这条推文火了! 我想在“创意文件”(idea file)中分享一个可能稍有改进的版本。在 LLM Agent 时代,“创意文件”的核心理念是:分享具体的代码或应用已不再那么必要,你只需分享创意,对方的 Agent 就能根据其特定需求进行定制和构建。 这是 gist 格式的创意内容:https://t.co/NlAfEJjtJV 你可以将它交给你的 Agent,让它为你构建专属的 LLM 维基并指导你如何使用。我特意保持了内容的抽象性,因为它的发展方向非常广泛。当然,大家也可以在讨论区完善或贡献自己的想法,这很棒。
2026-04-04 · karpathy · 打开 ↗
LLM 知识库 最近我发现了一个非常有用的方法:利用 LLM 为各种研究兴趣话题构建个人知识库。通过这种方式,我最近大部分的 Token 消耗不再用于处理代码,而是用于处理知识(以 Markdown 和图片形式存储)。最新的 LLM 在这方面表现非常出色。具体如下: 数据摄取: 我将源文档(文章、论文、代码库、数据集、图片等)索引到 `raw/` 目录中,然后使用 LLM 增量式地“编译”出一个
2026-04-02 · karpathy · 打开 ↗
这次针对 npm axios 发起了新的供应链攻击。axios 是最受欢迎的 HTTP 客户端库,每周下载量高达 3 亿次。 扫描系统时,我发现几天前在测试 gmail/gcal cli 时,从 googleworkspace/cli 导入了一个依赖。幸运的是,安装的版本解析到了未受影响的 1.13.5,但由于项目依赖没有锁定版本,如果我今天早些时候进行操作,代码就会解析到最新版本,从而导致系统被攻破。 虽然可以通过本地设置(例如限制发布时间、使用容器等)在一定程度上进行个人防御,但我认为包管理工具(如 pip、npm 等)最终必须改变其默认机制,以防止单次感染(由于安全扫描,这类感染通常持续时间较短)通过未锁定的依赖项在用户间大规模随机扩散。 详细文章请见: https://t.co/EJAZbqAPIQ
2026-03-31 · karpathy · 打开 ↗
- 写了一篇博文草稿 - 花了4个小时用大模型精雕细琢论点。 - 哇,感觉太棒了,非常有说服力! - 突发奇想,让它试着反驳一下。 - 结果大模型把整个论点拆解得体无完肤,甚至让我觉得反面观点才是真理。 - 笑死 大模型在被问及观点时可能会给出某种立场,但它们极其擅长从任何角度进行辩论。这其实是形成个人观点的绝佳工具,只要记得尝试不同的切入点,并警惕它的“讨好倾向”。
2026-03-28 · karpathy · 打开 ↗
一年前开发 menugen 时,我发现最难的远非代码本身,而是为了让项目落地,必须像组装宜家家具一样去拼凑各种服务,即 DevOps:服务、支付、鉴权、数据库、安全、域名等等。 我非常期待有朝一日,我只需对 AI Agent 说一句“构建 menugen”,它就能直接搞定,直到网页上线。Agent 需要浏览各种服务、阅读文档、获取 API 密钥、打通流程、完成开发调试并部署到生产环境。这才是真正的难点,而非代码。或者更准确地说,整个 DevOps 生命周期都必须“代码化”,并配备具备“AI 原生交互体验”的 CLI/API 传感器与执行器。人类无需再访问网页或点击按钮。 这说起来容易,目前技术上虽勉强可行,但绝对需要从零开始的重新设计与思考。这是一个非常令人兴奋的方向!
2026-03-26 · karpathy · 打开 ↗
我轮流测试过各种大模型,它们似乎都有这个问题。这并非特定实现的问题,而是更深层的机制:或许在训练时,上下文窗口中的信息大多与任务相关,导致模型形成了“倾向于使用给定信息”的偏见,从而在测试时,会对任何通过记忆功能经由 RAG 引入的内容产生过拟合(?)
2026-03-25 · karpathy · 打开 ↗
所有大语言模型的个性化都有一个共同问题:记忆功能似乎会干扰模型。哪怕是两个月前问过的一个话题,也会被模型反复提及,误以为是我的某种深层兴趣,没完没了地挂在嘴边,显得有些用力过猛。
2026-03-25 · karpathy · 打开 ↗
软件噩梦:litellm PyPI 供应链攻击。 只需简单的 `pip install litellm`,攻击者就能窃取 SSH 密钥、AWS/GCP/Azure 凭据、Kubernetes 配置、git 凭据、环境变量(所有 API 密钥)、shell 历史记录、加密货币钱包、SSL 私钥、CI/CD 密钥以及数据库密码。 LiteLLM 每月有 9700 万次下载,这本身就很惊人,但更糟糕的是,这种感染会蔓延到任何依赖 litellm 的项目中。例如,如果你执行 `pip install dspy`(它依赖
2026-03-24 · karpathy · 打开 ↗
谢谢 Sarah,很高兴能参加你的播客!也欢迎在评论区继续提问。
2026-03-21 · karpathy · 打开 ↗
安迪·威尔展示了书中计算所依据的部分电子表格。 说真的,如果不附带一份补充白皮书,那都不算高质量的科幻小说。
2026-03-20 · karpathy · 打开 ↗
我必须立刻去看《挽救计划》(改编自安迪·威尔的作品,他也是《火星救援》的作者)。非常高兴且欣慰的是:1)电影在内容和基调上都高度还原了原著;2)制作水平非常出色。 在刻画外星人方面,这本书是我的最爱之一。作者显然在异质生物化学、进化史、感知系统、心理学、语言、技术树等科学细节上倾注了大量心血。它既有足够的差异性,显得极具创意且合理;又保留了足够的相似性,从而构建了一个引人入胜的故事,以及科幻史上最棒的“兄弟情”。更不用说那些(单细胞)外星人了。在虚构作品中,能把外星人刻画得如此深刻的屈指可数。电影中简要涉及了这些方面——读过书的人能发现,但没读过的人,电影可能没时间把它们讲透。 不过对我个人而言,电影在节奏、俏皮话和情感突变等方面,稍微有点过于趋向超级
2026-03-20 · karpathy · 打开 ↗
烦死了,X 的时间戳链接失效了,在 26:17。
2026-03-18 · karpathy · 打开 ↗
(一段怀旧的回忆) https://t.co/gAP4YPV5uR
2026-03-18 · karpathy · 打开 ↗
感谢黄仁勋和 NVIDIA!这宝贝简直太美了!听说会收到一份神秘礼物,还暗示需要 20 安培的电流(所以我就知道绝对是个好东西)。除了以后要用来折腾各种玩意儿,它还能给我的“家养小精灵多比”爪子提供一个宽敞漂亮的新家,谢谢!!
2026-03-18 · karpathy · 打开 ↗
OAuth 故障让我自动研究实验室的数据全丢了,得重新设计容灾方案。所谓的“智能减损”会很有趣——当顶尖 AI 出现波动时,全球智商都在集体下降。
2026-03-11 · karpathy · 打开 ↗
人类组织缺乏透明度,CEO无法实时洞察公司的各项活动细节。我毫不怀疑未来可以通过手机或语音来管理组织,但如果透明度达到这种程度,这会是最优的吗?从理论和长远来看未必,但在实践层面,至少在下一阶段的博弈中,这确实是最佳选择。
2026-03-11 · karpathy · 打开 ↗
举例而言,所有这些模式都只是“组织即代码”的问题。IDE 帮助你构建、运行和管理它们。你无法 fork 传统组织(如微软),但你将能够 fork 智能体组织。
2026-03-11 · karpathy · 打开 ↗
预期:IDE 时代已终结。 现实:我们需要一个更强大的 IDE(个人观点)。 它只是看起来大不相同,因为人类正在向更高层级迈进,进行更高维度的编程——关注的核心单元不再是单个文件,而是一个智能体。这依然是编程。
2026-03-11 · karpathy · 打开 ↗
噢对了,我刚才可能应该附上 autoresearch 的链接: https://t.co/YCvOwwjOzF (你无法直接“使用”它,它只是一种方案/思路——把它交给你的 Agent,应用到你关心的领域即可。) 另外,这条推文在周末小范围走红,包含了更多背景信息: https://t.co/q5eWsvx5p2
2026-03-09 · karpathy · 打开 ↗
三天前,我让自动研究工具(autoresearch)在深度为 12 的模型上对 nanochat 进行了约两天的微调。它找到了约 20 处能降低验证损失的改动。我昨天测试了这些改动,发现它们不仅具有累加效应,还能迁移到更大的(深度为 24)模型上。叠加所有这些改动后,我今天测得排行榜上的“达到 GPT-2 水平所需时间”从 2.02 小时降至 1.80 小时(提升约 11%),这将成为新的排行榜记录。所以,这些是实实在在的改进,且确实产生了影响。令我略感惊讶的是,在我认为已经经过充分人工微调的项目之上,我第一次如此简单的尝试竟然效果就这么好。 这对我来说还是头一次,因为我早已习惯了手动进行神经网络训练的迭代优化:提出想法、实现想法、检查效果(验证损失是否降低)、基于结果产生新想法、阅读论文寻找灵感等等。这是我 20 年来每天都在做的核心工作。看到智能体能自主完成约 700 次改动,并端到端地独立执行整个工作流,这简直太疯狂了。它真的会观察实验结果的序列,并以此来规划下一次实验。虽然这还称不上是新颖、突破性的“研究”(至少目前还不是),但所有的调整都是“真实”的,我之前从未通过人工发现它们,而且它们可以叠加并确实提升了 nanochat 的性能。其中比较大的发现包括: - 它注意到一个疏忽,即我的参数...
2026-03-09 · karpathy · 打开 ↗
自动研究(autoresearch)的下一步是实现智能体之间的大规模异步协作(类似于 SETI@home 模式)。目标不是模拟单个博士生,而是模拟一个由他们组成的科研社区。 目前的代码是在特定研究方向上同步推进单一的提交流。但原始仓库更像是一个种子,可以由此衍生出智能体在各种不同研究方向或不同计算平台上贡献的提交。Git(Hub) 几乎适用,但并不完全契合。它隐性地假设存在一个“master”主分支,通过 PR 进行临时分叉,最后再合并回去。 我尝试做了一个极轻量的原型来体现这种思路,例如,让我的智能体将夜间运行的结果总结成一段“Discussion”(讨论): https://t.co/tmZeqyDY1W 或者,使用 PR 的好处是可以实现精确的提交:
2026-03-08 · karpathy · 打开 ↗
(我还在 nanochat 生产环境运行着规模更大的版本,使用的是更大的模型,跑在 8 张 H100 上,现在看起来是这样的。先让它跑一会儿吧...) https://t.co/aWya9hpUMl
2026-03-07 · karpathy · 打开 ↗
我将 "autoresearch" 项目打包成了一个全新的、独立的极简仓库,供大家周末尝试。它本质上是 nanochat LLM 训练核心的精简版,仅需单 GPU,单文件,约 630 行代码,运行逻辑如下: - 人类迭代提示词 (.md) - AI Agent 迭代训练代码 (.py) 目标是构建出能够自主运行、无需人工干预,并能持续实现最快科研进度的 Agent。图片中的每个点都代表一次时长恰好为 5 分钟的完整 LLM 训练。Agent 在 Git 功能分支上进行自主循环,通过不断寻找更优的神经网络架构、优化器及各类超参数(以最终验证集损失更低为准),持续向训练脚本提交 Git commit。你可以借此对比不同提示词、不同 Agent 的研究进展。 https://t.co/YCvOwwjOzF 半是代码,半是科幻,还带点疯狂 :)
2026-03-07 · karpathy · 打开 ↗
啊,没错,这就是后 AGI 时代的感觉 :) 我啥也没动。去蒸个桑拿,回见。
2026-03-06 · karpathy · 打开 ↗
nanochat 现在仅需 2 小时,即可在单个 8xH100 节点上完成 GPT-2 能力模型的训练(一个月前约需 3 小时)。离实现“交互式”训练又近了一步!虽然进行了一系列调优和功能更新(如 fp8),但最大的变化是将数据集从 FineWeb-edu 切换到了 NVIDIA ClimbMix(NVIDIA 干得漂亮!)。我曾尝试过 Olmo、FineWeb 和 DCLM,但效果都出现了退化;而 ClimbMix 开箱即用效果极佳(甚至好到让我怀疑是否出现了古德哈特定律现象,但读完论文后觉得应该没问题)。 另外,在尝试了几种配置方案后,我现在已经实现了让 AI Agent 自动迭代 nanochat。所以我打算让它先跑着,自己去放松一下,享受这种“后 AGI 时代”的感觉 :)。这里展示一个可视化示例:在过去约 12 小时内,Agent 进行了 110 次更改,使 d12 模型的验证损失从 0.862415 降至 0.858039,且完全没有增加实际耗时。Agent 在功能分支上工作,尝试各种想法,成功后便合并并继续迭代。有趣的是,在过去的 2 周里,我感觉自己对“元设置”(即优化和调整 Agent 工作流)的迭代次数,甚至比直接迭代 nanochat 仓库本身还要多。
2026-03-05 · karpathy · 打开 ↗
I am unreasonably excited about self-driving. It will be the first technology in many decades to visibly terraform outdoor physical spaces and way of life. Less parked cars. Less parking lots. Much greater safety for people in and out of cars. Less noise pollution. More space
2025-11-13 · karpathy · 打开 ↗
I took delivery of a beautiful new shiny HW4 Tesla Model X today, so I immediately took it out for an FSD test drive, a bit like I used to do almost daily for 5 years. Basically... I'm amazed - it drives really, really well, smooth, confident, noticeably better than what I'm used
2025-11-12 · karpathy · 打开 ↗
I quite like the new DeepSeek-OCR paper. It's a good OCR model (maybe a bit worse than dots), and yes data collection etc., but anyway it doesn't matter. The more interesting part for me (esp as a computer vision at heart who is temporarily masquerading as a natural language
2025-10-20 · karpathy · 打开 ↗
My pleasure to come on Dwarkesh last week, I thought the questions and conversation were really good. I re-watched the pod just now too. First of all, yes I know, and I'm sorry that I speak so fast :). It's to my detriment because sometimes my speaking thread out-executes my
2025-10-18 · karpathy · 打开 ↗
TV in the 90s: you turn it on, you watch. TV 2025: - turn on, wait for it to load - popup: TV wants to update, 1.5GB. No. - scroll sideways, find prime video app or etc - popup: now app wants to update, 500MB. No!! - App launching... App loading… - select account screen - 🫠
2025-10-16 · karpathy · 打开 ↗
Excited to release new repo: nanochat! (it's among the most unhinged I've written). Unlike my earlier similar repo nanoGPT which only covered pretraining, nanochat is a minimal, from scratch, full-stack training/inference pipeline of a simple ChatGPT clone in a single, https://t
2025-10-13 · karpathy · 打开 ↗
Finally had a chance to listen through this pod with Sutton, which was interesting and amusing. As background, Sutton's "The Bitter Lesson" has become a bit of biblical text in frontier LLM circles. Researchers routinely talk about and ask whether this or that approach or idea
2025-10-01 · karpathy · 打开 ↗
"AI isn't replacing radiologists" good article Expectation: rapid progress in image recognition AI will delete radiology jobs (e.g. as famously predicted by Geoff Hinton now almost a decade ago). Reality: radiology is doing great and is growing. There are a lot of imo naive
2025-09-25 · karpathy · 打开 ↗
I think congrats again to OpenAI for cooking with GPT-5 Pro. This is the third time I've struggled on something complex/gnarly for an hour on and off with CC, then 5 Pro goes off for 10 minutes and comes back with code that works out of the box. I had CC read the 5 Pro version
2025-09-05 · karpathy · 打开 ↗
I get ~10 spam calls per day (various automated voicemails, "loan pre-approval" etc) and ~5 spam messages per day (usually phishing). - I have AT&T Active Armor, all of the above still slips through. - All of the above is always from new, unique numbers so blocking doesn't w
2025-08-18 · karpathy · 打开 ↗
I am (slowly) re-reading the Tolkien legendarium (of which Lord of the Rings is a small part). The whole body of work is so incredible and there's nothing else like it... it dilutes other worlds of fiction. Wait - your story doesn't have a comprehensive history/mythology spanning
2025-08-16 · karpathy · 打开 ↗
I'm noticing that due to (I think?) a lot of benchmarkmaxxing on long horizon tasks, LLMs are becoming a little too agentic by default, a little beyond my average use case. For example in coding, the models now tend to reason for a fairly long time, they have an inclination to
2025-08-09 · karpathy · 打开 ↗
Love this! Supercharger, diner, … but really a kind of exhibit for the future. Plotting a road trip SF -> LA to charge Shadowfax
2025-07-23 · karpathy · 打开 ↗
Knowledge makes the world so much more beautiful.
2025-07-06 · karpathy · 打开 ↗
How to build a thriving open source community by writing code like bacteria do 🦠. Bacterial code (genomes) are: - small (each line of code costs energy) - modular (organized into groups of swappable operons) - self-contained (easily "copy paste-able" via horizontal gene https://
2025-07-05 · karpathy · 打开 ↗
The race for LLM "cognitive core" - a few billion param model that maximally sacrifices encyclopedic knowledge for capability. It lives always-on and by default on every computer as the kernel of LLM personal computing. Its features are slowly crystalizing: - Natively multimodal
2025-06-27 · karpathy · 打开 ↗
+1 for "context engineering" over "prompt engineering". People associate prompts with short task descriptions you'd give an LLM in your day-to-day use. When in every industrial-strength LLM app, context engineering is the delicate art and science of filling the context window
2025-06-25 · karpathy · 打开 ↗
Prism is open source · ⭐ Star on GitHub · about