Mike Knoop

Dwarkesh 🤝 AI 奖项。我也想看到其中一些问题的解答。

2026-04-25 · mikeknoop · 打开 ↗

GPT-4 到 o1 的质变原因非常明确（通过思维链推理实现的测试时自适应），但从 Gemini 2.5/GPT 5.1/Opus 4.1 到 Gemini 3/GPT 5.2/Opus 4.5 的智能体能力飞跃，原因尚不明确。更离谱的是，这三者发布的时间仅相隔约 3 周。

2026-04-20 · mikeknoop · 打开 ↗

@danielwshepard 和 @SalimansRobin 做得太棒了！

2026-04-20 · mikeknoop · 打开 ↗

我参与了 Zapier 这个新基准的制定。它基于约 400 万用户、20 亿个任务中的真实自动化模式，旨在挑战多工具编排与工具“构建”能力。目前 SOTA 为 10%，单任务成本 2 美元。

2026-04-20 · mikeknoop · 打开 ↗

METR有30人？ARC只有3个全职。

2026-04-17 · mikeknoop · 打开 ↗

Zapier 正在为 AI 智能体构建集成基础设施。许多传统的 IT “勾选式”控制项，已成为保障智能体间及智能体与软件间数据流动的关键功能。

2026-04-16 · mikeknoop · 打开 ↗

未来 12 个月，效率与确定性将成为 AI 智能体领域的核心议题。目前尚无人进行 ROI 核算，智能体的 Token 预算仍处于实验阶段。

2026-04-16 · mikeknoop · 打开 ↗

非常激动（终于）发布了我们的 ARC-AGI-3 人类基准数据！我们包含了所有公开测试集人类实验的记录。 https://t.co/8J6q3y5z64 基于发布后的新发现，我们也对评分进行了微调，详情见博客。核心结论保持不变： ARC-AGI-3 是 100% 可由人类解决的。在约 10 名普通大众组成的非受控测试小组中，每个环境的每个关卡都至少有两人（通常为五人或更多）成功通过。当 AI 得分为 100% 时，意味着它在每个环境的每个关卡上的表现，都达到或超过了我们人类基准的中位数水平。采用新评分标准后，AI 的 SOTA 从 0.3% 提升至 0.5%。感谢发布时提供反馈的所有人！我希望这能为 AI 基准测试中人类基准的透明度树立新标准。

2026-04-14 · mikeknoop · 打开 ↗

很棒的论文 https://t.co/8mxDyUB9HV

2026-04-13 · mikeknoop · 打开 ↗

Knoop 家族传来了不幸的消息。（Knoop 在荷兰语中意为“纽扣”）。

2026-04-10 · mikeknoop · 打开 ↗

ARC v3 的设计初衷正是为了展示这一趋势（动态推理）。在不同的环境下，有些场景风险较低，有些则关乎成败。智能系统必须能够识别并动态调整其推理强度或置信度阈值，才能取得成功。

2026-04-09 · mikeknoop · 打开 ↗

我担心 @NaveenGRao 的预测很准——这对 AI 权力的集中化不利。

2026-04-09 · mikeknoop · 打开 ↗

第三方开源 AI 研究融入第一方 Agent 框架的典型案例。下一步：模型层。

2026-04-08 · mikeknoop · 打开 ↗

Kaggle一直是@arcprize非常棒的合作伙伴！

2026-04-08 · mikeknoop · 打开 ↗

与 @AsteraInstitute 的 @michael_nielsen 的这期对话非常精彩，对所有从事 AI for Science 的人都有启发。

2026-04-08 · mikeknoop · 打开 ↗

想站在AI技术尖端中的尖端吗？ARC正在招聘平台工程师，该职位对ARC-AGI-5的开发至关重要。

2026-04-07 · mikeknoop · 打开 ↗

Zapier SDK 现已开启公开测试。让现有的智能体与软件实现无缝协同。接入流程竟然只需“把链接粘贴到智能体中”，简直太疯狂了。软件进化的范式正在飞速演变！

2026-04-07 · mikeknoop · 打开 ↗

最受期待的嘉宾！Kevin 的 DreamCoder 研究在程序合成领域极具影响力。

2026-04-07 · mikeknoop · 打开 ↗

我们正处于一个不稳定的局面。我们拥有强大的 AI 自动化能力，却缺乏与之匹配的 AI 创新能力。若要让社会继续认可 AI 的前景，我们需要具备开放式创新能力的 AI，而这在目前仍是研发阶段的梦想。某些类型的创新（如药物研发）是相对封闭且可自动化的。作为行业，明智的做法是加大对这类领域的投入，以争取时间。

2026-04-04 · mikeknoop · 打开 ↗

哇，马修打造了一家估值10亿美元的“一人公司”。

2026-04-03 · mikeknoop · 打开 ↗

两年前发起 ARC Prize 时，这个假设尚属合理，但现在已不再成立。LLM 已经能够很好地理解并处理 ARC-AGI 格式，v1 和 v2 的排行榜便是明证。

2026-03-30 · mikeknoop · 打开 ↗

我预见会有更多编程思想融入 LLM 的上下文与推理工具。深度学习与程序合成结合的领域潜力巨大，而目前基于自回归自然语言 CoT 的程序生成方式还非常初级。

2026-03-30 · mikeknoop · 打开 ↗

大家对 ARC 的看法各异！我非常感谢网上分享的所有反馈，特别是那些帮助提升 ARC-AGI-3 关键设计决策关注度的人。我最喜欢的反馈是那些说玩新游戏很有趣的人。由 @punchesbears 领导的游戏工作室团队为了提升游戏的吸引力付出了巨大努力，看到大家的喜爱，他们的努力得到了回报。构建前沿基准测试与我以往做过的任何产品都不同。我们的反馈往往极度稀疏，但一旦到来便是海量爆发。在 v3 版本中我们尝试了新方法：去年夏天发布了首个预览版，今年 1 月发布了开发工具包，3 月进行了实验室路演，以便在正式发布前收集反馈。但对 Demo 的反馈终究无法替代真实体验。在发布前，我们曾问过自己一些棘手的问题： 1. ARC 断言 AI 缺失某种人类智能能力（例如，在这种能力面前，平均水平并不重要），我们该如何传达这一点？ 2. 我们首次对人类和 AI 的推理效率进行了正式对比。如何才能最好地对其进行评分？ 3. 前沿 AI 正在飞速进步。

2026-03-26 · mikeknoop · 打开 ↗

我的预测与之类似，但结论不同。大语言模型的默认交互界面/API最终将从基础对话转向智能体。我相信，只有当智能体足够强大，能够应对更广泛、更通用场景下的商业压力时，才会迎来这一标志着AI重大进展的转折点。目前AI对话拥有超过10亿用户，而智能体目前可能只有1000万。我们实际上面临着两个相互冲突的目标：一是减少在报告AI进展时出现“虚假进展”；二是突出有前景的新研究思路。我们正尝试通过设立独立的“验证榜单”和“社区榜单”来兼顾两者。我不确定我们是否已经完全解决了这个问题，但我认为这两个目标都值得追求。

2026-03-26 · mikeknoop · 打开 ↗

ARC-AGI-3 的一大亮点是提供用于分析的回放记录。我们已发布所有验证得分的回放（见下方），研究人员也可以使用同样的工具来改进自己的模型。

2026-03-25 · mikeknoop · 打开 ↗

稍后开播，聊聊 ARC-AGI-3。

2026-03-25 · mikeknoop · 打开 ↗

在推出 ARC-AGI-2 时，我们将衡量指标从仅报告准确率 (%) 扩展到了包含效率 ($)。这是为了应对 AI 的进步——推理模型的出现使得这一改变变得必要，因为你可以通过投入更多的测试时计算量（test-time compute）来换取更高的性能。要衡量 AGI 的进展，两者缺一不可。在 ARC-AGI-3 中，我们再次顺应 AI 的进步，为官方 Verified 排行榜引入了“无状态客户端”（stateless client）的评分理念。其核心理念是，未来的 AGI 不需要测试方进行特殊的状态管理，因为这可能会引入偶然或刻意的偏差。现代推理模型已变得极其强大，只要人类围绕基础模型的智能构建适配框架（harnesses），就能实现特定领域的进步（如 Codex 和 Claude Code 所展示的那样）。ARC 的目的并非测试人类使用 AI 的能力，而是要直接测试 AI 本身。这是一个拥抱 AGI 本质的举动，旨在为人类和 AI 提供最接近实际的测试体验，从而揭示真正的进展。我预计其他关注泛化能力测试的基准测试也会采取类似的观点。

2026-03-25 · mikeknoop · 打开 ↗

今日 Fast Company 上 @thesullivan 对 ARC-AGI-3 的精彩综述：https://t.co/Y6lsdoPYZr

2026-03-25 · mikeknoop · 打开 ↗