← 精选
Dwarkesh 🤝 AI 奖项。我也想看到其中一些问题的解答。
2026-04-25 · mikeknoop · 打开 ↗
GPT-4 到 o1 的质变原因非常明确(通过思维链推理实现的测试时自适应),但从 Gemini 2.5/GPT 5.1/Opus 4.1 到 Gemini 3/GPT 5.2/Opus 4.5 的智能体能力飞跃,原因尚不明确。更离谱的是,这三者发布的时间仅相隔约 3 周。
2026-04-20 · mikeknoop · 打开 ↗
@danielwshepard 和 @SalimansRobin 做得太棒了!
2026-04-20 · mikeknoop · 打开 ↗
我参与了 Zapier 这个新基准的制定。它基于约 400 万用户、20 亿个任务中的真实自动化模式,旨在挑战多工具编排与工具“构建”能力。目前 SOTA 为 10%,单任务成本 2 美元。
2026-04-20 · mikeknoop · 打开 ↗
METR有30人?ARC只有3个全职。
2026-04-17 · mikeknoop · 打开 ↗
Zapier 正在为 AI 智能体构建集成基础设施。许多传统的 IT “勾选式”控制项,已成为保障智能体间及智能体与软件间数据流动的关键功能。
2026-04-16 · mikeknoop · 打开 ↗
未来 12 个月,效率与确定性将成为 AI 智能体领域的核心议题。目前尚无人进行 ROI 核算,智能体的 Token 预算仍处于实验阶段。
2026-04-16 · mikeknoop · 打开 ↗
非常激动(终于)发布了我们的 ARC-AGI-3 人类基准数据!我们包含了所有公开测试集人类实验的记录。 https://t.co/8J6q3y5z64 基于发布后的新发现,我们也对评分进行了微调,详情见博客。核心结论保持不变: ARC-AGI-3 是 100% 可由人类解决的。在约 10 名普通大众组成的非受控测试小组中,每个环境的每个关卡都至少有两人(通常为五人或更多)成功通过。 当 AI 得分为 100% 时,意味着它在每个环境的每个关卡上的表现,都达到或超过了我们人类基准的中位数水平。 采用新评分标准后,AI 的 SOTA 从 0.3% 提升至 0.5%。 感谢发布时提供反馈的所有人!我希望这能为 AI 基准测试中人类基准的透明度树立新标准。
2026-04-14 · mikeknoop · 打开 ↗
很棒的论文 https://t.co/8mxDyUB9HV
2026-04-13 · mikeknoop · 打开 ↗
Knoop 家族传来了不幸的消息。(Knoop 在荷兰语中意为“纽扣”)。
2026-04-10 · mikeknoop · 打开 ↗
ARC v3 的设计初衷正是为了展示这一趋势(动态推理)。在不同的环境下,有些场景风险较低,有些则关乎成败。智能系统必须能够识别并动态调整其推理强度或置信度阈值,才能取得成功。
2026-04-09 · mikeknoop · 打开 ↗
我担心 @NaveenGRao 的预测很准——这对 AI 权力的集中化不利。
2026-04-09 · mikeknoop · 打开 ↗
第三方开源 AI 研究融入第一方 Agent 框架的典型案例。下一步:模型层。
2026-04-08 · mikeknoop · 打开 ↗
Kaggle一直是@arcprize非常棒的合作伙伴!
2026-04-08 · mikeknoop · 打开 ↗
与 @AsteraInstitute 的 @michael_nielsen 的这期对话非常精彩,对所有从事 AI for Science 的人都有启发。
2026-04-08 · mikeknoop · 打开 ↗
想站在AI技术尖端中的尖端吗?ARC正在招聘平台工程师,该职位对ARC-AGI-5的开发至关重要。
2026-04-07 · mikeknoop · 打开 ↗
Zapier SDK 现已开启公开测试。让现有的智能体与软件实现无缝协同。接入流程竟然只需“把链接粘贴到智能体中”,简直太疯狂了。软件进化的范式正在飞速演变!
2026-04-07 · mikeknoop · 打开 ↗
最受期待的嘉宾!Kevin 的 DreamCoder 研究在程序合成领域极具影响力。
2026-04-07 · mikeknoop · 打开 ↗
我们正处于一个不稳定的局面。我们拥有强大的 AI 自动化能力,却缺乏与之匹配的 AI 创新能力。若要让社会继续认可 AI 的前景,我们需要具备开放式创新能力的 AI,而这在目前仍是研发阶段的梦想。 某些类型的创新(如药物研发)是相对封闭且可自动化的。作为行业,明智的做法是加大对这类领域的投入,以争取时间。
2026-04-04 · mikeknoop · 打开 ↗
哇,马修打造了一家估值10亿美元的“一人公司”。
2026-04-03 · mikeknoop · 打开 ↗
两年前发起 ARC Prize 时,这个假设尚属合理,但现在已不再成立。LLM 已经能够很好地理解并处理 ARC-AGI 格式,v1 和 v2 的排行榜便是明证。
2026-03-30 · mikeknoop · 打开 ↗
我预见会有更多编程思想融入 LLM 的上下文与推理工具。深度学习与程序合成结合的领域潜力巨大,而目前基于自回归自然语言 CoT 的程序生成方式还非常初级。
2026-03-30 · mikeknoop · 打开 ↗
大家对 ARC 的看法各异! 我非常感谢网上分享的所有反馈,特别是那些帮助提升 ARC-AGI-3 关键设计决策关注度的人。 我最喜欢的反馈是那些说玩新游戏很有趣的人。由 @punchesbears 领导的游戏工作室团队为了提升游戏的吸引力付出了巨大努力,看到大家的喜爱,他们的努力得到了回报。 构建前沿基准测试与我以往做过的任何产品都不同。我们的反馈往往极度稀疏,但一旦到来便是海量爆发。 在 v3 版本中我们尝试了新方法:去年夏天发布了首个预览版,今年 1 月发布了开发工具包,3 月进行了实验室路演,以便在正式发布前收集反馈。 但对 Demo 的反馈终究无法替代真实体验。在发布前,我们曾问过自己一些棘手的问题: 1. ARC 断言 AI 缺失某种人类智能能力(例如,在这种能力面前,平均水平并不重要),我们该如何传达这一点? 2. 我们首次对人类和 AI 的推理效率进行了正式对比。如何才能最好地对其进行评分? 3. 前沿 AI 正在飞速进步。
2026-03-26 · mikeknoop · 打开 ↗
我的预测与之类似,但结论不同。大语言模型的默认交互界面/API最终将从基础对话转向智能体。我相信,只有当智能体足够强大,能够应对更广泛、更通用场景下的商业压力时,才会迎来这一标志着AI重大进展的转折点。目前AI对话拥有超过10亿用户,而智能体目前可能只有1000万。 我们实际上面临着两个相互冲突的目标:一是减少在报告AI进展时出现“虚假进展”;二是突出有前景的新研究思路。我们正尝试通过设立独立的“验证榜单”和“社区榜单”来兼顾两者。 我不确定我们是否已经完全解决了这个问题,但我认为这两个目标都值得追求。
2026-03-26 · mikeknoop · 打开 ↗
ARC-AGI-3 的一大亮点是提供用于分析的回放记录。我们已发布所有验证得分的回放(见下方),研究人员也可以使用同样的工具来改进自己的模型。
2026-03-25 · mikeknoop · 打开 ↗
稍后开播,聊聊 ARC-AGI-3。
2026-03-25 · mikeknoop · 打开 ↗
在推出 ARC-AGI-2 时,我们将衡量指标从仅报告准确率 (%) 扩展到了包含效率 ($)。 这是为了应对 AI 的进步——推理模型的出现使得这一改变变得必要,因为你可以通过投入更多的测试时计算量(test-time compute)来换取更高的性能。要衡量 AGI 的进展,两者缺一不可。 在 ARC-AGI-3 中,我们再次顺应 AI 的进步,为官方 Verified 排行榜引入了“无状态客户端”(stateless client)的评分理念。其核心理念是,未来的 AGI 不需要测试方进行特殊的状态管理,因为这可能会引入偶然或刻意的偏差。 现代推理模型已变得极其强大,只要人类围绕基础模型的智能构建适配框架(harnesses),就能实现特定领域的进步(如 Codex 和 Claude Code 所展示的那样)。ARC 的目的并非测试人类使用 AI 的能力,而是要直接测试 AI 本身。 这是一个拥抱 AGI 本质的举动,旨在为人类和 AI 提供最接近实际的测试体验,从而揭示真正的进展。我预计其他关注泛化能力测试的基准测试也会采取类似的观点。
2026-03-25 · mikeknoop · 打开 ↗
今日 Fast Company 上 @thesullivan 对 ARC-AGI-3 的精彩综述:https://t.co/Y6lsdoPYZr
2026-03-25 · mikeknoop · 打开 ↗
Prism is open source · ⭐ Star on GitHub · about