hn:search

What 'Getting Your Hands Dirty' Means at LLM-Era

2026-06-19 · maarcel93 · 打开 ↗

I tested Gemma4 12B on my 8GB GPU, now I don't want to go back to smaller models

2026-06-19 · theanonymousone · 打开 ↗

Show HN：Foldkit vs. React —— 用两种架构实现的同一个像素画编辑器 HN 的朋友们好，我是 Foldkit 的作者。Foldkit 是一个基于 Effect 并受 Elm 架构启发的 TypeScript 框架。本页面将 React 和 Foldkit 实现的同一个像素画编辑器进行了并排对比。我并不想侧重于性能基准测试或零散的示例，而是想对比在不同架构下构建和维护同一个应用时的实际体验。对比维度涵盖了状态管理、UI、异步操作、副作用、应用结构以及测试。

2026-06-19 · devinjameson · 打开 ↗

Markdown Comes to Liteparse

2026-06-19 · pierre · 打开 ↗

Show HN：通过一个系统提示词开关，对 LLM 的沉默表现进行 A/B 测试。

2026-06-19 · rayanpal_ · 打开 ↗

Show HN：通过收发短视频/音频片段，干掉 80% 的会议大家好，你可以通过收发快速的视频或音频片段进行沟通。由于交互机制的设计，它感觉像是在对话，能真正取代会议（不像 Loom，发完就结束了）： - 取代站会 - 取代快速同步或设计反馈 - 取代不必要的启动会和通知 - 取代代码评审会议，用于讲解复杂问题它让我的团队效率极高，我很想听听大家的看法。我想说的是，Loom 不太适合双向互动，而这款工具正是为此而生的。其他特性： - 键盘优先 - 支持 Web、macOS、Windows（推荐使用桌面端以获得完整功能） - 支持小聚会/实时通话 - 支持 Markdown 和轻量级任务功能（用于记录待办事项） - 支持屏幕共享视频提供免费版，小团队可以先用起来。移动端正在开发中，如需 TestFlight 测试权限请联系我。我敢打赌，你们中有些人可能会用它来取代 Slack、Teams 或 Zoom。因为通过语音/视频讲解并解决问题，比开会或在 Slack 里发一大堆长篇大论要高效得多。

2026-06-19 · talksik · 打开 ↗

Show HN: BeamWeaver —— 为 Elixir 打造的类 LangChain/DeepAgents 智能体与工作流大家好，我们在用 Elixir 开发智能体。我们反复遇到同一个问题：智能体系统缺乏可观测性。于是，我们决定吸取 LangChain、LangGraph 和 DeepAgents 的优点，并将其引入 Elixir。 BeamWeaver 采用原生适配 OTP 的设计，具备以下功能： - 智能体与工具调用 - 图工作流 - 检查点与可恢复执行 - 记忆存储 - 重试、回退、中断与人工审核 - 类型化的流式事件 - 支持 OpenAI、Anthropic、Google Gemini、xAI 以及 Moonshot/Kimi 的适配器 - 用于确定性测试的模拟/回放模型我们还在通过 WeaveScope 构建其上层的可观测性，该工具即将发布。 BeamWeaver 为 Elixir 团队提供了构建高级智能体系统所需的工具，无需再将复杂部分交给 Python 服务处理。

2026-06-19 · caudena · 打开 ↗

GLM-5.2：迄今最强大的开源模型，以及运行它的残酷现实。

2026-06-19 · ermantrout · 打开 ↗

向 HN 提问：有哪些能实现协作的多 LLM 编排框架？我的看法是：Gemini 擅长高层级的重构，但在编写实际代码时 Bug 很多；而 GPT/Claude 擅长写代码，但在重构时往往只做小修小补，喜欢为了兼容性而加入没必要的防御性编程，或者写出冗长混乱的“面条代码”。我的想法是取长补短：让 Gemini 提供架构方向，再让 GPT/Claude 进行讨论并实现（事实上我一直手动这么做，效果很好）。所以我的问题是：有没有什么 Agent 框架能有效地自动化这种协作？我了解现有的“子代理（subagent）”功能，但根据我的经验，AI 并不总是会主动调用它们。此外，当子代理在工作时，主模型通常只是在空转。这感觉不像真正的协作，更像是一种防止外包任务污染主上下文的机制——至少我的感觉是这样。

2026-06-19 · ch3coohlink · 打开 ↗

Show HN：你是否已存在于模型权重中？随着流量从网页端转向大语言模型（LLM），我很好奇我们在“权重”中留下了哪些痕迹。过去几周，我和设计合伙人开发了一个网站，用于检测各类前沿模型及小型模型对你的识别程度。它通过并行查询多个模型并对结果进行聚类分析，来告诉你它们对你的识别强度。欢迎大家提问！

2026-06-18 · turtlesoup · 打开 ↗

Show HN: OSymandias —— 多智能体 AI 系统的开源运行时

2026-06-18 · andreisilva1 · 打开 ↗

Show HN: Pagecast —— 将 Markdown/HTML 报告发布至 Cloudflare Pages 我开发这个工具是因为我经常用 Claude Code/Codex 生成 HTML/Markdown 报告，需要一个永久的分享链接，而不是临时的 localhost 隧道。Pagecast 是一个本地 CLI 工具，可将这些文件发布到你自己的 Cloudflare Pages 账号。它支持 Markdown 和 HTML，具备稳定的 URL、重命名、原 URL 覆盖发布，以及用于持续更新文件的 watch 模式。项目采用 MIT 协议开源。核心设计理念是不设立 Pagecast 托管账号，而是直接利用你的 Cloudflare 账号进行部署，并以 skill/hooks 的形式集成到 Claude Code 和 Codex 中。简单来说，它可以作为 Codex sites 或 Claude artifacts 的替代方案。

2026-06-18 · amaldavid · 打开 ↗

The smartphone's days are numbered. Meet the device that could come next

2026-06-18 · rmason · 打开 ↗

M* (M-Star)：面向多模态模型的模块化、可扩展服务系统

2026-06-18 · matt_d · 打开 ↗

Claude Code now supports artifacts

2026-06-18 · mfiguiere · 打开 ↗

Show HN：挖掘 40 年间的 Tracker/Chiptune 音频格式 (audio.1.sg) 过去几年，我一直在从事一项介于“数字考古”与“法医人类学”之间的工作，只不过对象是音乐格式。我研究的是从 20 世纪 80 年代到 2000 年代积累的数百种奇特、文档缺失的 Tracker、Chiptune、游戏机及游戏音频格式。其中大多数

2026-06-18 · Kaensu · 打开 ↗

Ask HN: Conflicted about founding engineer role Title says it all. I’m currently at 2.5 YOE at big tech making 250k. I love my work life balance and get to work on a lot of different side hustles.<p>Recently, I was offered the founding engineer (#1 employee) at a vertical SAAS c

2026-06-18 · gondolin1683 · 打开 ↗

Ask HN：你觉得 vibe coding（氛围编程）或 agentic engineering（智能体工程）能带来成就感吗？使用 Claude Code 这类工具时，我很难进入那种纯粹的“构建者”心流状态。用这些工具从零开始“变”出软件确实很酷，但产出的结果……怎么说呢，总觉得不像是出自我自己之手。也许是因为投入的精力太少，又或者是因为我心里清楚，只要提示词给得对，几乎任何人都能复制出同样的东西，软件本身似乎也不再那么特殊了。有人能通过这些工具找到那种“成就感”吗？我很想找回那种感觉。

2026-06-18 · uejfiweun · 打开 ↗

量化缓存感知推理路由带来的 LLM 成本节约

2026-06-18 · zxy-action · 打开 ↗

GPT-5 正在撰写奇点剧本 (2025)

2026-06-18 · Gooblebrai · 打开 ↗

Show HN: Foglamp – 面向 AI SDK 的开源可观测性工具

2026-06-18 · gustavofior · 打开 ↗

保障AI智能体的未来安全

2026-06-18 · falcor84 · 打开 ↗

Google DeepMind 发布计划，防范自家失控 AI 智能体。

2026-06-18 · Brajeshwar · 打开 ↗

Show HN：StartupWiki，Crunchbase 和 Pitchbook 的免费替代方案。 Crunchbase 每月 49 美元的费用对投资者来说尚可，但对其他人来说并不划算。因此我开发了这个网站。它的运作方式是：当你提交新的初创公司或指出错误时，我会通过内部后台调用 AI Agent 来自动生成公司简介或修复错误。这些 AI Agent 会通过交叉比对全网公开信息，来获取公司的各项指标。

2026-06-18 · shpran · 打开 ↗

Show HN：100 个大模型生成 HTML/CSS 版太阳系

2026-06-18 · XCSme · 打开 ↗

开源 AI 落后了多少？

2026-06-18 · eternal_braid · 打开 ↗

Show HN: FlurryPORT – 捕获并重放 Webhook 到本地环境 HN 的朋友们好，在完成一个 Shopify Webhook 项目后，我厌倦了为了测试边缘情况而手动触发事件，于是开发了 FlurryPORT.io，用于辅助 Webhook 的集成测试与调试。 FlurryPORT 是一款云端应用，可以持续接收服务商发送的 Webhook。它能防止你只能在“监听”时才注意到 Payload，或者只能测试到应用的“理想路径”（happy path）。这是我从 Shopify 的 `orders/updated` 事件中吸取的惨痛教训——当时我并不清楚客户端更新的真实频率。现在，你可以在写下第一行代码之前，就先设置好 Webhook 并监听相关流量。所有捕获的请求体和请求头在存储时均采用 AES-256-GCM 加密；查询字符串变量为明文。为了辅助应用设计，你可以批量选择捕获的内容并将其分组为集合，或使用“Copy for AI”功能。通过该功能，你可以将捕获的数据发送给 AI，以帮助确定最适合你应用的测试集。该功能会尽力脱敏 Payload 中的个人身份信息（PII），但建议仍进行人工抽查。我们还提供了一个 CLI 工具（`npm install -g flurryport`），可用作连接

2026-06-18 · spillcoffee · 打开 ↗

HN 发布：TesterArmy (YC P26) —— 用于 Web 和移动应用测试的智能体大家好 HN —— 我们是 Oskar、Szymon 和 Piotr，我们正在开发 TesterArmy (<a href="https://tester.army">https://tester.army</a>)。TesterArmy 是一个基于智能体（agentic）的测试平台，可在部署前和生产环境中进行端到端检查。无需再浪费数小时进行手动测试或维护静态脚本，你只需用自然语言描述测试需求，剩下的全部由我们处理。我们完全围绕智能体构建了该平台：我们的智能体负责可靠地执行测试，而你的编程智能体则可以管理平台上的所有事务，从用自然语言定义测试到代你运行测试。<p>查看我们的演示视频：<a href="https://www.youtube.com/watch?v=291IkUbPrlk" rel="nofollow">https://www.youtube.com/watch?v=291IkUbPrlk</a>。<p>我们创立 TesterArmy 是因为测试依然非常痛苦。AI 编程工具极大地提升了编写和交付代码的速度，但测试环节仍然是一个瓶颈。传统的端到端（E

2026-06-18 · okwasniewski · 打开 ↗

Show HN: Language1 —— 通过“禁忌词”游戏评估大模型对模糊提示词的理解力 HN 的朋友们好，我开发了 Language1 (https://language1.app)，这是一个让你与大模型进行“反向禁忌词”对战的文字游戏。玩法介绍：系统会给出目标词（例如“苹果”）和一组禁忌词（例如“水果”、“红色”、“树”）。你的目标是编写一段提示词，在不使用任何禁忌词的情况下，引导大模型准确输出目标词。基准测试目标：我计划利用游戏数据构建一个基准数据集，旨在语义约束下，测试并评估大模型处理模糊提示词、隐喻、类比及含糊解释的能力。游戏模式：单人模式：挑战一系列关卡来测试提示词的精准度。你可以通过尝试次数、解题时间和 Token 消耗量（基于标准 cl100k_base 编码）与全球玩家进行排名竞争。无需注册即可直接游玩，也可通过 Google 一键登录以提交成绩至排行榜。多人竞速：最多支持 10 人实时在线，进行 3 轮竞速。注：由于游戏刚上线，公共房间可能暂时无人，但你可以创建私密房间与好友一起游玩。可用模型：匿名用户将使用默认的 Gemma 3 Instruct 模型。

2026-06-18 · kaandemirel · 打开 ↗

Fable 5 使 Gemma 4 在 WebGPU 上的速度达到了 255 tok/s。

2026-06-18 · kirubakaran · 打开 ↗

Show HN：“数独单词搜索”——需要通过隐藏单词来破解的字母数独。我在尝试融合不同类型的益智游戏时，发明了一种我称之为“数独单词搜索”的新玩法。这是一种字母数独，单词隐藏在谜题中，你必须推断出单词的位置才能解题。也就是说，仅靠数独逻辑无法得到唯一解。你必须运用两种隐藏单词逻辑之一来完成谜题：1）推

2026-06-18 · bahbahbahbah · 打开 ↗

德国 CEO 推出 W Social，打造 X 的欧洲替代品。

2026-06-18 · xg15 · 打开 ↗

用 GPT-5.4 设计令人愉悦的前端。

2026-06-18 · tosh · 打开 ↗

Unreal Engine 5.8 为 AI 智能体新增 MCP 服务端。

2026-06-18 · bardonadam · 打开 ↗

TongFlow，一款免费开源的多模态 AI 工作流平台。

2026-06-18 · tong-io · 打开 ↗

Midjourney Medical 从 AI 图像生成迈向全身超声检查。

2026-06-18 · JeanKage · 打开 ↗

支持 Claude Code、OpenCode 和 Codex，通过 CLI 贯彻规格驱动开发的工具。

2026-06-18 · davidpv · 打开 ↗

Show HN: Cliptop，一款面向 macOS 的键盘优先剪贴板管理器大家好，我开发了 Cliptop，一款 macOS 剪贴板历史管理应用。没错，这又是另一个剪贴板管理器。我开发它的初衷是想要一个键盘操作极快、数据完全本地化、支持多种格式，且无需过多担心敏感内容安全的应用。我主要关注以下功能： * 键盘优先的搜索与粘贴 * 本地存储剪贴板历史，支持文本、链接、代码、图片、文件、颜色及设计图层（如 Figma） * 快速操作：如粘贴为纯文本、颜色格式转换、图片裁剪、去除背景及 Markdown 转换 * 收藏板：用于保存项目并保持条理 * 忽略特定应用（如密码管理器）及其他敏感来源 * 提供“粘贴后即刻删除”选项，防止密码或 Token 仍留在剪贴板中，避免在聊天时误发 * 原生 macOS 应用，体积约 10 MB，运行时内存占用低于 100 MB 可以通过快捷键、菜单栏或屏幕顶部/刘海区域唤起 UI。刘海区域只是一个入口，并非核心设计。我非常希望能听到关于隐私模型、敏感内容处理逻辑的反馈，以及哪些因素会影响你对剪贴板管理器的信任度。欢迎提问！

2026-06-18 · depomoty · 打开 ↗

Show HN: Gcontext —— 一个用于引导 Agent 处理支持任务的 llms.txt 文件树。我在一家开发武术馆管理软件 (MAAT) 的初创公司工作。我们通过支付系统和数据库管理学员会员信息，让馆主无需操心。随着合作馆的数量增加，我们的支持任务也随之增多：订阅问题、会员更新、数据导出等等…… 我们目前的解决方案是“llms.txt 文件树”。通常 llms.txt 用于索引网站或文档中的可用信息，而我们在内部也采用同样的思路来组织 Agent 所需的信息。Agent 从一个文件夹开始向下检索： ``` ├── llms.txt # 引用当前层级的每个文件夹 ├── stripe/ # info.md: Stripe 账户结构 ├── firestore/ # info.md: Schema 结构 └── support/ ├── info.md # 如何处理支持任务 ├── runbooks/ # 每个任务一个文件，自带 llms.txt │ ├── cancel-subscription.md │ ├── export-gym-data.md │ └── fix-membership-mismatch.md └── logs/ # 每天一个文件，记录 Agent 处理过的每个任务 ``` 通过这种方式，我们可以更好地引导 Agent，并在出现新的支持任务时快速创建新的操作手册 (runbook)。你可以在每个集成项中规定 Agent 可以

2026-06-18 · bsampera · 打开 ↗

使用 mistral.rs v0.8.10 运行 Agent Skills：支持 /v1/skills 及更多功能大家好！我是 mistral.rs 的维护者。我刚刚通过 /v1/skills 端点实现了对 OpenAI 兼容的 Agent Skills 的支持，且该功能可在本地开源模型上运行。此前，Skills 功能基本上局限于闭源模型。随着私有化、本地化智能变得日益重要，这项新功能让你能够利用本地模型实现各种操作。它完全兼容 OpenAI 的 /v1/skills API，因此你可以非常轻松地将 mistral.rs 无缝接入现有代码。我们还支持配套工具：可以通过 /v1/files 或 input_file 在提示词中附加文件，mistral.rs 也支持模型通过 OpenAI 兼容的方式传回生成的文件。现在尝试 mistral.rs 比以往任何时候都更容易：我们提供了针对 NVIDIA CUDA、Apple Silicon 和 CPU 的预编译二进制文件！ # Linux/Mac > curl --proto '=https' --tlsv1.2 -sSf https://raw.githubusercontent.com/EricLBuehler/mistral.rs/master/install.sh | sh # Windows > irm https://raw.githubusercontent.com/EricLBuehler/mistral.rs/master/install.ps1 | iex 然后运行： mistralrs serve --agent --isq 4 -m google/gemma-4-E4B-it 非常期待大家尝试并提供反馈！对于后续版本，你们有什么想要看到的功能建议吗？查看 GitHub：[链接]

2026-06-18 · ericlbuehler · 打开 ↗

一款开源 AI 的编程能力刚刚超越了 OpenAI 的 GPT-5.5，且价格仅为 1/6。

2026-06-18 · Raj_Sidwadkar · 打开 ↗

免费图片压缩与 WebP/AVIF 转换工具 —— 浏览器内直接运行

2026-06-18 · ORECTIC · 打开 ↗

Show HN：Attagram，一款能为孩子们提供神奇每日简报的小型打印机。我正在开发 Attagram：一台放在厨房里、专门为孩子打印每日纸质简报的小型打印机。这个想法源于我观察到的家庭生活新常态。我的两个女儿（A，9岁；J，8岁）正变得越来越独立，但作为父母，我们的脑子里和手机里塞满了大量“隐形信息”：项目什么时候截止、谁需要带球鞋、午饭吃什么、哪个孩子该去图书馆、看屏幕前要完成哪些家务、离露营还有几天、奶奶叮嘱的话、放学后发生了什么变化等等。孩子们处于这套系统的下游，而他们感受到的只有不断的唠叨： “去刷牙。” “把文件夹收好。” “别忘了带球鞋。” “别忘了带水壶。” “球鞋带了吗？” “请把球鞋收进包里。” 即便语气温柔，重复也会让人觉得是在唠叨。而且所有信息都锁在屏幕后面，如果你想在限制孩子看屏幕时间的同时，让他们学会更有自主感，这显然不是个好办法。 Attagram 正是为了解决这个问题。它将这些隐形的家庭琐事转化为孩子可以拥有的、每天一份的小物件。每天早晨，打印机会自动启动，打印出一份由父母编辑的“晨报”。内容包括：今日计划、待办事项、活动倒计时……

2026-06-18 · mvkel · 打开 ↗

GLM-5.2 或许是目前最强大的纯文本开放权重大语言模型。

2026-06-18 · lumpa · 打开 ↗

Ask HN：大家在用编程 Agent 时踩过哪些坑？

2026-06-18 · baddash · 打开 ↗

Show HN: Gptbased —— 提醒你何时切换模型的 LLM 排行榜 Gptbased 结合了 LMArena 排名与 OpenRouter 实时价格，并提供每日快照。功能： - 涵盖 8 个 LMArena 分类：文本、网页开发、视觉、图像生成、图像编辑及三个视频子集 - 基于 (成本, Elo) 空间的帕累托前沿（曲线拐点）筛选“性价比之选” - 模型并排对比 - 新模型进入榜单时发送邮件提醒 - 提供 RapidAPI 免费层级你还希望看到哪些功能？

2026-06-18 · gptbased · 打开 ↗

HN 提问：AI 模型建立在全人类知识之上，它们的权重是否应该像专利一样？这些模型本质上是我们已有成果的压缩。我们的书籍、代码、Stack Overflow 上的每一个回答，甚至是凌晨两点在论坛上的无意义争论。开发这些模型的公司并没有创造这些知识，他们只是抓取并压缩了它们；最终输出的内容，大多是我们集体产出的重新编码，再被返还给我们。这项工作成本高昂且极具价值，我并非要贬低这一点，但对此拥有排他性似乎完全不公平。这些机构在版权问题上本就游走在边缘，即便没有，我们也无法追溯性地

2026-06-18 · rhuber · 打开 ↗

Show HN：为 Claude Code 开发的开源求职插件 HN 的朋友们，我想分享一个我开发的开源插件及技能集，它可以将 Claude Code 转化为求职助手，旨在缩短寻找感兴趣且相关职位的时间。工作原理： 1. 克隆仓库，安装插件，运行 `/job-search`。 2. Claude 会通过几个问题了解你感兴趣的职位，并将偏好保存在本地。 3. Claude 会抓取实时职位信息（目前支持 LinkedIn Jobs），根据你的偏好进行对比，并生成一份相关职位的摘要。 4. [可选] Claude 还可以按计划（如每日）运行搜索，持续为你推送符合偏好的新职位。路线图功能： - 让 Claude 对比简历与职位描述（JD），评估“匹配度”。 - 让 Claude 提供简历修改建议，以更好地匹配特定职位。仓库：https://github.com/agent-data/job-search (MIT 协议) 重要提示：该插件底层使用 agent-data（一种获取结构化网页数据的工具）来抓取实时职位，因此你需要一个 API 密钥才能开始使用（无需信用卡）。

2026-06-18 · jb_hn · 打开 ↗

ChatGPT 的图像生成器可被操纵以生成暴力和色情内容。

2026-06-18 · dijksterhuis · 打开 ↗

爱沙尼亚为 AI 智能体分配身份识别码，以赋予其“授权”。

2026-06-17 · thoughtpeddler · 打开 ↗