What 'Getting Your Hands Dirty' Means at LLM-Era
2026-06-19 · maarcel93 · 打开 ↗
I tested Gemma4 12B on my 8GB GPU, now I don't want to go back to smaller models
2026-06-19 · theanonymousone · 打开 ↗
Show HN:Foldkit vs. React —— 用两种架构实现的同一个像素画编辑器 HN 的朋友们好,我是 Foldkit 的作者。Foldkit 是一个基于 Effect 并受 Elm 架构启发的 TypeScript 框架。 本页面将 React 和 Foldkit 实现的同一个像素画编辑器进行了并排对比。 我并不想侧重于性能基准测试或零散的示例,而是想对比在不同架构下构建和维护同一个应用时的实际体验。对比维度涵盖了状态管理、UI、异步操作、副作用、应用结构以及测试。
2026-06-19 · devinjameson · 打开 ↗
Markdown Comes to Liteparse
2026-06-19 · pierre · 打开 ↗
Show HN:通过一个系统提示词开关,对 LLM 的沉默表现进行 A/B 测试。
2026-06-19 · rayanpal_ · 打开 ↗
Show HN:通过收发短视频/音频片段,干掉 80% 的会议 大家好, 你可以通过收发快速的视频或音频片段进行沟通。由于交互机制的设计,它感觉像是在对话,能真正取代会议(不像 Loom,发完就结束了): - 取代站会 - 取代快速同步或设计反馈 - 取代不必要的启动会和通知 - 取代代码评审会议,用于讲解复杂问题 它让我的团队效率极高,我很想听听大家的看法。我想说的是,Loom 不太适合双向互动,而这款工具正是为此而生的。 其他特性: - 键盘优先 - 支持 Web、macOS、Windows(推荐使用桌面端以获得完整功能) - 支持小聚会/实时通话 - 支持 Markdown 和轻量级任务功能(用于记录待办事项) - 支持屏幕共享视频 提供免费版,小团队可以先用起来。移动端正在开发中,如需 TestFlight 测试权限请联系我。 我敢打赌,你们中有些人可能会用它来取代 Slack、Teams 或 Zoom。因为通过语音/视频讲解并解决问题,比开会或在 Slack 里发一大堆长篇大论要高效得多。
2026-06-19 · talksik · 打开 ↗
Show HN: BeamWeaver —— 为 Elixir 打造的类 LangChain/DeepAgents 智能体与工作流 大家好,我们在用 Elixir 开发智能体。我们反复遇到同一个问题:智能体系统缺乏可观测性。 于是,我们决定吸取 LangChain、LangGraph 和 DeepAgents 的优点,并将其引入 Elixir。 BeamWeaver 采用原生适配 OTP 的设计,具备以下功能: - 智能体与工具调用 - 图工作流 - 检查点与可恢复执行 - 记忆存储 - 重试、回退、中断与人工审核 - 类型化的流式事件 - 支持 OpenAI、Anthropic、Google Gemini、xAI 以及 Moonshot/Kimi 的适配器 - 用于确定性测试的模拟/回放模型 我们还在通过 WeaveScope 构建其上层的可观测性,该工具即将发布。 BeamWeaver 为 Elixir 团队提供了构建高级智能体系统所需的工具,无需再将复杂部分交给 Python 服务处理。
2026-06-19 · caudena · 打开 ↗
GLM-5.2:迄今最强大的开源模型,以及运行它的残酷现实。
2026-06-19 · ermantrout · 打开 ↗
向 HN 提问:有哪些能实现协作的多 LLM 编排框架? 我的看法是:Gemini 擅长高层级的重构,但在编写实际代码时 Bug 很多;而 GPT/Claude 擅长写代码,但在重构时往往只做小修小补,喜欢为了兼容性而加入没必要的防御性编程,或者写出冗长混乱的“面条代码”。 我的想法是取长补短:让 Gemini 提供架构方向,再让 GPT/Claude 进行讨论并实现(事实上我一直手动这么做,效果很好)。 所以我的问题是:有没有什么 Agent 框架能有效地自动化这种协作? 我了解现有的“子代理(subagent)”功能,但根据我的经验,AI 并不总是会主动调用它们。此外,当子代理在工作时,主模型通常只是在空转。这感觉不像真正的协作,更像是一种防止外包任务污染主上下文的机制——至少我的感觉是这样。
2026-06-19 · ch3coohlink · 打开 ↗
Show HN:你是否已存在于模型权重中? 随着流量从网页端转向大语言模型(LLM),我很好奇我们在“权重”中留下了哪些痕迹。过去几周,我和设计合伙人开发了一个网站,用于检测各类前沿模型及小型模型对你的识别程度。它通过并行查询多个模型并对结果进行聚类分析,来告诉你它们对你的识别强度。欢迎大家提问!
2026-06-18 · turtlesoup · 打开 ↗
Show HN: OSymandias —— 多智能体 AI 系统的开源运行时
2026-06-18 · andreisilva1 · 打开 ↗
Show HN: Pagecast —— 将 Markdown/HTML 报告发布至 Cloudflare Pages 我开发这个工具是因为我经常用 Claude Code/Codex 生成 HTML/Markdown 报告,需要一个永久的分享链接,而不是临时的 localhost 隧道。Pagecast 是一个本地 CLI 工具,可将这些文件发布到你自己的 Cloudflare Pages 账号。 它支持 Markdown 和 HTML,具备稳定的 URL、重命名、原 URL 覆盖发布,以及用于持续更新文件的 watch 模式。项目采用 MIT 协议开源。 核心设计理念是不设立 Pagecast 托管账号,而是直接利用你的 Cloudflare 账号进行部署,并以 skill/hooks 的形式集成到 Claude Code 和 Codex 中。 简单来说,它可以作为 Codex sites 或 Claude artifacts 的替代方案。
2026-06-18 · amaldavid · 打开 ↗
The smartphone's days are numbered. Meet the device that could come next
2026-06-18 · rmason · 打开 ↗
M* (M-Star):面向多模态模型的模块化、可扩展服务系统
2026-06-18 · matt_d · 打开 ↗
Claude Code now supports artifacts
2026-06-18 · mfiguiere · 打开 ↗
Show HN:挖掘 40 年间的 Tracker/Chiptune 音频格式 (audio.1.sg) 过去几年,我一直在从事一项介于“数字考古”与“法医人类学”之间的工作,只不过对象是音乐格式。我研究的是从 20 世纪 80 年代到 2000 年代积累的数百种奇特、文档缺失的 Tracker、Chiptune、游戏机及游戏音频格式。 其中大多数
2026-06-18 · Kaensu · 打开 ↗
Ask HN: Conflicted about founding engineer role Title says it all. I’m currently at 2.5 YOE at big tech making 250k. I love my work life balance and get to work on a lot of different side hustles.<p>Recently, I was offered the founding engineer (#1 employee) at a vertical SAAS c
2026-06-18 · gondolin1683 · 打开 ↗
Ask HN:你觉得 vibe coding(氛围编程)或 agentic engineering(智能体工程)能带来成就感吗? 使用 Claude Code 这类工具时,我很难进入那种纯粹的“构建者”心流状态。用这些工具从零开始“变”出软件确实很酷,但产出的结果……怎么说呢,总觉得不像是出自我自己之手。也许是因为投入的精力太少,又或者是因为我心里清楚,只要提示词给得对,几乎任何人都能复制出同样的东西,软件本身似乎也不再那么特殊了。 有人能通过这些工具找到那种“成就感”吗?我很想找回那种感觉。
2026-06-18 · uejfiweun · 打开 ↗
量化缓存感知推理路由带来的 LLM 成本节约
2026-06-18 · zxy-action · 打开 ↗
GPT-5 正在撰写奇点剧本 (2025)
2026-06-18 · Gooblebrai · 打开 ↗
Show HN: Foglamp – 面向 AI SDK 的开源可观测性工具
2026-06-18 · gustavofior · 打开 ↗
保障AI智能体的未来安全
2026-06-18 · falcor84 · 打开 ↗
Google DeepMind 发布计划,防范自家失控 AI 智能体。
2026-06-18 · Brajeshwar · 打开 ↗
Show HN:StartupWiki,Crunchbase 和 Pitchbook 的免费替代方案。 Crunchbase 每月 49 美元的费用对投资者来说尚可,但对其他人来说并不划算。因此我开发了这个网站。它的运作方式是:当你提交新的初创公司或指出错误时,我会通过内部后台调用 AI Agent 来自动生成公司简介或修复错误。这些 AI Agent 会通过交叉比对全网公开信息,来获取公司的各项指标。
2026-06-18 · shpran · 打开 ↗
Show HN:100 个大模型生成 HTML/CSS 版太阳系
2026-06-18 · XCSme · 打开 ↗
开源 AI 落后了多少?
2026-06-18 · eternal_braid · 打开 ↗
Show HN: FlurryPORT – 捕获并重放 Webhook 到本地环境 HN 的朋友们好,在完成一个 Shopify Webhook 项目后,我厌倦了为了测试边缘情况而手动触发事件,于是开发了 FlurryPORT.io,用于辅助 Webhook 的集成测试与调试。 FlurryPORT 是一款云端应用,可以持续接收服务商发送的 Webhook。它能防止你只能在“监听”时才注意到 Payload,或者只能测试到应用的“理想路径”(happy path)。这是我从 Shopify 的 `orders/updated` 事件中吸取的惨痛教训——当时我并不清楚客户端更新的真实频率。现在,你可以在写下第一行代码之前,就先设置好 Webhook 并监听相关流量。 所有捕获的请求体和请求头在存储时均采用 AES-256-GCM 加密;查询字符串变量为明文。 为了辅助应用设计,你可以批量选择捕获的内容并将其分组为集合,或使用“Copy for AI”功能。通过该功能,你可以将捕获的数据发送给 AI,以帮助确定最适合你应用的测试集。该功能会尽力脱敏 Payload 中的个人身份信息(PII),但建议仍进行人工抽查。 我们还提供了一个 CLI 工具(`npm install -g flurryport`),可用作连接
2026-06-18 · spillcoffee · 打开 ↗
HN 发布:TesterArmy (YC P26) —— 用于 Web 和移动应用测试的智能体 大家好 HN —— 我们是 Oskar、Szymon 和 Piotr,我们正在开发 TesterArmy (<a href="https://tester.army">https://tester.army</a>)。TesterArmy 是一个基于智能体(agentic)的测试平台,可在部署前和生产环境中进行端到端检查。无需再浪费数小时进行手动测试或维护静态脚本,你只需用自然语言描述测试需求,剩下的全部由我们处理。我们完全围绕智能体构建了该平台:我们的智能体负责可靠地执行测试,而你的编程智能体则可以管理平台上的所有事务,从用自然语言定义测试到代你运行测试。<p>查看我们的演示视频:<a href="https://www.youtube.com/watch?v=291IkUbPrlk" rel="nofollow">https://www.youtube.com/watch?v=291IkUbPrlk</a>。<p>我们创立 TesterArmy 是因为测试依然非常痛苦。AI 编程工具极大地提升了编写和交付代码的速度,但测试环节仍然是一个瓶颈。传统的端到端(E
2026-06-18 · okwasniewski · 打开 ↗
Show HN: Language1 —— 通过“禁忌词”游戏评估大模型对模糊提示词的理解力 HN 的朋友们好,我开发了 Language1 (https://language1.app),这是一个让你与大模型进行“反向禁忌词”对战的文字游戏。 玩法介绍:系统会给出目标词(例如“苹果”)和一组禁忌词(例如“水果”、“红色”、“树”)。你的目标是编写一段提示词,在不使用任何禁忌词的情况下,引导大模型准确输出目标词。 基准测试目标:我计划利用游戏数据构建一个基准数据集,旨在语义约束下,测试并评估大模型处理模糊提示词、隐喻、类比及含糊解释的能力。 游戏模式: 单人模式:挑战一系列关卡来测试提示词的精准度。你可以通过尝试次数、解题时间和 Token 消耗量(基于标准 cl100k_base 编码)与全球玩家进行排名竞争。无需注册即可直接游玩,也可通过 Google 一键登录以提交成绩至排行榜。 多人竞速:最多支持 10 人实时在线,进行 3 轮竞速。注:由于游戏刚上线,公共房间可能暂时无人,但你可以创建私密房间与好友一起游玩。 可用模型: 匿名用户将使用默认的 Gemma 3 Instruct 模型。
2026-06-18 · kaandemirel · 打开 ↗
Fable 5 使 Gemma 4 在 WebGPU 上的速度达到了 255 tok/s。
2026-06-18 · kirubakaran · 打开 ↗
Show HN:“数独单词搜索”——需要通过隐藏单词来破解的字母数独。 我在尝试融合不同类型的益智游戏时,发明了一种我称之为“数独单词搜索”的新玩法。这是一种字母数独,单词隐藏在谜题中,你必须推断出单词的位置才能解题。 也就是说,仅靠数独逻辑无法得到唯一解。你必须运用两种隐藏单词逻辑之一来完成谜题:1)推
2026-06-18 · bahbahbahbah · 打开 ↗
德国 CEO 推出 W Social,打造 X 的欧洲替代品。
2026-06-18 · xg15 · 打开 ↗
用 GPT-5.4 设计令人愉悦的前端。
2026-06-18 · tosh · 打开 ↗
Unreal Engine 5.8 为 AI 智能体新增 MCP 服务端。
2026-06-18 · bardonadam · 打开 ↗
TongFlow,一款免费开源的多模态 AI 工作流平台。
2026-06-18 · tong-io · 打开 ↗
Midjourney Medical 从 AI 图像生成迈向全身超声检查。
2026-06-18 · JeanKage · 打开 ↗
支持 Claude Code、OpenCode 和 Codex,通过 CLI 贯彻规格驱动开发的工具。
2026-06-18 · davidpv · 打开 ↗
Show HN: Cliptop,一款面向 macOS 的键盘优先剪贴板管理器 大家好,我开发了 Cliptop,一款 macOS 剪贴板历史管理应用。 没错,这又是另一个剪贴板管理器。我开发它的初衷是想要一个键盘操作极快、数据完全本地化、支持多种格式,且无需过多担心敏感内容安全的应用。 我主要关注以下功能: * 键盘优先的搜索与粘贴 * 本地存储剪贴板历史,支持文本、链接、代码、图片、文件、颜色及设计图层(如 Figma) * 快速操作:如粘贴为纯文本、颜色格式转换、图片裁剪、去除背景及 Markdown 转换 * 收藏板:用于保存项目并保持条理 * 忽略特定应用(如密码管理器)及其他敏感来源 * 提供“粘贴后即刻删除”选项,防止密码或 Token 仍留在剪贴板中,避免在聊天时误发 * 原生 macOS 应用,体积约 10 MB,运行时内存占用低于 100 MB 可以通过快捷键、菜单栏或屏幕顶部/刘海区域唤起 UI。刘海区域只是一个入口,并非核心设计。 我非常希望能听到关于隐私模型、敏感内容处理逻辑的反馈,以及哪些因素会影响你对剪贴板管理器的信任度。 欢迎提问!
2026-06-18 · depomoty · 打开 ↗
Show HN: Gcontext —— 一个用于引导 Agent 处理支持任务的 llms.txt 文件树。 我在一家开发武术馆管理软件 (MAAT) 的初创公司工作。我们通过支付系统和数据库管理学员会员信息,让馆主无需操心。随着合作馆的数量增加,我们的支持任务也随之增多:订阅问题、会员更新、数据导出等等…… 我们目前的解决方案是“llms.txt 文件树”。通常 llms.txt 用于索引网站或文档中的可用信息,而我们在内部也采用同样的思路来组织 Agent 所需的信息。Agent 从一个文件夹开始向下检索: ``` ├── llms.txt # 引用当前层级的每个文件夹 ├── stripe/ # info.md: Stripe 账户结构 ├── firestore/ # info.md: Schema 结构 └── support/ ├── info.md # 如何处理支持任务 ├── runbooks/ # 每个任务一个文件,自带 llms.txt │ ├── cancel-subscription.md │ ├── export-gym-data.md │ └── fix-membership-mismatch.md └── logs/ # 每天一个文件,记录 Agent 处理过的每个任务 ``` 通过这种方式,我们可以更好地引导 Agent,并在出现新的支持任务时快速创建新的操作手册 (runbook)。你可以在每个集成项中规定 Agent 可以
2026-06-18 · bsampera · 打开 ↗
使用 mistral.rs v0.8.10 运行 Agent Skills:支持 /v1/skills 及更多功能 大家好!我是 mistral.rs 的维护者。我刚刚通过 /v1/skills 端点实现了对 OpenAI 兼容的 Agent Skills 的支持,且该功能可在本地开源模型上运行。 此前,Skills 功能基本上局限于闭源模型。随着私有化、本地化智能变得日益重要,这项新功能让你能够利用本地模型实现各种操作。 它完全兼容 OpenAI 的 /v1/skills API,因此你可以非常轻松地将 mistral.rs 无缝接入现有代码。 我们还支持配套工具:可以通过 /v1/files 或 input_file 在提示词中附加文件,mistral.rs 也支持模型通过 OpenAI 兼容的方式传回生成的文件。 现在尝试 mistral.rs 比以往任何时候都更容易:我们提供了针对 NVIDIA CUDA、Apple Silicon 和 CPU 的预编译二进制文件! # Linux/Mac > curl --proto '=https' --tlsv1.2 -sSf https://raw.githubusercontent.com/EricLBuehler/mistral.rs/master/install.sh | sh # Windows > irm https://raw.githubusercontent.com/EricLBuehler/mistral.rs/master/install.ps1 | iex 然后运行: mistralrs serve --agent --isq 4 -m google/gemma-4-E4B-it 非常期待大家尝试并提供反馈!对于后续版本,你们有什么想要看到的功能建议吗? 查看 GitHub:[链接]
2026-06-18 · ericlbuehler · 打开 ↗
一款开源 AI 的编程能力刚刚超越了 OpenAI 的 GPT-5.5,且价格仅为 1/6。
2026-06-18 · Raj_Sidwadkar · 打开 ↗
免费图片压缩与 WebP/AVIF 转换工具 —— 浏览器内直接运行
2026-06-18 · ORECTIC · 打开 ↗
Show HN:Attagram,一款能为孩子们提供神奇每日简报的小型打印机。 我正在开发 Attagram:一台放在厨房里、专门为孩子打印每日纸质简报的小型打印机。 这个想法源于我观察到的家庭生活新常态。我的两个女儿(A,9岁;J,8岁)正变得越来越独立,但作为父母,我们的脑子里和手机里塞满了大量“隐形信息”:项目什么时候截止、谁需要带球鞋、午饭吃什么、哪个孩子该去图书馆、看屏幕前要完成哪些家务、离露营还有几天、奶奶叮嘱的话、放学后发生了什么变化等等。 孩子们处于这套系统的下游,而他们感受到的只有不断的唠叨: “去刷牙。” “把文件夹收好。” “别忘了带球鞋。” “别忘了带水壶。” “球鞋带了吗?” “请把球鞋收进包里。” 即便语气温柔,重复也会让人觉得是在唠叨。而且所有信息都锁在屏幕后面,如果你想在限制孩子看屏幕时间的同时,让他们学会更有自主感,这显然不是个好办法。 Attagram 正是为了解决这个问题。它将这些隐形的家庭琐事转化为孩子可以拥有的、每天一份的小物件。 每天早晨,打印机会自动启动,打印出一份由父母编辑的“晨报”。内容包括:今日计划、待办事项、活动倒计时……
2026-06-18 · mvkel · 打开 ↗
GLM-5.2 或许是目前最强大的纯文本开放权重大语言模型。
2026-06-18 · lumpa · 打开 ↗
Ask HN:大家在用编程 Agent 时踩过哪些坑?
2026-06-18 · baddash · 打开 ↗
Show HN: Gptbased —— 提醒你何时切换模型的 LLM 排行榜 Gptbased 结合了 LMArena 排名与 OpenRouter 实时价格,并提供每日快照。 功能: - 涵盖 8 个 LMArena 分类:文本、网页开发、视觉、图像生成、图像编辑及三个视频子集 - 基于 (成本, Elo) 空间的帕累托前沿(曲线拐点)筛选“性价比之选” - 模型并排对比 - 新模型进入榜单时发送邮件提醒 - 提供 RapidAPI 免费层级 你还希望看到哪些功能?
2026-06-18 · gptbased · 打开 ↗
HN 提问:AI 模型建立在全人类知识之上,它们的权重是否应该像专利一样? 这些模型本质上是我们已有成果的压缩。我们的书籍、代码、Stack Overflow 上的每一个回答,甚至是凌晨两点在论坛上的无意义争论。开发这些模型的公司并没有创造这些知识,他们只是抓取并压缩了它们;最终输出的内容,大多是我们集体产出的重新编码,再被返还给我们。这项工作成本高昂且极具价值,我并非要贬低这一点,但对此拥有排他性似乎完全不公平。这些机构在版权问题上本就游走在边缘,即便没有,我们也无法追溯性地
2026-06-18 · rhuber · 打开 ↗
Show HN:为 Claude Code 开发的开源求职插件 HN 的朋友们,我想分享一个我开发的开源插件及技能集,它可以将 Claude Code 转化为求职助手,旨在缩短寻找感兴趣且相关职位的时间。 工作原理: 1. 克隆仓库,安装插件,运行 `/job-search`。 2. Claude 会通过几个问题了解你感兴趣的职位,并将偏好保存在本地。 3. Claude 会抓取实时职位信息(目前支持 LinkedIn Jobs),根据你的偏好进行对比,并生成一份相关职位的摘要。 4. [可选] Claude 还可以按计划(如每日)运行搜索,持续为你推送符合偏好的新职位。 路线图功能: - 让 Claude 对比简历与职位描述(JD),评估“匹配度”。 - 让 Claude 提供简历修改建议,以更好地匹配特定职位。 仓库:https://github.com/agent-data/job-search (MIT 协议) 重要提示:该插件底层使用 agent-data(一种获取结构化网页数据的工具)来抓取实时职位,因此你需要一个 API 密钥才能开始使用(无需信用卡)。
2026-06-18 · jb_hn · 打开 ↗
ChatGPT 的图像生成器可被操纵以生成暴力和色情内容。
2026-06-18 · dijksterhuis · 打开 ↗
爱沙尼亚为 AI 智能体分配身份识别码,以赋予其“授权”。
2026-06-17 · thoughtpeddler · 打开 ↗
Prism is open source · ⭐ Star on GitHub · about