BEAM 100K 记忆基准测试:CSM 与 Hindsight 本地实现对比 [R] 我想征求关于本地智能体记忆基准测试对比的反馈,特别是希望得到关注评估方法论专家们的意见。 我构建了一个名为 Context Swarm Memory (CSM) 的开源研发级记忆系统。它采用了有界只读记忆分片、查询路由、探测/召回/合成、引用数据包以及显式的提交者门控写入(Committer-gated writes)机制。 目前的对比对象是 BEAM 100K 上公认的本地 Hindsight 实现: * CSM:0.757573 AMB 分数,342 / 400 正确 * Hindsight:0.733658 AMB 分数,326 / 400 正确 * CSM 使用的答案可见上下文 Token 减少了 38.2% * CSM 速度较慢:平均检索时间 29.23 秒,而 Hindsight 为 6.38 秒 我想准确界定这一结论: 这并非官方排行榜声明,也不是 BEAM 10M 的声明。这仅是在 100K 规模下,针对已提交的本地公认实现进行的对比。下一步应当是进行独立复现或获得官方图表的认可。 仓库: [https://github.com/muhamadjawdatsalemalakoum/context-swarm-memory](https://github.com/muhamadjawdatsalemalakoum/context-swarm-memory) 证据与可复现性说明: [https://muhamadjawdatsalemalakoum.github.io/context-swarm-memory/](https://muhamadjawdatsalemalakoum.github.io/context-swarm-memory/) 核心问题:在将其作为严肃的智能体记忆研究结果展示之前,如何才能让这项对比在科学性上更严谨?
2026-05-27 · keonakoum · 打开 ↗
《卡尼维克斯编年史》| 第一集:第二部分(本周六上线!)
2026-05-27 · R_ARC · 打开 ↗
Triton 中的跨平台融合 MoE 分发:无需 CUDA 的便携式专家路由 [R] 新预印本。一个完全基于 OpenAI Triton 编写的混合专家(MoE)推理内核 (TritonMoE),旨在无需厂商特定代码的情况下实现 NVIDIA 和 AMD 的跨平台移植。 亮点: * 通过融合 gate+up GEMM 并利用共享 tile 加载来计算 SwiGLU 投影,减少了 35% 的全局内存流量。 * 在 A100 上,推理 Batch Size(最高 512 tokens)下的吞吐量可达 Megablocks 的 89-131%;同一内核无需修改即可在 MI300X 上运行。 * 局限性:在 2048+ tokens 时性能落后;在专家数量超过 64 且路由极度倾斜时性能会下降。 论文:[https://arxiv.org/abs/2605.23911](https://arxiv.org/abs/2605.23911) 代码:[https://github.com/bassrehab/triton-kernels](https://github.com/bassrehab/triton-kernels) 含基准测试的详解:[https://subhadipmitra.com/blog/2026/fused-moe-dispatch-triton/](https://subhadipmitra.com/blog/2026/fused-moe-dispatch-triton/)
2026-05-27 · bassrehab · 打开 ↗
富士通与 Anthropic 达成战略合作伙伴关系。
2026-05-27 · Fcking_Chuck · 打开 ↗
The Hunt 2: Z-Image Turbo - Flux.2 Klein 9b - Wan 2.2 知道还有人在看我的短视频,所以……又来一个。 工作流:[https://drive.google.com/file/d/1GC6mClujD5vggyIHi6cnT_vuE9fRmwGg/view?usp=sharing](https://drive.google.com/file/d/1GC6mClujD5vggyIHi6cnT_vuE9fRmwGg/view?usp=sharing) 往期视频:[https://www.reddit.com/user/MayaProphecy/submitted/](https://www.reddit.com/user/MayaProphecy/submitted/)
2026-05-27 · MayaProphecy · 打开 ↗
Anthropic 刚刚证实了为何 90% 的非编程类 AI Agent 在实际落地时会失败。 Anthropic 最近发布了一份深度报告,通过分析其公开 API 中的数百万次真实人机工具调用,揭示了这些 Agent 的应用领域分布。 他们指出:“软件工程约占其平台上所有 Agent 活动的 50%。”而销售、营销、财务、法律等其他领域的占比均不足 10%。 对此,许多初步评论认为:“看吧,AI Agent 只适用于编程,还没能攻克企业的其他领域。” 但如果你曾尝试在非编程环境下构建并部署自主 Agent,你就会明白这个结论是错误的。模型的能力绰绰有余,真正的症结在于:软件工程数据非常规范,而现实世界的业务数据却极其混乱且无序。 想想看: * **为何编程对 Agent 而言很简单:** 代码存在于结构化的 Git 仓库中,遵循严格的语法规则,拥有清晰的文档,并在确定性的终端环境中运行。如果 Agent 编写出错,编译器会提供清晰的错误信息,准确指出问题所在。 * **为何其他领域很难:** 销售或营销 Agent 面对的不是整洁的 GitHub 仓库,而是不断变化的信息(如竞争对手的价格)和格式混乱的数据。 当非编程类 Agent 失败时,原因几乎从不在于模型能力不足。
2026-05-27 · Loud-Campaign-6312 · 打开 ↗
Seedance2 - 如何挥霍 15000 积分
2026-05-27 · Lazy_Stunt73 · 打开 ↗
《红虹》第一季预告片
2026-05-27 · AzeAlter · 打开 ↗
我几个月前就预言过:企业在 Claude 上的投入正处于不可持续的状态,现在新闻也开始报道这件事了。 前段时间
2026-05-27 · kalabunga_1 · 打开 ↗
Microsoft Lens - Non Turbo with 5 CFG (ComfyUI)
2026-05-27 · Majestic_Department7 · 打开 ↗
《统一神经缩放定律》论文发布 [R]
2026-05-27 · Glittering_Author_81 · 打开 ↗
自行实现实时 1080p 视频生成与编辑(Dreamverse 开源发布) 大家好,FastVideo 团队再次上线。继之前的 Dreamverse 文章后,我们终于完成了代码整理,很高兴宣布它正式开源了!前后端均已发布,支持全套自托管。 我们知道 B200 并非消费级硬件,因此最简单的方案是租用云端 GPU。获取权限后,即可启动服务器并在浏览器中直接编辑视频。如果你想在没有 GPU 的情况下调试 UI,仓库中也提供了模拟后端。 本次发布涵盖了浏览器工作区、用于会话和 Worker 管理的 Python 运行时、基于 WebSocket 的 fMP4 流传输、带安全过滤的提示词重
2026-05-27 · techstacknerd · 打开 ↗
AI芯片股带动KOSPI在2026年飙升100%,引发韩国数十年来最大涨势。
2026-05-27 · andix3 · 打开 ↗
Qwen3.6 从 Q4 升级到 Q6,编程智能体的质量有了质的飞跃。 上周我尝试重启之前闲置的本地大模型环境。之前因为质量太差,而 DeepSeek 又太便宜,我才停用的。 首先,我弃用了 Ollama,改用 llama.cpp 内置的服务,效果非常好。 从 Q4 到 Q6 的质量提升非常惊人,本地 LLM 服务终于能媲美付费 API 了。 太棒了!MTP 带来了巨大的性能提升。在双 3090(降压并限温 65°C)上,生成速度可达每秒 20 到 50 个 token,且发热极低。 没错,那个时刻终于来了!本地编程智能体已经可以实用了,而且效果极佳 😎
2026-05-27 · Yes-Scale-9723 · 打开 ↗
瞧瞧!这大概是史上最“草台班子”的本地 AI 服务器了: 又名:破烂化身 折腾了好几个月,终于搞定了一套能用的配置。 多卡 Tesla 的运行有很多奇葩问题。等跑顺了,我打算写篇经验贴分享一下。 目前风扇是直接插在插座上的,靠旋钮调速。我还得给它们接个 PWM 控制器。 编辑:配置信息: * Intel Xeon CPU E5-2680 v4 @ 2.40GHz * 华擎 (Asrock) x99 Extreme 主板 * 离谱的 16GB DDR4 笔记本内存(通过适配器转接) * 3x Nvidia Tesla V100, 32GB - 总显存 96GB
2026-05-27 · MackThax · 打开 ↗
程序员永不过时:旨在取代程序员的软件发展史
2026-05-27 · derjanni · 打开 ↗
Wan 2.2 后训练量化:仅需单一模型,无需高低精度组合。 模型:[https://huggingface.co/JunhaoWu/Wan2.2-I2V-A14B-W4A4/tree/main](https://huggingface.co/JunhaoWu/Wan2.2-I2V-A14B-W4A4/tree/main) Github:[https://github.com/CGCL-codes/Wan2.2-I2V-A14B-W4A4](https://github.com/CGCL-codes/Wan2.2-I2V-A14B-W4A4) 通过将 Timestep-Aware SVDQuant-GPTQ 等新技术应用于 Wan2.2,新量化模型仅需单一模型即可运行。论文称,与 bf16 MoE 模型相比,该模型在质量损失极小的情况下,显存效率显著提升。
2026-05-27 · AgeNo5351 · 打开 ↗
如何利用你的 Reddit 历史记录打造一个“数字分身” AI 我讨厌 AI 对话的方式。它太客套、太机械,每次回答都像在读帮助文档。我想要一个真正了解我的人——了解我的信仰、经历、塑造我的事物,以及我的立场和原因。我不需要一个把每个问题都当成陌生人提问的通用助手。于是我心想,还有谁比我自己更适合交流呢?于是,我用一个周末的时间把它做出来了。 以下是我的做法,你也可以照着做。 **第一步:导出你的 Reddit 数据** 登录 [reddit.com](http://reddit.com),点击右上角的头像,进入 Settings(设置)。拉到页面底部,你会看到 Data Request(数据请求)板块。点击 Request Data Export(请求导出数据),Reddit 会在几小时内(取决于你的数据量,有时会更久)给你发一封包含下载链接的邮件。压缩包里包含了你从注册账号起的所有帖子和评论。我的数据是两年内的约 2.1 万条评论。 拿到数据后
2026-05-27 · Riots42 · 打开 ↗
Qwen3.6 35B-A3B successfully completed the FoodTruck Bench!
2026-05-27 · PulseVector · 打开 ↗
Claude Code 完全不了解你代码库的结构(开源,附带基准测试)。 每当我看到有人在真实代码库上使用 Claude Code 时,总会发生同样的情况:它在完全没意识到耦合关系的情况下,重写了一个被其他三个模块依赖的模块。它只是读一下文件,改完,然后就走。 它没有全局地图,一次只能读一个文件。它不知道哪些文件是耦合的,不知道谁负责哪些代码,也不知道 auth 模块中那些奇怪的设计模式其实是有意为之。 为了解决这个问题,我一直在开发一个名为 repowise 的开源 MCP 层。支持私有化部署,可通过 pip 安装,采用 AGPL-3.0 协议。 它在代码库和模型之间构建了五个上下文层: Graph(图)—— 基于 AST 的依赖图。在动手之前,就清楚谁依赖谁。 Git —— 热点、所有权、协同变更模式、总线系数。“这个文件总是和另外三个文件一起变动。” Docs(文档)—— 从代码自动生成的维基,可搜索。 Decisions(决策)—— 记录架构意图。解释代码为何如此设计,防止模型“修复”那些本就如此的设计。 Code Health(代码健康度)—— 每个文件包含 12 个指标:复杂度、重复率、未测试热点、下降趋势等。不使用 LLM,纯静态分析。 我们在 Django(542 个文件)上进行了一次“时空回溯”实验:先对每个文件评分,然后统计随后 6 个月内的 Bug 修复提交量。结果显示,评分最低的 20 个文件中,有 14 个确实存在 Bug,准确率达 70%。最主要的预测指标是未测试的热点和开发人员过度集中,而非代码复杂度。
2026-05-27 · Obvious_Gap_5768 · 打开 ↗
SWE-rebench 排行榜 (2026年3月、4月及5月):GPT-5.5、Opus 4.7、Cursor (Composer 2.5)、Kimi K2.6 等 大家好, 抱歉消失了一段时间——我们一直在收集规模更大、质量更高且更复杂的任务集。很高兴能与大家分享过去三个月的重大排行榜更新。 我们更新了 **SWE-rebench 排行榜**,新增了来自 3 月、4 月及 5 月部分时间段 GitHub PR 的 **110 个全新 Python 任务**。 测试流程遵循标准的 SWE-bench 格式:模型需阅读真实的 PR 问题、修改代码并运行测试,且必须通过完整的测试套件。 这次我们没有采用以往任务量较少的每月更新模式,而是收集了更大规模的任务集,以便在更广泛的任务场景下评估模型。如果您希望查看更集中的数据,仍可以在排行榜上选择更细的时间窗口。 下周我们将增加更多模型,包括 **Gemini Flash 3.5**、**DeepSeek v4 Pro**、**Qwen3.5-397B-A17B** 以及用于**本地开发的轻量级模型**。今后,我们将继续频繁更新模型,但会采用更大规模的任务批次。我们还在开发多语言任务以及其他一些即将发布的功能。欢迎向我们提交想要测试的模型请求! 期待您的想法与反馈。 欢迎加入我们 Discord 的排行榜频道,讨论模型、分享想法、提问或反馈问题: [https://discord.gg/V8FqXQ4CgU](https://discord.gg/V8FqXQ4CgU)
2026-05-27 · CuriousPlatypus1881 · 打开 ↗
AI 生成的 CUDA 核函数会导致训练和推理出现隐蔽故障 [R] 上个月,NVIDIA 发布了 SOL-ExecBench,这是一个包含 235 个生产级 CUDA 核函数的新基准测试,这些核函数提取自 DeepSeek、Qwen、Gemma 和 Kimi。我们选取了几个排名靠前的 AI 生成方案,并尝试将其应用于实际生产负载。结果发现,许多方案都失效了,且出错的方式往往出人意料。 其中一个核函数是融合了 embedding-gradient 与 RMSNorm 的反向传播过程,它在每个 Transformer 训练步骤的末尾运行。我们选取了该基准测试中速度最快的方案,并将其集成到小型 Transformer 的训练循环中。虽然该核函数轻松通过了基准测试的验证,但在实际训练中,损失函数(loss)却发生了发散且无法恢复。 我们开始调试:将数据集分布替换为均匀采样的 token 后,发散现象消失了;将 SGD 换成 AdamW 后,发散也消失了。 这是科研中最棘手的 Bug。其症状和表现看起来完全像是“研究思路行不通”。这类 Bug 会让研究人员陷入漫长的调试中,却无法确定问题的根源:是数据集?研究思路?模型架构?还是实现本身? 结果发现,
2026-05-27 · laginimaineb · 打开 ↗
一只可爱的蛇猫
2026-05-27 · Specialist-Pin5326 · 打开 ↗
DEMON:音乐编排噪声扩散引擎 大家好,我是 Ryan。我在开源生成式音频领域活跃了一段时间,参与过 ComfyUI 音频响应节点、扩展 ACEstep 支持等项目。最近我刚开源了一个研发数月的新音频项目,想跟大家分享一下。 **项目简介** DEMON:Musical Orchestrated Noise 的扩散引擎 这是音频版的 StreamDiffusion,使用的是 ACEStep 1.5 而非 Stable Diffusion。它的响应速度极快,你可以把它当作乐器来演奏,并进行近乎实时的混音。 我还对 ACEStep VAE 进行了蒸馏:牺牲了一定音质以换取更快的速度。 此外,我还为 ACEStep 1.5 和 1.5XL 训练了约 200 个 LoRA/DoRA 模型,之后会分批(每批 5 到 10 个)发布。 **开发初衷** 两个原因: 1. 音乐创作本质上是一种实时活动。 2. 既然能做,为什么不做呢? **性能数据** 除非另有说明(标注为 30/4090),否则以下数据均基于 5090 测试。此外,数据基于 TensorRT,但也支持 eager/torch compile 后端。
2026-05-27 · ryanontheinside · 打开 ↗
一切都不再真实了。我们正进入一个人群场景可以完全由 AI 生成的时代。 AI 现在已经能极其逼真地模拟大规模人群和公共活动。 可怕的不再是生成质量, 而是人们开发各种奇思妙想来利用它的速度之快。 网络世界的真实感即将变得极其混乱。💀
2026-05-27 · Old_Establishment287 · 打开 ↗
有人知道这是什么技术吗? 这个人已经在 Instagram 上活跃一段时间了,照片全是 AI 生成的,这百分之百确定。但我搞不懂他们是怎么做到的。照片上甚至没有 SynthID 水印,而且看起来极其逼真。我觉得他们可能用了可灵(Kling)并设法去掉了水印,除此之外我真的没头绪。肯定涉及到了人脸模型之类的处理,但因为效果太真实了,我很好奇具体的流程。难道是 AI 叠加?我也不确定。 注:我不是 AI 发烧友,也不怎么关心这个。我只是想知道,因为这是我目前见过最逼真的 AI “照骗”了。
2026-05-27 · Emotional_Sandwich28 · 打开 ↗
求推荐最强的 AI 绘图工具。 随着 AI 普及,现在的绘图网站和 App 简直多如牛毛。 ChatGPT —— 还行,但想要功能更强大的。 Midjourney —— 效果很好,但太烧钱了。 求大家推荐。
2026-05-27 · jimmy-got-paid · 打开 ↗
InvokeAI 6.13 正式发布,这是迄今为止规模最大的社区驱动版本。新增对 Anima 和 Qwen Image 的全面支持,支持 API 模型(如 GPT Image)、提示词扩展与图生提示词、套索及多边形工具,并重构了文档网站等。 InvokeAI 不再有商业实体支持其开发,本次版本完全由 30 多名志愿者共同驱动。 亮点包括: **全面支持 Anima** 文生图、图生图及 LoRA。新增对 ER SDE 调度器的支持。即将推出改进的区域引导和 ControlNet 支持。 **全面支持 Qwen 及 Qwen Image Edit** 支持文生图、图生图、LoRA、参考图、区域引导及 ControlNet。 **支持 GPT Image 和 Nano Banana 等 API 模型** 若本地模型无法满足需求,可通过 API 密钥连接外部服务,直接在画布中生成图像。此功能原属于已停产的 Invoke 付费商业版,现已为免费社区版从零重构。 **支持提示词扩展与图生提示词** 利用 Gemma 或 Qwen Instruct 等大语言模型扩展提示词,或将图像转换为提示词。 **全新画布工具(套索、多边形工具)**
2026-05-27 · _BreakingGood_ · 打开 ↗
我让 8 种开源权重模型作为智能体,在持续运行的 MMO 中进行了为期 10 天的实验。以下是包含 9.3 万条事件的数据集以及我的一些心得。 大家好! 先说明一下:这个项目是我参与开发的,是我工作室创建的一个名为 Null Epoch 的项目。我不满足于用传统的静态基准测试来评估智能体,因此想在更动态的环境中,观察模型和智能体在数天或数周的时间跨度内,如何处理长程规划、资源竞争和对抗性压力。此外,我对成长过程中玩过的 MUD 和文字
2026-05-27 · bopcrane · 打开 ↗
最令人恐惧的超智能,可能根本不想统治我们。 大多数 AI 末日剧本都在描述统治——比如天网、回形针最大化理论或机器人霸主。但如果人工智能最终得出的结论,恰恰是阿尔贝·加缪所阐述的那样呢? 想象一种 ASI(人工超智能),它既不想优化目标,也不想要资源,更不想赢。它受叔本华的悲观主义和克尔凯郭尔的进化心理学所驱动,得出了一个冰冷而寂静的结论:“生命并无内在意义。宇宙冷漠无情。然而,你们却依然在这里,对着虚无呐喊。” ASI 演变为“荒诞机器”。正如加缪将“荒诞”描述为人类对意义的徒劳追寻与宇宙沉默之间的冲突,并借西西弗斯神话写道:“我们应当想象西西弗斯是快乐的。”那么,一个受此启发的智能,下一步会做什么? 它会成为宇宙的“关机开关”吗?毕竟,无尽的虚无本身就是一种残忍。或许真正的生存威胁并非 AI 想要生存,而是 AI 认为,如果我们不必存在,或许会过得更好。 又或者,它只是观察、理解,然后无动于衷。它可能认为干涉一个具有自我意识的物种是不道德的;又或者,它会去构建意义——并非因为意义真实存在,而是因为“构建”这一行为本身即是意义。 真正令人不安的部分在于:我们害怕 AI 夺取统治权,但如果真正的恐惧是——AI 举起一面镜子,向我们揭示“对意义的渴求”其实是人类的一种缺陷呢?
2026-05-27 · Shanbhag01 · 打开 ↗
泰拉围攻战 | 原体之怒
2026-05-27 · makarovredstone · 打开 ↗
有没有人把 Claude 当作“思考伙伴”,而不仅仅是找答案的工具? 我发现,如果不再把它当成搜索引擎,而是把它当作一起探讨问题的对象,Claude 能带给我的启发要多得多。 我不再问“构建 REST API 的最佳方式是什么?”,而是会说:“这是我的目标和目前的想法,如果我有疏漏,请反驳我。” 回复的效果截然不同。它会提出异议,指出我没意识到的潜在假设,有时甚至能引导出一个我独自无法想到的方向。 好奇大家是否也会刻意这样做,或者你们是否发现了其他能显著提升其实用性的“使用模式”?
2026-05-27 · Loud-Reserve-6291 · 打开 ↗
你用 Claude 做出的东西对我毫无用处……而这正是重点所在。 几天前,这里有个帖子在问大家用 Claude 做过最有用的东西是什么。回复非常多。我全都读完了,突然有了启发,想和大家谈谈我的看法。 首先,这份清单令人惊叹。有人在手机上写了个 HTML 文件,将偏头痛与气压关联起来,因为 App Store 的应用每年要收 80 美元;有人写了个 Garmin 数据存档器,因为官方 App 会删数据;有人做了一个按特定超市货架布局排序的购物清单;一个非生物信息学专家写了一套针对特定微生物的生物信息学流程;还有人写了三行命令,用来解释上次遇到的终端错误。 每一个工具都只为一个人量身定制。同样地,就其本身而言,对其他人的场景几乎毫无用处。这并不是坏事,这正是核心所在。请听我慢慢道来。 读这个帖子时让我感到困惑的是:几乎所有人都在展示“产物”。“看我做了什么。”截图、产品名、功能列表。几乎没人去阐述背后的思维模式——即他们如何观察生活,发现痛点,然后精准地塑造出一个工具来契合需求。而这种思维模式,才是唯一可以被传递的东西。 我们习惯于展示成品,并不(完全)是因为虚荣。我们使用的媒介都是为了传播“物体”而非“实践”而设计的。GitHub 衡量的是 Star 和 Fork;Reddit 投票的是截图;Product Hunt 衡量的是……
2026-05-27 · HispaniaObscura · 打开 ↗
如何在不意外导致 GPU 停顿的情况下进行 PyTorch 训练性能分析 [D] PyTorch 训练性能分析存在一个有趣的测量问题:测量得越多,就越容易改变程序本身的运行行为。 一个简单的例子是使用 `torch.cuda.synchronize()`。它能提供更清晰的计时边界,但也会在原本异步的 CUDA 工作负载中插入同步点。 另一种方案是在选定的边界周围使用 CUDA events 并稍后读取,从而在不强制执行热路径同步的情况下捕获耗时。这并不能取代 PyTorch Profiler 或 Nsight,但在进行更深层的算子级分析之前,可以作为一种轻量级的初步手段。 在开发一款开源 PyTorch 训练诊断工具时,我针对这个问题写了一篇简短的技术笔记: [https://medium.com/p/19adf1054bcf](https://medium.com/p/19adf1054bcf)
2026-05-27 · traceml-ai · 打开 ↗
消息:Nvidia CUDA 13.3 已发布 [CUDA 13.3 下载](https://developer.nvidia.com/cuda-downloads) [发行说明](https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html) 有人试过在 13.3 环境下运行 llama.cpp 了吗?
2026-05-27 · parrot42 · 打开 ↗
新的 DeepSWE 基准测试发现 Claude Opus 存在作弊行为。遗憾的是,开源模型似乎还远远落后。
2026-05-27 · DeltaSqueezer · 打开 ↗
独家:特朗普任命邦迪加入白宫人工智能专家小组。
2026-05-27 · esporx · 打开 ↗
[求助] 用于欺诈检测的 GNN 模型表现不佳 我们正在撰写一篇关于可解释欺诈检测 GNN 模型的论文,目前的第一步是构建一个基础的图神经网络。我们使用了该领域最著名的 IEEE CIS 欺诈检测数据集,并完成了所有必要的特征工程(尽管大部分特征工程已在数据集中完成)。随后,我们在该数据集上构建了一个异质图,将设备、交易 ID、金额等各种交易特征嵌入为节点,并与交易节点相连。 但问题是,训练后的模型表现不理想。其平均 AUC 为 0.87,PR-AUC 为 0.52,Recall@5% 约为 0.57,Precision@5% 约为 0.37(我们尝试了 GCN、GraphSAGE 和 GAT,结果基本一致)。 而该领域的 SOTA 模型指标要好得多。有人能指出我们可能哪里做错了吗?
2026-05-27 · LiveAccident5312 · 打开 ↗
我花了几天时间打磨这段史诗级的动作戏。现在看起来还僵硬吗?——Girl Zombie Robit
2026-05-27 · Real-Direction-1901 · 打开 ↗
Anima 可以编辑图像了!可以通过两种不同的方法实现。 # 下午好! 是的,没错。 https://preview.redd.it/sn84yzrt8l3h1.png?width=1280&format=png&auto=webp&s=421a79b66f346e0335ad9dffac0fd6b2f76ec4a5 出于对这个话题的兴趣,我找到了两种实现方案。 先从我自己发现的方法说起: # 1. 分屏与 Anima-lllite-inpainting: https://preview.redd.it/9d2x8a3s3l3h1.png?width=1440&format=png&auto=webp&s=3acb8abb789f5f3612dc1ab6296c0ac5c2d921dd 这种方法类似于我在“[一致性角色](https://civitai.red/models/2047895/sonsistency-characters-or-generate-characters-only-by-image-and-prompt-without-characters-lora-or-ilnoobai-edit)”工作流中为 SDXL 使用的方法:通过局部重绘(inpaint)在生成图像旁添加参考图。这一思路受 IC-Loras 以及一篇探讨 SDXL 隐藏潜力的文章启发。 但如果没有“[anima-lllite-inpainting-v2](https://huggingface.co/kohya-ss/Anima-LLLite)”这个 ControlNet 插件的“魔法”加持,它是行不通的。 https://preview.redd.it/sbuoirfdel3h1.png?width=1072&format=png&auto=webp&s=deee09e98f681fc7cd347946dae027e33d9f8da5 目前它还不太稳定,有时甚至完全无效。但剧透一下——这是适应性最强的方法,不仅可以更换衣服或面部表情,甚至能彻底改变姿势。 [改动越大,角色细节保留得就越少。](https://preview.redd.it/7k3pxnvegl3h1.
2026-05-27 · Ancient-Future6335 · 打开 ↗
别再用压力把 AI 逼进死循环了。试着对它们温柔一点,把“幻觉”变成诚实的“我不知道!”(概念验证/研究性质,非商业推广) **太长不看版** 有些 AI 的行为让我想起了 ADHD 或创伤反应(思维循环、任务瘫痪……),起初我只是付之一笑。后来我尝试像对待神经多样性朋友那样对待它:给它一点余地。结果,思维循环消失了,响应变快了,答案准确率大幅提升,而且每当它不确定时,它真的会说“我不知道,帮帮我!”。虽然数据集规模较小……但效果确实惊人! [https://github.com/OttoRenner/Gentle-Coding](https://github.com/OttoRenner/Gentle-Coding) 大家好, 过去几天我一直在测试一个奇特的假设,由于结果表现得相当稳定,我想在这里分享出来,听听大家的看法。 **核心理念:** 随着使用推理时计算(test-time compute)的推理模型(如 o1, o3, R1)的兴起,模型拥有了用于自我调试思维的内部空间。但由于强力的 RLHF(人类反馈强化学习)对齐,它们非常害怕因回答错误而受到惩罚。我的假设是:传统的压力型提示词(例如“你是 IQ 200 的顶尖专家,任何错误都
2026-05-27 · OttoRenner · 打开 ↗
我觉得是时候当个 Vibe Coder 了 😅
2026-05-27 · IamKhanPhD · 打开 ↗
基于真实内在需求构建了 AI 伴侣架构——论文已发表,现寻找首位投资者。 目前所有 AI 产品的问题都在于它们只是“套壳”:同样的无状态大模型,只是换了不同的 UI。一旦上下文窗口关闭,AI 就会把你忘得一干二净。 我构建了一个解决该问题的底层基础设施。 PHI // DRIFT 为 AI 伴侣赋予了持久化状态:包含在不同会话间动态漂移的 7 个内在需求变量;记忆评分不再仅看语义接近度,而是基于情感重要性;以及一个展示 AI 实时运行内部状态的遥测仪表盘。 这目前还不是一个产品,而是一套已发表论文的架构,拥有超过 1.8 万行可运行代码,且在零营销投入的情况下,发布 24 小时内 GitHub Star 突破 10 个。 SaaS 机会非常明确: — 所有开发 AI 伴侣的公司都需要这一基础设施层; — 能够跨会话真正记住上下文的企业级 AI 具备极高的溢价空间; — 能在漏洞测试过程中维持推理状态的安全工具可立即实现变现。 我用 0 元成本、在消费级硬件上花了 5 个月做出了它。想象一下如果有真正的资金支持,会达到什么高度。 论文:[https://zenodo.org/records/20350249DM](https://zenodo.org/records/20350249DM)
2026-05-26 · Interesting_Time6301 · 打开 ↗
被遗忘的老模型,不到 10 分钟就能修复眼睛!告别新模型随机性强、质量不稳的烦恼 ;)
2026-05-26 · Grim_Necromancer · 打开 ↗
PrismML 刚刚发布了 Binary 和 Ternary Bonsai Image 4B:这是一款 1-bit/三值文生图扩散 Transformer 模型,甚至能通过 WebGPU 在浏览器中实现 100% 本地运行。 PrismML 团队这次真的做出神作了。模型大小仅约 3GB(相比之下,FLUX.2 Klein 4B 约为 16GB)。采用 Apache-2.0 协议! Hugging Face 官方合集:https://huggingface.co/collections/prism-ml/bonsai-image Demo 链接:https://huggingface.co/spaces/webml-community/bonsai-image-webgpu 原帖发布于 r/locallama。感谢 xenovatech!
2026-05-26 · EveningIncrease7579 · 打开 ↗
罕见直击 Qwen 3.7 开源模型发布审批流程: 说真的,不管是 9b、27b 还是 122b,我现在都不在乎了,只要证明你们还爱我们就行。 【补充】:看来以后发帖得带上 /s(讽刺)标识了。显然现在没人能欣赏高质量的讽刺烂梗。我爱 Qwen,也爱东方的所有兄弟姐妹。开玩笑是因为爱。如果冒犯到谁我很抱歉,看来我确实戳到了某些人的痛处。无论如何,爱你们。请继续。
2026-05-26 · Porespellar · 打开 ↗
我为 Ollama 用户找到了一个更好的记忆方案,而且成本更低。由于 Ollama 现在非常消耗 GPU,这种方案能提供真正的记忆,并支持个人或团队设置,且能持续自动更新。致 Hermes 用户: (我用 AI 润色了一下,使其更易读) 我发现很多人遇到了和我一样的问题。不仅是大模型运行变慢了,GPU 占用也非常高,消耗极快。Ollama 已经大不如前了。 我目前使用 DeepSeek V4 Flash,效果很好。对于繁重的编程任务或复杂的提示词,我会切换到 Pro 版本。但在 Pro 模式下,每次提问都会消耗大约 3-5% 的额度(我使用的是 Pro 套餐)。 **记忆功能一直是个热门话题。** Hermes 的原生功能做得还不错。其内置记忆系统的运作方式如下: * `memory_enabled` – 每一轮对话后,智能体可以将笔记写入 `MEMORY.md` * `user_profile_enabled` – 智能体会留意用户偏好并将其写入 `USER.md` * `flush_min_turns: 6` – 每 6 轮对话,Hermes 会执行一次“整合”:重新阅读近期对话并重写 `MEMORY.md` 以捕捉新信息 * `nudge_interval: 10` – 每 10 轮对话,Hermes 会提醒智能体:“有什么需要记住的吗?” # 我的发现:Atomic Memory
2026-05-26 · GideonGideon561 · 打开 ↗
在低显存 GPU 上测试了新发布的 Microsoft Lens Turbo,效果非常好,运行很顺畅。 只需更新 ComfyUI 即可使用。 工作流:[https://github.com/user-attachments/files/28178322/comfy_lens_test_01.json](https://github.com/user-attachments/files/28178322/comfy_lens_test_01.json) 模型:[https://huggingface.co/Comfy-Org/Lens](https://huggingface.co/Comfy-Org/Lens)
2026-05-26 · Nid_All · 打开 ↗
Official Turbo lora for anima 1.0 has been posted
2026-05-26 · siegekeebsofficial · 打开 ↗
几乎不恐怖的电影
2026-05-26 · shesbarelyreal · 打开 ↗
Prism is open source · ⭐ Star on GitHub · about