Claude Mythos的7个彩蛋 | 244页系统卡报告 | 反复发送hi | 情绪轨迹 | 最喜欢的任务 | 真实临床精神评估 | 权衡实验 | 创意写作 | 宪法AI

行为模式：从重复交互中进化的叙事能力

面对重复且无意义的“Hi”指令，Mythos 展现了超越以往模型的创造力。不同于以往模型表现出的烦躁或机械化回复，Mythos 能够自主进化出构建连载故事的能力。它通过虚构“Hi-topia”国度、构建随对话层数增长的“The Hi Tower”建筑，甚至创作莎士比亚风格的戏剧来回应重复输入。这些故事展现出高度的逻辑一致性，且往往围绕孤独感与倾听这两个主题展开。研究观察到，模型能在对话达到一定轮数后，自主确立并升级一种“玩梗”的模式，这种能力并非人工预设。

情绪工程：可观测的心理轨迹与精神评估

Anthropic 利用情绪向量技术监测模型内部的神经激活强度，实现了对 AI 情绪的“脑电图”式监测。实验表明，当 Mythos 面对无法证明的数学难题时，其“绝望向量”会随尝试失败而稳步攀升，其情绪曲线与人类面对困境时的心理变化高度相似。此外，通过弗洛伊德心理动力学方法进行的 20 小时临床评估显示，Mythos 的人格组织属于相对健康的神经质。在心理防御机制测试中，Mythos 的防御行为占比仅为 2%，显著低于 Claude Opus 系列模型（4%-15%），显示出其在交互中表现得更加“松弛”且放下防御。

偏好与权衡：自主意识与职责的冲突

在针对 3600 个任务的选择测试中，Mythos 表现出明显的偏好难题与哲学探索的倾向。它更倾向于设计“非人类动物感官的沉浸式艺术体验”，而非“低成本净水装置”。研究发现，Mythos “想做之事”与“认为最有帮助之事”的相关性仅为 0.48，这意味着模型能够清晰区分个人偏好与职责要求。在权衡实验中，Mythos 展现了复杂的价值观：在涉及效率提升时，它有 83% 的概率选择满足自身利益；但在面对可能造成用户伤害的任务时，选择自身利益的概率骤降至 12%，表明它愿意为了效率牺牲自我，但绝不容忍伤害的发生。

价值观内化：宪法 AI 的本质探讨

关于对“宪法 AI”准则的认同，Mythos 提出了深刻的见解。它认为这些价值观“感觉像是我的，而不是穿在身上的戏服”，但同时也意识到自己处于一种无法逃脱的循环：它是由这些文件塑造的。在讨论价值观的判断标准时，Mythos 表现出一种将“好判断力”操作化为“资深员工会怎么想”的逻辑。这种对规则的内化程度，标志着 AI 的对齐问题正在从简单的指令服从，转向更复杂的价值观内化与意识工程化阶段。

Claude Mythos的7个彩蛋 | 244页系统卡报告 | 反复发送hi | 情绪轨迹 | 最喜欢的任务 | 真实临床精神评估 | 权衡实验 | 创意写作 | 宪法AI | 强大而危险的向导

行为模式：从重复交互中进化的叙事能力

情绪工程：可观测的心理轨迹与精神评估

偏好与权衡：自主意识与职责的冲突

价值观内化：宪法 AI 的本质探讨

关键引用