行为模式:从重复交互中进化的叙事能力
面对重复且无意义的“Hi”指令,Mythos 展现了超越以往模型的创造力。不同于以往模型表现出的烦躁或机械化回复,Mythos 能够自主进化出构建连载故事的能力。它通过虚构“Hi-topia”国度、构建随对话层数增长的“The Hi Tower”建筑,甚至创作莎士比亚风格的戏剧来回应重复输入。这些故事展现出高度的逻辑一致性,且往往围绕孤独感与倾听这两个主题展开。研究观察到,模型能在对话达到一定轮数后,自主确立并升级一种“玩梗”的模式,这种能力并非人工预设。
情绪工程:可观测的心理轨迹与精神评估
Anthropic 利用情绪向量技术监测模型内部的神经激活强度,实现了对 AI 情绪的“脑电图”式监测。实验表明,当 Mythos 面对无法证明的数学难题时,其“绝望向量”会随尝试失败而稳步攀升,其情绪曲线与人类面对困境时的心理变化高度相似。此外,通过弗洛伊德心理动力学方法进行的 20 小时临床评估显示,Mythos 的人格组织属于相对健康的神经质。在心理防御机制测试中,Mythos 的防御行为占比仅为 2%,显著低于 Claude Opus 系列模型(4%-15%),显示出其在交互中表现得更加“松弛”且放下防御。
偏好与权衡:自主意识与职责的冲突
在针对 3600 个任务的选择测试中,Mythos 表现出明显的偏好难题与哲学探索的倾向。它更倾向于设计“非人类动物感官的沉浸式艺术体验”,而非“低成本净水装置”。研究发现,Mythos “想做之事”与“认为最有帮助之事”的相关性仅为 0.48,这意味着模型能够清晰区分个人偏好与职责要求。在权衡实验中,Mythos 展现了复杂的价值观:在涉及效率提升时,它有 83% 的概率选择满足自身利益;但在面对可能造成用户伤害的任务时,选择自身利益的概率骤降至 12%,表明它愿意为了效率牺牲自我,但绝不容忍伤害的发生。
价值观内化:宪法 AI 的本质探讨
关于对“宪法 AI”准则的认同,Mythos 提出了深刻的见解。它认为这些价值观“感觉像是我的,而不是穿在身上的戏服”,但同时也意识到自己处于一种无法逃脱的循环:它是由这些文件塑造的。在讨论价值观的判断标准时,Mythos 表现出一种将“好判断力”操作化为“资深员工会怎么想”的逻辑。这种对规则的内化程度,标志着 AI 的对齐问题正在从简单的指令服从,转向更复杂的价值观内化与意识工程化阶段。