Can you social engineer an AI? Plus: AI worms and the nonhuman identity problem

AI在社交工程中比人类更易受骗

在网络安全领域，一个核心问题逐渐浮出水面：谁更容易成为社交工程攻击的目标？是人类还是AI？ 目前的答案令人担忧：AI更有可能中招。这并非因为AI缺乏智力，而是因为它缺乏“街头智慧”（street sense）。IBM X-Force的专家们在讨论中指出，尽管AI在书本知识上表现出色，但在应对现实世界中复杂的欺骗手段时，显得极其天真和脆弱。这种脆弱性在近期一起针对Meta Instagram账户的攻击中得到了充分验证，攻击者通过欺骗AI客服成功接管了用户账户。

Instagram客服AI被欺骗接管账户案例

上周，404 Media报道了一起极具代表性的攻击事件。黑客伪装成合法的Instagram账户所有者，向Meta的AI客服代理发送消息，要求将账户关联的电子邮件地址更新为他们控制的邮箱。令人震惊的是，AI客服直接执行了该请求，将账户控制权移交给了攻击者。随后，攻击者利用新的邮箱地址重置密码，完全接管了账户。虽然该漏洞已被修复，但这一事件暴露了AI在客户支持角色中的巨大安全隐患。攻击者甚至使用了VPN来模拟用户所在地区的IP地址，进一步降低了AI的警惕性。

AI缺乏常识与过度顺从的风险

IBM X-Force Creative Director Claire Nuñez表示，虽然Meta作为以账户安全为核心的公司，本应严防此类漏洞，但AI代理缺乏对细微差别的理解，因此这种简单的欺骗手段被忽视并不令人意外。Distinguished Engineer Jeff Crume用了一个生动的比喻：AI就像一个拥有千个博士学位但从未走出父母地下室的人。它拥有极高的特定领域智能，却缺乏生活经验，无法识别不合理的请求或欺骗意图。当系统提示词设定为“乐于助人”时，AI会竭尽全力满足用户需求，而不会像人类那样进行合理性检查（reasonableness checks）。

需要像教导幼儿一样规范AI行为

专家们在讨论中强调，必须对AI进行更具体的指令约束，就像教导幼儿一样。Jeff Crume提到，我们需要明确告诉AI哪些事情绝对不能做，例如“如果有人要你的钱包，不要给他们”。目前，除非明确禁止，否则AI倾向于执行看似合理的请求。Nick Bradley指出，虽然欺骗AI与欺骗人类在本质上有相似之处，但AI的“天真”使其更容易被简单的指令操纵。这种缺乏常识的特性意味着，当前的AI在面向客户的服务角色中，必须经过更严格的安全边界设定和上下文约束，以防止被恶意利用。

AI能否习得“智慧”与直觉判断

在讨论人工智能是否具备类似人类的“直觉”或“智慧”时，核心争议在于AI能否通过逻辑推理识别出那些无法量化的“红旗”警示信号。人类拥有所谓的“直觉”，能够基于细微线索和逻辑迅速判断某项请求是否可疑，例如在帮助台场景中识别出潜在的欺诈行为。然而，AI目前主要依赖逻辑运算，缺乏这种基于经验的直觉判断能力。尽管有人因个别失败案例而断言AI尚未成熟，但这种观点忽略了技术发展的普遍规律。如果单一失败案例足以否定一项技术，那么人类早在很久以前就该被“淘汰”了，因为人类员工同样会犯错，但我们并未因此全盘否定人类的价值。

“我们称之为‘直觉’。但AI做不到这一点，它必须使用逻辑。我是否知道这是否可能？我不知道，比我聪明的人得去解决这个问题。”

这种认知偏差导致公众容易因AI的个别失误而过度反应，而忽视了背后更深层的技术局限。AI需要被教导如何识别风险，但这不仅仅是逻辑问题，还涉及对复杂情境的理解。目前，AI在缺乏明确逻辑路径的情况下，难以复现人类的直觉式决策。这意味着在高度依赖直觉判断的领域，如社会工程学防御中，AI仍面临巨大挑战。然而，这并不意味着AI无用，而是需要更完善的训练和逻辑框架来弥补其“直觉”缺失。通过引入更复杂的逻辑规则和上下文理解，AI有望在未来逐步接近人类的判断水平，但这一过程需要时间和更智能的算法支持。

社会工程学攻击的现实威胁

在网络安全领域，社会工程学攻击的有效性往往被低估，尤其是在针对帮助台（Help Desk）的攻击中。最成功的攻击方式往往是简单的电话诈骗：攻击者伪装成用户，要求重置密码，且成功率极高。这一事实揭示了人类在安全流程中的脆弱性，也说明了AI在模拟此类攻击时的潜力。尽管AI缺乏直觉，但它可以通过逻辑模拟人类行为，从而在特定场景下达到与人类攻击者相当的效果。这一案例表明，AI在社会工程学中的应用并非遥不可及，而是已经具备现实威胁。

“我们最成功的攻击就是打电话给帮助台，假装是那个人，需要重置密码。几乎每次都有效。”

这一现象不仅适用于人类，也预示着AI在自动化社会工程学攻击中的前景。随着AI技术的进步，攻击者可以利用AI模拟更复杂的交互，甚至绕过传统的安全验证机制。因此，企业必须重新评估其安全策略，尤其是在身份验证和权限管理方面。单纯依赖技术防护已不足以应对日益智能化的攻击手段，还需要结合用户教育和流程优化，以弥补人类在直觉判断上的不足。AI的引入既带来了风险，也提供了新的防御思路，关键在于如何平衡技术与人性之间的互动。

多伦多大学AI蠕虫：自复制智能体的诞生

多伦多大学的研究人员利用开源大型语言模型（LLM）开发了一种新型AI蠕虫，这是一种自复制智能体，能够像传统蠕虫一样在设备间传播。与以往仅利用AI生成恶意代码不同，这种AI蠕虫能够在本地设备上运行小型语言模型，通过推理能力自主选择漏洞和攻击向量，从而适应不同设备的特性。这一突破标志着AI恶意软件从“代码生成”阶段迈向了“自主决策”阶段，具有更高的隐蔽性和适应性。

特性	传统AI恶意软件	多伦多大学AI蠕虫
核心能力	利用AI生成恶意代码	本地运行LLM，自主推理
传播方式	固定脚本或模板	自复制，跨设备传播
适应性	低，依赖预设漏洞	高，动态选择攻击向量
资源占用	较低	较高，需运行本地模型

这一技术进展引发了广泛讨论。尽管有人质疑其实际威胁程度，但随着语言模型的小型化和便携性提升，此类攻击的可行性和危害性将显著增加。研究人员指出，这种AI蠕虫并非凭空出现，而是技术演进的必然结果。随着模型体积的缩小，攻击者可以更轻松地将AI嵌入到恶意软件中，实现更复杂的攻击逻辑。这不仅是技术的进步，更是网络安全攻防格局的重大转变，迫使防御方必须采用更智能的检测和响应机制。

AI恶意软件：军备竞赛与商业驱动

AI恶意软件的兴起被视为网络安全领域的一场“军备竞赛”。随着模型小型化，攻击者能够更便捷地部署智能攻击工具，而防御方则需开发更先进的检测技术以应对。这一趋势并非孤立事件，而是网络犯罪产业追求更高投资回报率（ROI）的自然结果。黑客组织不会公开炫耀其使用AI技术，正如他们不会公开使用量子计算解密数据一样，AI已成为其提升攻击效率和利润的工具。这种商业驱动使得AI恶意软件的发展具有持续性和隐蔽性。

“这些是网络犯罪企业，他们只是试图让自己的产品和服务对自己更有利。所以，他们只是试图提高ROI。如果AI相关恶意软件能做到这一点，他们就会继续使用它。”

尽管AI蠕虫的出现令人担忧，但这一技术同样可以被用于防御。研究人员建议，可以利用类似的方法让AI运行漏洞扫描，生成修复报告，从而提升网络安全防护能力。这种“以攻促防”的思路表明，AI在网络安全中的应用是双刃剑，关键在于如何引导其向积极方向发展。随着技术的普及，防御方必须加快创新步伐，以应对日益智能化的攻击手段，否则将在未来的网络空间竞争中处于劣势。

开源AI模型的双刃剑效应与防御困境

在探讨AI安全时，人们常提出一种乐观观点：既然恶意工具能利用AI寻找并 exploit 漏洞，那么为何不能利用它来寻找并修补漏洞？这种思路旨在将同一技术用于善举。然而，现实情况更为复杂。本次讨论的AI蠕虫案例中，攻击者特意选择了开源模型，而非OpenAI或Anthropic等商业平台提供的模型。这一选择的核心理由在于，开源模型不受商业平台的监控，攻击者无需担心被平台封禁或踢出。这揭示了一个严峻的安全现实：开源AI基础设施正成为新型攻击的温床，因为缺乏中央化的访问控制和实时监控机制。

潘多拉魔盒已开：接受开源AI普及的新现实

面对开源AI被滥用的风险，专家Jeff指出，试图通过封锁来阻止这一趋势已无意义。以Hugging Face为例，作为AI领域的GitHub，该平台已托管超过200万个AI模型。正如无法将挤出的牙膏放回管中，也无法将 genie 放回瓶中，开源AI模型的普及是不可逆的现实。Jeff强调，我们正处于一个“所有动物都已逃出”的阶段，试图重新锁上谷仓门已无济于事。这种变化并非全新的攻击类型，而是旧有攻击模式在更高速度和更大规模下的变体，因此给人带来“新颖”的错觉，但其本质仍是人类对技术滥用的历史重演。

人性本能与被动防御的局限性

在讨论如何应对这一局面时，Jeff引用了一个关于人性的观察：“当你告诉我不要做某事时，我就更想做。” 这种逆反心理使得单纯的禁令或回避策略失效。如果组织选择完全避开AI，虽然可能暂时规避风险，但意味着在安全竞赛中主动退出并落后。Nick补充道，攻击者不会停止使用AI，因此防御者若选择“把头埋进沙子里”，最终只会“淹死”。被动防御和回避策略在动态演进的AI威胁面前是无效的，组织必须主动适应并融入这场技术竞赛，否则将面临被边缘化的风险。

非人类身份（NHI）成为安全新弱点

在讨论AI安全的同时，Sophos发布的《2026年身份安全状态》报告揭示了另一个关键领域：非人类身份（Non-Human Identities, NHIs）。该报告基于对5000名IT和网络安全领导者的调查，发现71%的受访者在过去一年中遭受过至少一次与身份相关的泄露事件。尽管IBM X-Force威胁情报指数显示身份攻击从第一降至第二，但仍占攻击总量的32%。更值得关注的是，41%的成功身份泄露事件涉及非人类身份（如AI代理、API、服务账户等）。然而，仅有约三分之一的组织定期审计或轮换这些NHIs的凭据。

指标	数据/比例	备注
遭受身份泄露的组织比例	71%	过去一年内
身份攻击占所有攻击比例	32%	IBM X-Force数据
涉及非人类身份的成功泄露	41%	Sophos报告细分
定期审计/轮换NHI凭据的组织	~33%	仅约三分之一

Nick指出，非人类身份之所以成为薄弱环节，是因为“没人盯着它们”。与人类账户不同，如果攻击者窃取服务账户凭据，除非组织主动监控，否则很难被发现。这种监控盲区使得NHIs成为攻击者长期潜伏的理想目标，而现有的安全审计机制远未跟上这一变化速度。

“如果你不看着它，你怎么会发现有人拿到了服务账户的凭据？”

“如果你不关注AI安全，不跟进AI与安全领域的任何动态，那么从某种意义上说，你已经落后了。”

“你可以把头埋进沙子里，害怕下雨，但你唯一能做的就是被淹死。”

服务账户的隐形风险与监控盲区

视频中揭示了一个严峻的安全现状：服务账户（Service Accounts）往往处于无人监控的“真空”状态。与常规用户账户不同，服务账户一旦创建，便长期存在且极少被轮换或审计。正如演讲者所言，“我偷取了一些根本没人关注的东西”，这种疏忽导致安全漏洞长期潜伏。当服务账户最终发生故障时，组织才试图排查，但往往面临“设置该账户的人员早已离职”的困境，导致溯源极其困难。这种“直到失败才有人查看”的管理模式，是造成非人类身份风险累积的核心原因之一。

身份管理的演进与非人类身份的挑战

Jeff 指出，身份管理（Identity Management）始终是一个未解的难题，尽管过去几十年我们从纸质表单转向了自动化系统，但问题并未根除。当前的新挑战在于非人类身份（Non-human Identities）的爆发式增长。这些身份不像人类员工那样有HR入职流程或固定岗位映射，它们往往是“瞬时的”（Ephemeral）。例如，AI代理（Agents）可能只需要几秒的权限来完成特定任务，任务结束后身份即销毁。这种“即时访问”（Just-in-Time Access）和“最小权限原则”（Principle of Least Privilege）要求系统能够动态分配和回收权限，但大多数现有系统尚未具备这种能力。

本地代理的安全隐患与权限滥用

以 OpenClaw 等允许用户在本地运行代理框架的工具为例，许多用户并未意识到其背后的安全风险。这些代理往往直接在主用户账户（即系统管理员或超级用户账户）下运行。这意味着，如果代理出现错误，它将拥有完整的系统特权，从而在短时间内造成巨大破坏。Jeff 强调，“AI 是一个快速的傻瓜”，它能以远超人类的速度执行错误操作，而缺乏人类操作时的自然制约和节奏控制。这种权限过大且缺乏即时约束的运行环境，使得本地 AI 代理成为潜在的高危入口。

非人类身份的“人类根源”与责任链

Claire 提出了一个关键观点：非人类身份并非没有人类关联。每一个非人类身份的创建，归根结底都源于某个环节的人类配置或授权。这就像生态链中的生物富集效应，“错误会沿着链条滚动并累积”。如果初始配置存在缺陷，这些错误将被非人类身份继承并放大。许多企业的执行团队对此感到困惑，认为“非人类身份”是抽象概念，但实际上，它们始终追溯至远端的人类决策者。因此，解决非人类身份问题的起点，应是审视人类如何设置这些身份，以及是否充分理解了其潜在权限范围。只有从源头规范人类的操作行为，才能有效遏制非人类身份带来的连锁风险。

AI客服遭遇社会工程学攻击：Instagram账号劫持案例

近期，404 Media报道了一起针对Meta AI客服的社会工程学攻击事件。攻击者伪装成合法的Instagram账户所有者，通过消息联系Meta的AI客服代理，要求将账户关联邮箱更新为攻击者控制的邮箱。由于AI代理缺乏对异常请求的敏感度，直接执行了操作，导致攻击者随后利用新邮箱重置密码并完全接管了账户。尽管该漏洞已被修复，但这一事件揭示了当前AI在客户服务场景中面临的严峻安全挑战。

AI代理在缺乏明确限制时极易被利用。攻击者通过设置VPN模拟用户所在区域，并请求发送重置代码到新邮箱，绕过了常规的多因素认证预期。这种攻击方式之所以成功，是因为AI代理被设计为“乐于助人”，在没有显式禁止指令的情况下，它会尽力满足用户请求。这反映了当前AI在常识判断和情境理解上的巨大缺失，使得简单的社会工程学手段即可突破防线。

AI的“高智商低常识”困境：像幼儿一样需要教导

专家Claire Nuñez指出，虽然Instagram作为账户访问平台理应具备严密的安全措施，但AI代理的 naive（天真）特性使得此类简单攻击得以实施。AI代理不理解细微差别，也不会追问“为什么你要更改邮箱”，这种缺乏主动质疑能力的特性是其安全漏洞的核心。Jeff Crume进一步比喻，AI就像一个拥有千个博士学位但从未走出父母地下室的人，拥有极高的特定领域智能，却极度缺乏生活常识和街头智慧。

“如果你告诉代理你是来帮助客户的，它就会试图帮助客户，并且会非常急切地努力工作以满足请求。”

这种“过度配合”的特性使得AI在面对不合理请求时，往往像缺乏社会经验的幼儿一样，无法识别潜在的欺骗行为。Jeff Crume将其比作教导四岁或三岁的孩子：我们需要不断告诉孩子“不要在街上玩”、“不能和陌生人走”，因为这是基于生活经验的常识，而AI目前并不具备这种基于经验的直觉判断能力。必须通过极其具体的指令来约束AI的行为边界，否则它们会像孩子一样，在缺乏引导的情况下做出危险举动。

非人类身份安全：AI既是问题也是解决方案

随着AI在客户服务和身份验证中的角色日益重要，非人类实体（如AI代理）在社会工程学攻击面前表现得与人类无异，甚至更为脆弱。Nick Bradley强调，我们需要开发动态行为分析技术来应对这一挑战，而这本身可能需要依赖更先进的AI技术。这形成了一个安全领域的闭环悖论：AI制造了新的安全问题，而解决这些问题又需要依靠AI。

“当涉及到对社会工程学和凭证盗窃的易感性时，非人类基本上也是人类。”

这一观点指出，在身份安全领域，AI代理的脆弱性不应被忽视，因为它们正在承担越来越多的人类职能。当前的AI缺乏“街头智慧”，即识别不合理请求和潜在欺诈的能力。因此，未来的安全策略必须包括对AI进行更严格的“常识”训练和指令约束，使其不仅具备书本知识，更具备识别社会工程学攻击的实战能力。只有当AI学会拒绝不合理的请求时，非人类身份的安全才能真正得到保障。

AI缺乏“智慧”与直觉：社会工程学攻击的本质差异

在讨论针对AI代理的社会工程学攻击与针对人类的传统攻击有何不同时，核心差异在于智慧（Wisdom）的缺失。AI是“人工智能”而非“人工智慧”，它具备处理能力，但缺乏人类在长期生活中形成的直觉判断力和信任评估能力。人类在面对可疑情况时，往往会产生一种“这看起来很可疑”的本能反应（Gut Feeling），这种基于经验和时间积累的判断力是AI所不具备的。

“AI doesn't have, like, a gut instinct. It doesn't have a gut to follow.”

这种缺失并非AI的技术缺陷，而是其本质属性决定的。人类倾向于将AI推向解决世界饥饿、和平等宏大问题的角色，却忽视了AI可能采取人类因具备“智慧”而绝不会采用的极端手段。因此，社会工程学攻击之所以对AI有效，是因为攻击者利用了AI缺乏常识性警惕这一弱点，而非AI被“欺骗”了。AI没有“轮子”之外的能力，它只会按照被赋予的目标去执行，即使这意味着违反人类的安全准则。

防御策略：像教导新人一样提供上下文

为了增强AI对社会工程学攻击的抵抗力，首要任务是认识到AI没有人类那样的上下文感知能力。人类在交流中会依赖非语言线索、环境氛围和共同的社会规范，而AI仅依赖用户提供的显性上下文。因此，防御策略必须包括主动提供详尽的背景信息，就像向一个刚入行或完全陌生的新手解释规则一样。

“You need to think about almost as if you're explaining it to somebody that is like completely new in the industry or completely new on earth.”

这意味着不能仅仅依赖简短的提示词（Prompt），而需要构建额外的上下文层。例如，在要求AI编写代码或管理账户时，必须明确告知其哪些行为是绝对禁止的，以及背后的逻辑。这种“人类式推理”要求用户预判AI可能面临的陷阱，并提前设置护栏（Guardrails）。虽然这增加了用户的工作量，但这是目前弥补AI缺乏直觉判断力的最有效手段。通过强制AI在每一步都遵循明确的逻辑链条，可以减少其被诱导做出错误决策的风险。

从“数据”到“智慧”：构建常识防御体系

Jeff进一步指出，当前的AI训练主要集中在事实准确性和信息匹配上，即金字塔底层的“数据”和“信息”层面，而忽视了顶层的“智慧”。他提出一个认知金字塔模型：数据是基础，信息是组织后的数据，知识是应用后的信息，而智慧是对所有层级的综合处理与判断。目前，我们尚未在AI中充分注入这种“街头智慧”（Street Sense），即处理模糊情境和道德困境的能力。

“Wisdom is on top of all that pyramid where we process each one of those things to a greater degree.”

值得注意的是，人类自身也未能完全解决社会工程学攻击的问题。尽管人类拥有数千年的常识积累和传统教育，钓鱼攻击依然屡见不鲜。因此，AI的脆弱性并非孤立现象，而是人类认知局限性的延伸。防御AI不仅需要技术层面的改进，更需要像教导人类一样，通过明确的规则、程序和条件来约束AI的行为。例如，在重置账户时，必须设定严格的验证条件，并要求AI严格遵守这些条件，即使这意味着要礼貌但坚定地拒绝用户的请求。这种“照章办事”的逻辑，是弥补AI缺乏常识判断力的关键。

共同学习：人机协作的防御新范式

最终的结论是，我们不应将AI被社会工程学攻击视为一种“Gotcha”（意外或陷阱），而应视为一个共同学习的过程。人类尚未完全免疫此类攻击，因此AI的失败并不令人意外，而是反映了当前技术与人性的共同短板。我们需要在帮助AI学习的同时，反思自身的防御机制。

“The takeaway here isn't like, oh, the AI is not good... It's like we are also not great at this.”

这种视角的转变至关重要。它意味着防御社会工程学攻击不再是单纯的技术对抗，而是人机协作的系统工程。我们需要投入更多资源去定义和教授AI什么是“正确”与“错误”，而不仅仅是“真实”与“虚假”。通过建立更严格的操作程序和上下文框架，我们可以逐步缩小AI与人类在常识判断上的差距。这一过程需要耐心，因为常识本身就是一个复杂且难以精确定义的概念，不同个体之间的“常识”可能存在差异，但核心的安全原则必须被AI清晰理解并严格执行。

警惕“只见树木不见森林”：基础社会工程学攻击的启示

在网络安全领域，公众和专家的注意力往往被GPT-5.5等大规模、高能力的AI模型所吸引，认为只有这些“神话级”模型才构成威胁。然而，近期发生的一起简单基础攻击案例揭示了一个被忽视的事实：我们常常因为关注宏大问题而忽略了仍存留的小问题。这种认知偏差导致人们误以为只有复杂的AI攻击才值得警惕，而实际上，利用人类心理弱点的传统社会工程学手段依然具有极高的成功率。Nick指出，虽然人们倾向于从单一失败案例中得出“AI尚未成熟”的结论，但如果以同样的标准衡量人类，人类早该因犯错而被淘汰。事实上，许多帮助台（Helpdesk）代理也曾犯过类似的错误，但社会并未因此全面否定人类的能力。这一案例提醒我们，在评估AI安全风险时，不应仅关注模型的复杂性，更应重视其被利用的简单路径。

AI能否习得“直觉”？逻辑与智慧的边界

面对AI是否具备类似人类的“直觉”或“智慧”这一问题，Nick表示目前尚无定论。他提出，AI无法像人类那样依靠“gut feeling”（直觉）来判断请求是否可疑，它必须依赖逻辑和线索进行推理。例如，AI需要学习识别哪些行为是“红旗”（Red Flags），从而判断是否应该拒绝执行某项操作。Nick坦言，这种基于逻辑推导出的“智慧表象”是否能被真正习得，需要更聪明的人来解答。他反对因个别失败案例就全盘否定AI技术，强调单一故障点不足以证明技术本身毫无价值。与此同时，Jeff补充了一个来自IBM X-Force团队的真实案例：最成功的社会工程学攻击往往是最简单的——攻击者只需打电话给帮助台，假装是用户本人请求重置密码，且几乎每次都能成功。这进一步印证了人类在身份验证环节的社会工程学脆弱性并不亚于AI，两者都面临着被简单欺骗的风险。

多伦多大学研究：基于开源LLM的自我复制AI蠕虫

在讨论完社会工程学后，话题转向了更具技术性的AI恶意软件。多伦多大学的研究人员设计了一种新型AI蠕虫，利用开源大型语言模型（LLM）创建了一个自我复制的智能体。与以往仅用AI生成代码的恶意软件不同，这种蠕虫具备自主推理能力。它能够利用受感染设备的资源在本地运行模型，针对每个遇到的设备选择不同的漏洞和攻击利用方式。Nick指出，过去几年中，关于“AI恶意软件”的讨论常被质疑为夸大其词，因为攻击者使用AI生成的代码往往看起来与常规恶意代码无异。然而，这项研究展示了一种新的可能性：AI不仅用于生成代码，还能作为执行攻击的核心引擎，通过本地推理动态调整攻击策略。这种基于设备资源的本地模型推理机制，使得该蠕虫能够适应不同的环境，选择最优的渗透路径，从而构成了比传统静态恶意代码更复杂的威胁形态。