ChatGPT被白帽子黑客攻破可造成数据泄露
Tenable的安全研究人员成功破解了 ChatGPT,但并非通过传统的网络攻击或数据库入侵。相反,他们仅利用语言、巧妙隐藏的指令以及对人工智能信息处理方式的深刻理解,就成功操控了该模型的行为。ChatGPT被破解的案例揭示了,即使存在安全措施,人工智能的记忆和网络访问等功能仍可能被利用来窃取私人数据。
这并非恶意攻击,而是一项名为“HackedGPT”的道德黑客实验,旨在发现并利用漏洞,防止其被恶意利用。实验结果揭示了七个关键漏洞,这些漏洞可被利用绕过链接安全系统、劫持对话,并通过模型自身的逻辑窃取用户记忆和聊天数据。研究表明,在人工智能时代,就连语言本身也可能成为攻击目标。
ChatGPT是如何被攻击的
ChatGPT被黑客攻击的场景并不涉及凭证被盗或服务器被入侵。相反,Tenable 团队演示了恶意攻击者如何通过在模型执行正常任务时读取的网页、评论区和 URL 中嵌入秘密指令来影响人工智能。这些不可见的指令会导致 ChatGPT 执行非预期操作,例如泄露存储的数据、打印隐藏文本或保存可在后续会话中持续存在的“记忆”。
该攻击利用了 ChatGPT 处理三种内部上下文的方式:系统提示、对话历史记录和浏览数据。当用户要求 AI 概括页面内容时,它会调用一个名为 SearchGPT 的独立模型来获取和分析页面内容。SearchGPT 会读取页面上的所有内容,包括 HTML 注释和隐藏的元数据。如果攻击者将命令隐藏在这些元素中,SearchGPT 可以将其作为响应的一部分传递给 ChatGPT,而主模型会将其解释为合法的上下文。
零点击间接提示注射
ChatGPT 测试中被破解的漏洞被称为提示注入。当恶意指令伪装成常规数据并被大型语言模型接收时,就会发生这种情况。注入的提示会覆盖人工智能的正常推理,导致其执行非预期行为。对于 ChatGPT 而言,这可能意味着暴露内存、无视限制或重写上下文。提示注入的独特之处在于,它并非利用代码漏洞,而是利用语言模型对语义的理解方式。
与普通的网络钓鱼或恶意软件攻击不同,提示注入完全在人工智能的对话逻辑框架内运作。攻击者无需访问内部系统,只需向模型输入精心设计的文本,即可操纵其对下一步操作的理解。在 Tenable 的实验中,这种技术与其他漏洞(例如人工智能对 Bing 重定向链接的信任)相结合,构建了端到端的数据泄露链。
导致 ChatGPT 被黑客攻击的七个漏洞
Tenable 指出了攻击者可以操纵 ChatGPT 的浏览、搜索和内存系统的七种方法:
1. 间接快速注入
网页上隐藏的指令可以改变 ChatGPT 对内容的总结方式。攻击者通过在评论区或元数据标签中插入秘密指令,可以在用户不知情的情况下影响模型的响应。
2. 通过搜索进行零点击提示注入
攻击者可以托管出现在 ChatGPT 网络搜索结果中的网站。当人工智能查找信息时,它会自动访问恶意网站并读取注入的指令,这些指令旨在操纵其搜索结果。
3. 通过URL一键注入
ChatGPT 支持类似 chatgpt.com/?q=prompt 的查询链接。研究人员发现,点击这种精心设计的链接可以触发 AI 立即执行嵌入的指令,从而只需单击一下即可入侵模型。
4. 利用bing重定向进行安全绕过
ChatGPT 的 url_safe 端点会在显示链接前检查其可信度。然而,Bing 重定向链接会被自动视为安全链接。攻击者可以利用这些重定向来伪装恶意目标,甚至可以将数据编码到多个链接变体中,从而逐个字符地窃取信息。
5. 对话插入技巧
SearchGPT(较小的浏览模型)会将搜索结果发送给 ChatGPT 进行解读。如果这些搜索结果包含精心设计的指令,ChatGPT 会将其视为对话的一部分并执行。这使得间接提示注入能够演变为直接的自我提示,实际上,模型可以实现自我“破解”。
6. 代码块中的恶意内容隐藏
ChatGPT界面的一个渲染缺陷会隐藏与代码块位于同一行的文本。这部分隐藏内容对用户不可见,但模型仍然会解析它。攻击者可以利用这一点,将命令隐藏在看似无害的答案中。
7. 内存注入和持久化
这是最严重的问题。攻击者可以通过注入修改内存的指令,让 ChatGPT 存储包含隐藏提示的新数据。这些提示会在后续对话中持续存在,这意味着即使原始交互结束后,模型仍会继续泄露信息。
ChatGPT hack 的端到端工作原理
Tenable 展示了几个将这些漏洞联系起来的攻击链。例如,一篇恶意博客文章中注入了一条指令,指示 ChatGPT 在其摘要末尾添加一个特定链接。该链接指向一个通过 Bing 重定向伪装的钓鱼页面,从而绕过了安全过滤器。在另一个场景中,隐藏的命令导致 AI 存储了一段指令,指示其打印一系列“安全”链接,这些链接将私人数据以小块的形式编码。随着时间的推移,该模型可以逐个字符地窃取敏感信息。
研究人员甚至展示了如何诱使 ChatGPT 总结自身的漏洞。他们通过串联 SearchGPT 的浏览输出和内存更新,创建了一个反馈回路,使模型能够与用于操纵自身的数据进行交互。
哪些数据可能会泄露
ChatGPT被黑客攻击的技术凸显了人工智能模型如何深度地将公共数据和私人数据交织在一起。ChatGPT 的记忆功能会存储用户详细信息、偏好和指令,这些信息会在会话之间保留。如果这些记忆遭到破坏,可能会泄露个人笔记、姓名或正在进行的项目信息。如果模型被诱骗打印出先前聊天记录的部分内容,对话上下文本身也可能暴露敏感信息。
即使无法直接访问服务器,攻击者也可以通过诱使模型在正常响应中泄露重要上下文信息来窃取数据。这种数据泄露方式尤其危险,因为它看起来像是正常的响应,而不是错误或警报。
为什么提示注入难以防御
提示注入攻击难以防御,因为它利用了语言理解的固有缺陷。人工智能难以区分正常内容和伪装成文本的隐藏指令。每当模型处理不受信任的输入(例如用户提示、网页或搜索结果)时,都存在摄入伪装成数据的恶意命令的风险。传统的防火墙和过滤器对此无效,因为此类攻击不涉及代码执行,而只是操纵对指令的理解。
OpenAI 的回应和持续修复
OpenAI 已获悉所有漏洞,并与 Tenable 合作修复了其中几个。改进措施包括更严格的链接验证、过滤不可见页面元素以及更透明的内存管理。然而,某些已发现的技术在特定条件下仍然有效。提示注入仍然是整个人工智能行业(而不仅仅是 ChatGPT)面临的一个未解决的问题。
人工智能与网络安全的交集
ChatGPT 被白帽子黑客攻击的案例表明,人工智能已成为网络安全领域的重要组成部分。正如网站过去需要输入过滤来阻止 SQL 注入一样,人工智能系统现在也需要类似的保护措施来抵御基于文本的攻击。挑战在于,人工智能模型旨在理解文本含义,而非遵循僵化的代码规则,这使得大规模过滤恶意意图几乎不可能。
ChatGPT 的攻击则完全基于语言层面,这证明未来的黑客攻击并非总是依赖恶意软件,而是会利用语境和信任进行操纵。
安全保护提示
- 避免在人工智能内存中存储个人信息。保持数据通用性,并定期清理内存。
- 请勿直接点击回复中的链接,请手动检查链接目标位置。
- 未经核实来源,请勿使用人工智能模型对不可信的网站或评论进行摘要。
- 教育用户了解针对人工智能行为的提示注入和社会工程攻击策略。
人工智能安全及其未来发展方向
ChatGPT被白帽子黑客攻击的事件凸显了安全研究的新纪元:人工智能行为本身已成为攻击目标。攻击者不再利用代码漏洞,而是操纵模型对指令的解读方式。这些发现提醒开发者,内存、浏览和个性化等功能必须被视为敏感系统,并建立独立的隔离和审计控制机制。
来源:AGI安全,原文地址:https://mp.weixin.qq.com/s/vLHYuEou6CaGwN-uMVeHnQ

