OpenAI 推出基准测试,用于评估 AI 代理在智能合约安全方面的能力

OpenAI 推出了 EVMbench,这是一个与加密风险投资公司 Paradigm 合作开发的新基准测试系统,用于评估人工智能代理检测、修复和利用区块链智能合约漏洞的有效性。

该基准测试于周二发布,正值加密行业继续应对不断增加的安全损失之际。仅 2026 年 1 月,DeFi 黑客攻击就造成了约 8600 万美元的损失,智能合约漏洞仍然是主要的攻击途径。

EVMbench 的工作原理

EVMbench 包含 120 个精选漏洞,这些漏洞源自 40 份专业智能合约审计报告,其中大部分来自 Code4rena 等公开代码审计竞赛。该基准测试还纳入了 Tempo(一个专为稳定币支付设计的 Layer-1 区块链)安全审计过程中的漏洞场景,将评估范围扩展到面向支付的智能合约代码。

该框架在三种能力模式下测试 AI 智能体:检测模式(detect),智能体审计合约并根据漏洞召回率评分;修复模式(patch),智能体修改存在漏洞的代码同时保持功能完整性;以及攻击模式(exploit),智能体在连接到本地以太坊链的沙盒环境中执行资金窃取攻击。

在测试中,OpenAI 的 GPT-5.3-Codex 在攻击模式下取得了 72.2% 的得分,相比大约六个月前 GPT-5 的 31.9% 得分有了大幅提升。然而,检测召回率和修复成功率仍未达到全面覆盖,因为许多漏洞仍然对 AI 系统构成挑战。

该基准测试揭示了AI能力方面的一个显著差距:智能体在具有明确目标的漏洞利用任务上表现最佳,但在检测和修补方面却表现不佳。在检测模式下,智能体往往在发现单个问题后就停止,而不是进行全面审计;而在修补模式下,在保持功能性的同时移除隐蔽漏洞仍然很困难。

OpenAI承认EVMbench并不能完全代表现实世界智能合约安全的全部难度,并指出许多大量部署的加密货币合约所经历的审查要比基准测试中的合约更为严格。

Paradigm在其公告中表示:"通常有价值1000亿美元以上的资产存放在开源加密货币合约中。随着大型语言模型在发现漏洞方面能力的快速提升,我们必须对它们可能给加密货币领域带来的风险保持可见性并施加影响力。"

在发布基准测试的同时,OpenAI承诺投入1000万美元的API额度来加速网络防御,特别是针对开源软件和关键基础设施系统。这一承诺建立在2月发布的GPT-5.3-Codex的基础之上,OpenAI根据其准备框架将该模型的网络安全任务能力评定为"高能力"级别——这是首个获得此类评级的模型。

从事善意安全研究的组织可以通过OpenAI的网络安全资助计划申请额度。