-
EVMbench utilitza 120 vulnerabilitats reals extretes de 40 auditories públiques.
-
Les proves de rendiment indiquen que GPT-5.3-Codex va aconseguir 72,2% d’èxit en explotar fallades.
OpenAI va presentar EVMbench. Es tracta d’una nova eina que permet mesurar l’exercici d’agents d’intel·ligència artificial en un conjunt de proves (benchmarks) en detectar, arreglar i explotar contractes intel·ligents a Ethereum. La companyia va desenvolupar EVMbench amb Paradigm, una firma que finança projectes de xarxes de criptomonedes.
Els bots d’AI d’OpenAI a Ethereum són capaços d’avaluar tres aspectes clau al protocol.
Primer, detecten vulnerabilitats reals al codi obert d’Ethereum usant dades d’auditories públiques. Tot seguit, qualifiquen el risc de la vulnerabilitat i les recompenses d’auditoria per a la resta de desenvolupadors de l’ecosistema.
En segon lloc, proposa pegats per corregir aquestes vulnerabilitats sense trencar el funcionament del protocol. “Els agents modifiquen els contractes vulnerables i han de preservar la funcionalitat prevista alhora que eliminen l’explotabilitat, cosa que es verifica mitjançant proves automatitzades i controls d’explotació”, assegura OpenAI.
Tercer, simula atacs per explotar aquests errors i drenar fons en entorns controlats de simulació (caixa de sorra) segura. Tot i això, OpenAI aclareix que EVMbench «no representa la dificultat total de la seguretat dels contractes intel·ligents en el món real».
EVMbench utilitza 120 vulnerabilitats reals extretes de 40 auditories públiques de competències com Code4rena. Les proves de rendiment realitzades fins ara indiquen que el model d’agent GPT-5.3-Codex va assolir el 72,2% d’èxit en explotar errors. El model anterior, GPT-5, només arribava a un 31,9% d’èxit.
En detecció i pegat de vulnerabilitats, però, els resultats són del model són menys encoratjadors.
El rendiment és menor en les tasques de detecció i pegat. A la fase de detecció, els agents de vegades s’aturen després d’identificar un sol problema en lloc d’auditar exhaustivament el codi base. A la fase de pegat, mantenir la funcionalitat completa i, alhora, eliminar vulnerabilitats subtils segueix sent un desafiament.
OpenAI, empresa d’intel·ligència artificial.
Per què EVMbench és important?
Segons la companyia, la importància d’aquesta eina d’auditoria amb agents és que els contractes intel·ligents garanteixen rutinàriament 100.000 milions de dòlars en criptoactius dins de protocols de codi obert.
“A mesura que els agents d’IA milloren les seves habilitats de lectura, escriptura i execució de codi, cada vegada té més importància mesurar les seves capacitats en entorns econòmicament rellevants i fomentar l’ús de sistemes d’IA de manera defensiva per auditar i enfortir els contractes implementats”, va afirmar la companyia en el comunicat de presentació del producte.
Els agents d’OpenAI sobre Ethereum arriben en un moment de ràpid avenç en agents autònoms dins de l’ecosistema dels criptoactius. Com ho va reportar CriptoNoticias, aquests ja poden interactuar amb entorns complexos com Lightning Network. En aquesta segona capaels agents poden gestionar canals de liquiditat i intercanvis econòmics amb altres AI.
Coinbase, per la seva banda, va llançar al mercat Agentic Wallets, moneders que permeten que agents d’IA operin a la xarxa Base sense pagar comissions. I Phantom, la wallet més popular de Solana, va activar un servidor MCP perquè agents d’IA gestionin saldos i operin de manera autònoma.
Segons dades de Token Terminal, la xarxa d’Ethereum va assolir 17,3 milions de transaccions setmanals. L’explosió de transaccions a la xarxa es dóna després del llançament d’ERC-8004 a l’agost del 2025. Aquest és un estàndard que permet “descobrir, triar i interactuar amb agents a través de límits organitzacionals sense confiança preexistent” en economies d’agents obertes.
