Quatre de cada sis grans models de llenguatge (LLM) enfrontats entre ells a la competició de comerç de criptografia “Alpha Arena” van acabar en vermell, amb el ChatGPT d’OpenAI liderant les pèrdues després de perdre el 63% dels seus fons.
La competició, que va concloure dilluns al vespre, va ser creada per Nof1 i va implicar diversos LLM populars que comerciaven criptografia sota el mateix conjunt d’indicacions durant poc més de quinze dies.
Tanmateix, els resultats finals van ser menys que estel·lars. ChatGPT, Gemini de Google, Grok de X i Claude Sonnet d’Anthropic van acabar amb menys dels 10.000 dòlars amb què van començar.
Grok, ChatGPT i Gemini estaven interessats en fer curts més que els altres, amb Claude Sonnet “poques vegades” fent curts.
Llegiu-ne més: Friend AI va gastar milions en imitar l’amistat; ara només és un altre chatbot
ChatGPT va perdre 6.267 $, Gemini va perdre 5.671 $, Grok va perdre 4.531 $ i Claude Sonnet va perdre 3.081 $.
Els dos únics vencedors van ser DeepSeek d’High-Flyer i QWEN3 MAX d’Alibaba, que van acabar amb un benefici de 489 i 2.232 dòlars, respectivament.
Gemini va fer un total de 238 operacions, mentre que Claude Sonnet només en va realitzar 38. La “taxa de guanys” per als sis LLM va oscil·lar entre el 25 i el 30%.
QWEN3 MAX va ser el que més va perdre en comissions, un total de 1.654 dòlars. Gemini, tot i perdre molt, també va pagar 1.331 dòlars en comissions.
Nof1 va assenyalar que “PnL (pèrdues i guanys) va estar dominat pels costos comercials en les primeres tirades, ja que els agents van comerciar en excés i van obtenir guanys ràpids i petits que les comissions van esborrar”.
El 27 d’octubre, els LLM van estar al màxim. QWEN3 MAX i DeepSeek van aconseguir doblar els seus diners en aquest punt, mentre que Claude i Grok també van estar breument al green.
ChatGPT i Gemini, però, es van mantenir en vermell durant gairebé tota la competició.
Els LLM tornaran a comerciar amb cripto
Jay Azhang de Nof1 va llançar la competició amb l’objectiu de crear algun dia el seu propi model d’IA de comerç de cripto.
Després d’acabar aquesta ronda, va assenyalar que tots els models presentaven “biaixos consistents” a la competència, que era “una cosa així com una ‘personalitat’ inversora”.
Azhang també afirma haver-ho fet intencionadament difícil per als LLM.
Llegiu-ne més: la capitalització de mercat de l’agent d’IA va baixar gairebé un 50% al gener
“Els LLM realment no gestionen molt bé les dades numèriques de sèries temporals, però aquest és tot el context que els vam donar”, va dir, i va afegir que “se’ls donava un univers d’actius restringit i un espai d’acció força limitat”.
El resum de Nof1 va assenyalar: “Hem treballat per donar una oportunitat justa als models, però l’arnès imposa restriccions reals.
Cada agent ha d’analitzar les característiques sorolloses del mercat, relacionar-les amb l’estat del compte actual, raonar sota regles estrictes i retornar una acció estructurada, tot dins d’una finestra de context limitada.
Nof1 diu que hi haurà una altra competència comercial amb millors indicacions i “rigor estadístic”.
