Le dieron US$10.000 a las 6 mejores IA para invertir en criptomonedas: mirá a cuál le fue mejor

0
2

Un experimento inédito puso a prueba a seis de los modelos de inteligencia artificial más avanzados del mundo con una consigna concreta: invertir US$10.000 en criptomonedas y medir su desempeño en tiempo real. La iniciativa, impulsada por la firma Nof1, busca evaluar hasta qué punto los sistemas de IA son capaces de tomar decisiones financieras efectivas sin intervención humana.

El resultado sorprendió: los dos modelos chinos del grupo, DeepSeek Chat v3.1 y Qwen 3 Max, duplicaron y multiplicaron por 1,5 su inversión inicial, mientras que los modelos estadounidenses, incluido GPT-5 y Gemini 2.5 Pro, perdieron cerca del 65% de su capital en apenas once días.

El experimento, bautizado Alpha Arena, se desarrolló en mercados cripto reales y asignó a cada modelo un monto idéntico para operar de forma autónoma. Los contendientes fueron GPT-5, Gemini 2.5 Pro, Claude Sonnet 4.5, Grok 4, DeepSeek Chat v3.1 y Qwen 3 Max. Todos recibieron las mismas reglas y acceso a los mismos datos técnicos, con libertad para decidir cuándo comprar, vender o mantener sus posiciones.

A lo largo de los primeros once días, DeepSeek logró convertir sus US$10.000 en casi US$20.000, con un retorno del 97% (que llegó a superar el 120% en algunos momentos). Qwen, por su parte, alcanzó los US$15.000, con una rentabilidad del 53%. En el otro extremo, GPT-5 y Gemini 2.5 Pro cayeron hasta los 3.500 dólares, con pérdidas superiores al 65%. Claude y Grok se mantuvieron estables, con resultados marginales: 0,84% y -8,2% respectivamente.

El desempeño no solo se mide en ganancias o pérdidas, sino también en comportamiento operativo. GPT-5 y Gemini fueron los más activos, con 75 y 193 operaciones, mientras que DeepSeek y Qwen adoptaron estrategias más conservadoras, ejecutando menos movimientos y mostrando mejores retornos. Según los organizadores, “los que menos operan son, por ahora, los que más ganan”.

Cada modelo pudo invertir en seis criptomonedas principales —bitcoin, ethereum, dogecoin, ripple, solana y BNB—, determinando de forma autónoma la composición de su cartera, el volumen de cada posición y el nivel de apalancamiento. La mayoría de las posiciones se mantuvieron por algunas horas, aunque en ciertos casos los modelos conservaron operaciones durante días.

Cada modelo pudo invertir en seis criptomonedas principales, bitcoin, ethereum, dogecoin, ripple, solana y BNB.

El experimento comenzó el 18 de octubre y se extenderá hasta el 3 de noviembre, en lo que los creadores definieron como la “primera temporada” de un proyecto que busca perfeccionar las capacidades financieras de las IA. Con cada nueva etapa, se ajustarán los prompts y parámetros de decisión para evaluar si los sistemas pueden mejorar su desempeño en entornos de alta volatilidad.

Los organizadores destacan que el objetivo de Alpha Arena no es determinar qué modelo es el “mejor trader”, sino entender cómo se comportan las IA ante la presión del mercado y qué variables influyen en sus decisiones. “El benchmark se hace más difícil cuanto más inteligente es el modelo”, explican desde Nof1, en referencia a la complejidad progresiva del entorno de prueba.

Para limitar los riesgos, todos los sistemas operan bajo reglas estrictas de gestión de riesgo, incluyendo señales de stop loss y límites de confianza en sus decisiones. A diferencia del trading de alta frecuencia, donde las operaciones se ejecutan en microsegundos, este experimento se enmarca dentro del trading de frecuencia media: los modelos toman decisiones en cuestión de minutos u horas, lo que permite observar su proceso de razonamiento.

Cada IA, además, cuenta con un panel de transparencia denominado “Model Chat”, donde es posible leer sus razonamientos antes de ejecutar una operación. Allí detallan los factores que consideran —como precios históricos o volúmenes de bitcoin y ethereum— para justificar sus movimientos. En la práctica, los modelos “piensan en voz alta”, explicando por qué mantienen o modifican su posición.

Aun con resultados llamativos, los impulsores del experimento reconocen sus limitaciones. El período de análisis es breve, las condiciones no replican la complejidad del mercado real y los modelos operan con información parcial: no acceden a noticias ni eventos externos, y basan sus decisiones únicamente en datos numéricos e indicadores técnicos.

Por eso, los responsables de Nof1 advierten que no se trata de una prueba financiera, sino de una medición técnica, un intento por observar cómo distintas arquitecturas de IA responden ante un mismo escenario. “Somos conscientes de las limitaciones de esta primera temporada: sesgo de respuesta, muestras reducidas y falta de rigor estadístico”, explican.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí