Hace dos años, elegir entre ChatGPT, Gemini o Claude tenía consecuencias claras según la tarea. Uno era mejor en código, otro en razonamiento largo, otro en seguir instrucciones complejas. Hoy esas diferencias se han reducido hasta el punto de que en la mayoría de tareas cotidianas el resultado es prácticamente indistinguible. Los grandes modelos de lenguaje están convergiendo, y eso tiene implicaciones que van más allá de qué herramienta usar en el trabajo.
Los benchmarks ya no discriminan
Durante años, los benchmarks como MMLU, HumanEval o MATH fueron el termómetro del sector. Cada lanzamiento venía con una tabla comparativa que mostraba mejoras porcentuales sobre el modelo anterior y superioridad sobre la competencia. El problema es que esas tablas han dejado de ser útiles para tomar decisiones prácticas: los modelos líderes de OpenAI, Google, Anthropic y Meta obtienen puntuaciones tan cercanas en casi todos los benchmarks estándar que las diferencias están dentro del margen de error de las propias pruebas.
La respuesta del sector ha sido crear benchmarks más difíciles. Frontier Math, con problemas matemáticos de nivel investigador, o SWE-Bench Verified, con tareas reales de programación, siguen discriminando. Pero los modelos de primera línea están cerrando también esas brechas a un ritmo que hace que cualquier ventaja medida hoy sea historia en seis meses.
Por qué están convergiendo
Hay razones técnicas y razones de mercado, y se refuerzan mutuamente.
La razón técnica principal es que todos los modelos grandes comparten la misma arquitectura fundamental: transformers con atención, entrenados con variantes del mismo paradigma de aprendizaje por refuerzo con retroalimentación humana. Las diferencias están en los datos de entrenamiento, el tamaño del modelo y los detalles de implementación, pero el mecanismo subyacente es el mismo. Cuando la arquitectura es idéntica, la convergencia de rendimiento es casi inevitable a medida que se escala.
La razón de mercado es que todos los grandes labs están compitiendo por los mismos usuarios con los mismos casos de uso. Eso significa que las capacidades que un modelo tiene y que los usuarios valoran acaban siendo replicadas por los demás en el siguiente ciclo de lanzamientos. Meta con Muse Spark, Microsoft con sus modelos propios, Google con Gemini Ultra: todos están corriendo hacia el mismo objetivo porque todos tienen acceso a los mismos datos de uso y a las mismas señales del mercado.
La publicación de papers de investigación acelera esto. Cuando DeepMind publica los detalles técnicos de una mejora en razonamiento, OpenAI y Anthropic tienen equipos que lo leen, lo replican y lo integran. El conocimiento científico es público aunque el modelo no lo sea.
Qué se diferencia todavía
La convergencia no es total. Hay dimensiones donde los modelos siguen siendo genuinamente distintos.
La velocidad de inferencia varía de forma significativa entre modelos de tamaño equivalente, y eso importa mucho en aplicaciones donde el tiempo de respuesta es crítico. El coste por token sigue siendo diferente, lo que afecta a quién puede permitirse qué en producción a escala. Y los modelos pequeños y especializados, los que se ejecutan en local o los ajustados para dominios concretos como medicina o derecho, siguen teniendo perfiles de rendimiento muy diferentes entre sí.
También persisten diferencias en la forma en que cada modelo gestiona sus límites: qué acepta hacer, cómo rechaza peticiones, cómo responde ante ambigüedad. Eso refleja decisiones de diseño distintas sobre seguridad y alineación que no son técnicas en sentido estricto sino filosóficas. La discusión sobre si los modelos de IA deberían tener opiniones propias toca directamente este punto: la personalidad del modelo es uno de los pocos espacios donde la diferenciación real todavía existe.
Lo que la convergencia implica para el mercado
Si los modelos son básicamente equivalentes en la mayoría de tareas, la competencia se desplaza hacia otros factores: precio, integración, velocidad, privacidad de los datos, soporte empresarial. Eso favorece a las empresas que tienen distribución y relaciones comerciales establecidas, que son Microsoft, Google y Amazon, más que a los labs de IA como OpenAI o Anthropic, que dependen de esas mismas empresas para llegar a los usuarios finales.
Para los usuarios, la convergencia es buena noticia a corto plazo: más capacidad por menos dinero, y menor coste de cambiar de proveedor si uno sube precios o empeora. A largo plazo, si todos los modelos se vuelven commodities, el incentivo para invertir en investigación fundamental se reduce, porque la ventaja competitiva de un avance técnico se erosiona en meses. Es el mismo problema que tiene cualquier industria cuando el producto se estandariza: la innovación se ralentiza o se desplaza hacia capas superiores del stack.
La carrera actual hacia modelos más grandes y capacidades de razonamiento más profundo puede ser la última frontera donde la diferenciación técnica dure más de un año. Después de eso, la batalla de la IA se parecerá bastante a la batalla del cloud: mismas capacidades, distinto precio, y el ganador es quien tiene más clientes atrapados en su ecosistema.
0 Comentarios