Los modelos de IA ahora alucinan más que nunca, y nadie sabe por qué (ni OpenAI)

¿Te pensabas que los modelos de lenguaje estaban mejorando con cada versión? Qué ingenuidad. Según las propias pruebas internas de OpenAI, sus últimas creaciones —GPT o3 y o4-mini— están vomitando más falsedades que nunca. ¿Lo más absurdo? Estos modelos fueron diseñados específicamente para razonar mejor. El resultado: delirio digital con disfraz académico.


De GPT o1 a GPT o4: evolución inversa

Los datos son de The New York Times, pero la vergüenza es de OpenAI. Al evaluar a los modelos con preguntas sobre personajes públicos (PersonQA), el flamante GPT o3 alucinó el 33% del tiempo. ¿Su predecesor, GPT o1? Solo el 15%. Y el nuevo modelo "mini", el o4-mini, se disparó a un 48%. Bienvenidos al progreso inverso.

¿Quieres algo más deprimente? En el test SimpleQA, con preguntas genéricas, GPT o3 falló un 51%, y el o4-mini un escalofriante 79%. Casi prefiero una bola mágica de feria.


¿Más razonamiento = más invenciones?

Los modelos de “razonamiento” prometían ser el salto cuántico: pensar paso a paso, como un humano resolviendo un sudoku. Pero la realidad es que están generando más errores que nunca. ¿Qué demonios está pasando?

Nadie lo sabe. Literalmente. Ni OpenAI. Solo se manejan hipótesis:

  • ¿Sobreajuste al pensamiento humano? Tal vez están simulando tan bien el proceso que se inventan también la parte creativa.

  • ¿Refuerzo mal entrenado? Enseñar a una IA a razonar usando refuerzo puede estar amplificando caminos erróneos.

  • ¿Interferencia entre pasos de pensamiento? Más complejidad puede estar provocando contradicciones internas no detectadas.


El problema con los sueños robot

Esto no es una molestia menor. Es un agujero negro de confianza. Porque si tienes que revisar manualmente todo lo que produce un modelo supuestamente “inteligente”, entonces... ¿para qué demonios sirve?

En tareas como atención al cliente o generación de ideas puede colar. Pero en entornos críticos —legal, médico, financiero— una alucinación con apariencia de certeza es básicamente una demanda esperando ocurrir.


Lo que nadie te cuenta sobre esto

  • Los modelos más avanzados están más rotos que los anteriores. No es un glitch. Es un patrón. Los sistemas más complejos están colapsando bajo su propia sofisticación.

  • El marketing de “razonamiento” está sobrevalorado. Que un modelo explique sus pasos no significa que esté pensando. Solo que te da un storytelling más bonito para justificar su disparate.

  • OpenAI está caminando por una cuerda floja de credibilidad. Mientras presumen de capacidades cuasi-humanas, sus propios datos internos contradicen la narrativa.

  • No hay benchmark universal confiable. Cada empresa evalúa lo que quiere, como quiere. La “verdad” depende del test que convenga al titular de turno.


Conclusión sin alucinaciones

Lo que debía ser un salto hacia una IA más lógica y confiable se está convirtiendo en un desfile de errores sofisticados. GPT o3 y o4-mini no solo fallan, fallan con estilo, generando respuestas erróneas envueltas en cadenas de razonamiento que suenan plausibles. El peligro es que cuanto más parecen saber, más confiamos... y más nos la cuelan. Si esta es la era del razonamiento artificial, quizás necesitamos un poco menos de “inteligencia” y mucho más control de calidad.

Publicar un comentario

0 Comentarios