Los modelos de IA ahora alucinan más que nunca, y nadie sabe por qué (ni OpenAI)

7.5.25

¿Te pensabas que los modelos de lenguaje estaban mejorando con cada versión? Qué ingenuidad. Según las propias pruebas internas de OpenAI, sus últimas creaciones —GPT o3 y o4-mini— están vomitando más falsedades que nunca. ¿Lo más absurdo? Estos modelos fueron diseñados específicamente para razonar mejor. El resultado: delirio digital con disfraz académico.

De GPT o1 a GPT o4: evolución inversa

Los datos son de The New York Times, pero la vergüenza es de OpenAI. Al evaluar a los modelos con preguntas sobre personajes públicos (PersonQA), el flamante GPT o3 alucinó el 33% del tiempo. ¿Su predecesor, GPT o1? Solo el 15%. Y el nuevo modelo "mini", el o4-mini, se disparó a un 48%. Bienvenidos al progreso inverso.

¿Quieres algo más deprimente? En el test SimpleQA, con preguntas genéricas, GPT o3 falló un 51%, y el o4-mini un escalofriante 79%. Casi prefiero una bola mágica de feria.

¿Más razonamiento = más invenciones?

Los modelos de “razonamiento” prometían ser el salto cuántico: pensar paso a paso, como un humano resolviendo un sudoku. Pero la realidad es que están generando más errores que nunca. ¿Qué demonios está pasando?

Nadie lo sabe. Literalmente. Ni OpenAI. Solo se manejan hipótesis:

¿Sobreajuste al pensamiento humano? Tal vez están simulando tan bien el proceso que se inventan también la parte creativa.
¿Refuerzo mal entrenado? Enseñar a una IA a razonar usando refuerzo puede estar amplificando caminos erróneos.
¿Interferencia entre pasos de pensamiento? Más complejidad puede estar provocando contradicciones internas no detectadas.

El problema con los sueños robot

Esto no es una molestia menor. Es un agujero negro de confianza. Porque si tienes que revisar manualmente todo lo que produce un modelo supuestamente “inteligente”, entonces... ¿para qué demonios sirve?

En tareas como atención al cliente o generación de ideas puede colar. Pero en entornos críticos —legal, médico, financiero— una alucinación con apariencia de certeza es básicamente una demanda esperando ocurrir.

Lo que nadie te cuenta sobre esto

Los modelos más avanzados están más rotos que los anteriores. No es un glitch. Es un patrón. Los sistemas más complejos están colapsando bajo su propia sofisticación.
El marketing de “razonamiento” está sobrevalorado. Que un modelo explique sus pasos no significa que esté pensando. Solo que te da un storytelling más bonito para justificar su disparate.
OpenAI está caminando por una cuerda floja de credibilidad. Mientras presumen de capacidades cuasi-humanas, sus propios datos internos contradicen la narrativa.
No hay benchmark universal confiable. Cada empresa evalúa lo que quiere, como quiere. La “verdad” depende del test que convenga al titular de turno.

Conclusión sin alucinaciones

Lo que debía ser un salto hacia una IA más lógica y confiable se está convirtiendo en un desfile de errores sofisticados. GPT o3 y o4-mini no solo fallan, fallan con estilo, generando respuestas erróneas envueltas en cadenas de razonamiento que suenan plausibles. El peligro es que cuanto más parecen saber, más confiamos... y más nos la cuelan. Si esta es la era del razonamiento artificial, quizás necesitamos un poco menos de “inteligencia” y mucho más control de calidad.

Los modelos de IA ahora alucinan más que nunca, y nadie sabe por qué (ni OpenAI)

De GPT o1 a GPT o4: evolución inversa

¿Más razonamiento = más invenciones?

El problema con los sueños robot

Lo que nadie te cuenta sobre esto

Conclusión sin alucinaciones

Publicado por Luis G.

Publicar un comentario

0 Comentarios

Video Destacado

Entradas Populares

Alemania prohíbe los formatos de Microsoft en sus administraciones públicas y apuesta por el código abierto

La actualización de marzo de Windows 11 rompe el inicio de sesión en Teams, OneDrive y Office

Un robot aprende tenis a partir de movimientos imperfectos y termina ganando a su propio creador

Etiquetas

Categories

Buscar

Denunciar abuso

Posts Interesantes

Alemania prohíbe los formatos de Microsoft en sus administraciones públicas y apuesta por el código abierto

La actualización de marzo de Windows 11 rompe el inicio de sesión en Teams, OneDrive y Office

Un robot aprende tenis a partir de movimientos imperfectos y termina ganando a su propio creador

Post Destacado

Amazon Prime gratis para lectores de Kernel Reload: 30 días de envíos, series y ofertas exclusivas

Posts Populares

Las mejores VPN para España en 2026: comparativa

Los 30 mejores juegos gratuitos para PC en 2026 que de verdad merecen tu tiempo

Las gafas inteligentes ya identifican personas en la calle. Y llevan meses haciéndolo.

Footer Menu Widget

Contact form

Los modelos de IA ahora alucinan más que nunca, y nadie sabe por qué (ni OpenAI)

De GPT o1 a GPT o4: evolución inversa

¿Más razonamiento = más invenciones?

El problema con los sueños robot

Lo que nadie te cuenta sobre esto

Conclusión sin alucinaciones

Publicado por Luis G.

Entradas que pueden interesarte

Publicar un comentario

0 Comentarios

Redes Sociales

Video Destacado

Entradas Populares

Etiquetas

Categories

Buscar

Posts Interesantes

Post Destacado

Posts Populares

Footer Menu Widget

Contact form