ChatGPT vs Claude vs Gemini para programar: qué dice alguien que los usó tres meses en trabajo real


La mayoría de comparativas entre modelos de IA para programación hacen lo mismo: le piden a cada uno que resuelva FizzBuzz, miden el tiempo de respuesta y sacan conclusiones. El problema es que FizzBuzz no se parece en nada al trabajo real de desarrollo.

Lo que sigue es el resumen de tres meses de uso diario de ChatGPT, Claude y Gemini en trabajo fullstack real, principalmente React y Next.js con algo de backend en Python, compartido por un desarrollador en Reddit. No es un benchmark artificial. Es lo que pasó cuando usó los tres para las mismas tareas de su trabajo.

Claude: el mejor para código y no está cerca

La conclusión principal es directa: Claude gana para trabajo de programación serio, y la diferencia no es pequeña.

El caso que mejor lo ilustra es una refactorización de un componente React de 400 líneas. Claude no solo dividió el componente en partes más pequeñas, sino que mantuvo todos los tests pasando durante el proceso, lo que implica que entendió la arquitectura completa y las dependencias entre piezas, no solo la sintaxis. En algún momento durante esa sesión, Claude detectó una condición de carrera que el propio desarrollador no sabía que existía.

La ventana de contexto de 200.000 tokens tiene un impacto práctico enorme en este tipo de trabajo. Puedes pegar el archivo completo más los tests y Claude trabaja con todo a la vez. Esa capacidad de mantener coherencia sobre bases de código largas, sin que el modelo pierda el hilo de lo que estaba haciendo diez mensajes atrás, es exactamente lo que diferencia una herramienta útil de una que te hace reescribir el contexto constantemente.

ChatGPT: sólido pero más generalista

ChatGPT no pierde, cambia de categoría. Para preguntas rápidas, debugging puntual y explicar conceptos a personas sin perfil técnico funciona muy bien. La lluvia de ideas y la generación de documentación son otros puntos fuertes.

Lo que no hace tan bien es el trabajo de código estructurado y de larga duración. Para eso, el desarrollador migró a Claude. ChatGPT sigue en su stack pero en un rol diferente: investigación, escritura, conversaciones exploratorias. Las funciones de generación de imágenes y el modo de voz son ventajas reales para ciertos casos de uso que Claude no cubre.

La distinción práctica que emerge de tres meses de uso es esta: ChatGPT para pensar, Claude para hacer.

Gemini: decepción, especialmente en contextos largos

Gemini es el que más decepciona en este análisis, aunque con un matiz importante. Los problemas concretos que se mencionan son dos: dificultades con contextos largos y código que no compila al primer intento con demasiada frecuencia. Para trabajo profesional donde cada ciclo de debugging cuesta tiempo real, ese segundo punto es un bloqueante serio.

El único área donde Gemini mantiene ventaja es la integración con el ecosistema de Google Workspace. Si tu flujo de trabajo gira alrededor de Google Docs, Sheets y Gmail, Gemini tiene integraciones nativas que los otros no replican. Para todo lo demás, especialmente código, el veredicto es alejarse rápido.

Hay un matiz: este análisis tiene algunos meses de base y Gemini ha recibido actualizaciones desde entonces. La recomendación que incluye el propio autor es válida para cualquiera de los tres: si probaste un modelo hace seis meses y no te convenció, merece la pena intentarlo de nuevo.

El stack final que quedó

Después de tres meses probando los tres en paralelo, la configuración que quedó es la siguiente. Claude para trabajo de codificación serio. ChatGPT para investigación, escritura y lluvia de ideas. Y Perplexity para búsquedas, porque resulta mejor que los tres modelos conversacionales para encontrar información específica en la web.

Ese último punto es relevante: Perplexity como herramienta de búsqueda separada de los asistentes de conversación. Es una distinción que muchos usuarios no hacen, usando el chatbot de turno para todo y obteniendo resultados mediocres en búsquedas que requerirían fuentes actualizadas.

Lo que cambia rápido

Hay una observación que cierra el análisis y que merece atención propia: los tres modelos han mejorado notablemente incluso en los últimos meses. No en ciclos de un año, sino en cuestión de semanas entre actualizaciones.

Eso tiene una implicación práctica. Las comparativas de IA para programación tienen fecha de caducidad corta. Una conclusión de hace seis meses sobre qué modelo es mejor para refactorizar código puede estar completamente obsoleta hoy. Los modelos que fueron mediocres para un caso de uso específico en febrero pueden haberlo resuelto en mayo.

La consecuencia útil de eso es que vale la pena revisar periódicamente las herramientas que descartaste. No porque haya que usar todas, sino porque el panorama cambia más rápido de lo que la mayoría de desarrolladores actualiza sus preferencias.

¿Usas alguno de estos tres para programar? ¿Coincide con esta experiencia o has llegado a conclusiones diferentes? Cuéntamelo en los comentarios.

Publicar un comentario

0 Comentarios