Durante años, los asistentes de voz prometieron lo mismo: habla y tu teléfono lo hace todo. En la práctica, lo que hacían era abrir la app en cuestión y dejarte a ti el trabajo real. Eso acaba de cambiar con Gemini.
Google ha activado en el Samsung Galaxy S26 y en la serie Pixel 10 una función llamada task automation o screen automation que convierte a Gemini en un agente capaz de navegar aplicaciones de terceros por ti, paso a paso, sin que toques la pantalla. Dices lo que quieres, el asistente hace el trabajo y solo te pide intervención en el momento de pagar.
Cómo funciona en la práctica
El flujo es más sencillo de lo que parece. Mantienes pulsado el botón de encendido para activar Gemini y le das una instrucción en lenguaje natural: "pídeme un Uber al aeropuerto" o "repite mi último pedido de DoorDash". A partir de ahí, Gemini abre la aplicación correspondiente dentro de una ventana virtual aislada del resto del teléfono, navega por los menús, rellena los campos necesarios y completa todos los pasos intermedios que normalmente harías tú.
Lo que no hace es finalizar la compra. Cuando llega al punto de confirmación de pago, el sistema envía una notificación con vibración intensa y te devuelve el control para que seas tú quien pulse el botón final. El cargo nunca ocurre sin tu aprobación explícita.
Durante todo el proceso puedes ver en tiempo real lo que Gemini está haciendo, interrumpirlo en cualquier momento y tomar el control si algo no va como esperas.
Más inteligente de lo que parece
Los detalles de implementación revelan un nivel de comprensión contextual que va más allá de seguir un guion fijo. En pruebas con Starbucks, Gemini fue capaz de interpretar el nombre informal "Medicine Ball" y encontrar el producto correcto en el menú bajo su nombre oficial, Citrus Honey Mint Tea. Al pedir un Uber, el sistema detecta si se trata de un trayecto al aeropuerto y pregunta por la terminal solo cuando es relevante, sin añadir pasos innecesarios.
Cuando la app de entrega tiene páginas de complementos o extras, Gemini las salta directamente si no son necesarias para completar el pedido, algo que cualquier usuario habitual de estas plataformas sabe que es una fricción constante.
La función también permite configurar preferencias permanentes en los ajustes de Gemini: reservar siempre el Uber más económico, filtrar por opciones sin gluten, elegir un restaurante habitual. Esas instrucciones se aplican automáticamente sin necesidad de repetirlas cada vez.
Dónde está disponible y con qué apps
El despliegue es todavía limitado. La función está activa en el Samsung Galaxy S26, S26+ y S26 Ultra, y está llegando al Pixel 10, Pixel 10 Pro y Pixel 10 Pro XL durante marzo de 2026. Por ahora solo funciona en Estados Unidos y Corea.
Las aplicaciones compatibles en el lanzamiento son Uber, Lyft, Uber Eats, DoorDash, Grubhub, McDonald's y Starbucks. Google ha confirmado que irá añadiendo más aplicaciones de las categorías de alimentación, supermercados y transporte. En cuanto a límites de uso, los usuarios del plan gratuito tienen alrededor de cinco automatizaciones diarias, mientras que los suscriptores de Gemini Ultra pueden hacer hasta 120.
La arquitectura que lo hace posible y seguro
Un detalle técnico relevante es cómo Google ha diseñado el aislamiento de la función. Gemini no tiene acceso libre al teléfono: opera dentro de una ventana virtual procesada en la nube, separada del resto del sistema. No puede navegar por aplicaciones fuera de la tarea en curso ni acceder a datos no relacionados con lo que se le ha pedido.
Esto resuelve una de las objeciones más razonables frente a los agentes de IA en dispositivos personales: el riesgo de que un sistema con acceso a tus apps tenga más control del que debería. La arquitectura de ventana aislada reduce ese riesgo de forma estructural, no solo con políticas de uso.
Por qué esto importa más allá de pedir pizza
La función empieza por casos de uso de baja complejidad y alta repetición, lo que tiene sentido estratégico. Pedir comida a domicilio o reservar un taxi son tareas con pasos predecibles donde el margen de error es bajo y el beneficio de la automatización es inmediato y fácil de medir.
Pero la arquitectura que hace posible esto no está limitada a esas categorías. Un sistema que puede leer la interfaz de cualquier app, interpretar lo que ve y ejecutar acciones en consecuencia puede extenderse a reservas de viajes, compras en comercios, gestión de citas o cualquier tarea que implique navegar por varias pantallas siguiendo un proceso repetitivo.
Lo que Google está construyendo no es un asistente más inteligente. Es la capa de ejecución que hasta ahora faltaba en los asistentes de voz: no te dice cómo hacer algo, lo hace.
Apple tiene características similares en desarrollo con App Intents y las próximas actualizaciones de Siri, y OpenAI lleva tiempo hablando de agentes autónomos. Pero Google es quien primero pone esta capacidad en dispositivos de consumo masivo con un despliegue real y funcional.
¿Usarías un asistente que gestione tus apps de forma autónoma o prefieres mantener el control tú? Cuéntamelo en los comentarios.
0 Comentarios