Ollama: cómo ejecutar modelos de IA en tu PC sin internet y sin pagar nada


, Claude, Gemini — todos los grandes modelos de lenguaje tienen algo en común: envían tus conversaciones a servidores externos. Hay personas que no quieren eso, ya sea por privacidad, por que trabajan con información confidencial, o simplemente porque prefieren no depender de conexión a internet para usar IA. Para todos ellos, Ollama es la herramienta que lo cambia todo.

Ollama permite descargar y ejecutar modelos de IA directamente en tu ordenador, sin conexión, sin coste por uso y sin que nadie vea tus conversaciones. Esta guía explica cómo funciona y cómo empezar desde cero.

Qué es Ollama

Ollama es una aplicación open source que actúa como gestor de modelos de lenguaje locales. Descarga el modelo de tu elección, lo optimiza para tu hardware, y lo sirve a través de una API local compatible con la de OpenAI. Esto significa que cualquier aplicación que funcione con ChatGPT puede funcionar también con Ollama simplemente cambiando la URL del endpoint.

Compatible con macOS, Windows y Linux. Funciona en CPU (más lento) y en GPU (notablemente más rápido). Si tienes una tarjeta gráfica NVIDIA o AMD con suficiente VRAM, la experiencia es comparable a usar un modelo en la nube.

Requisitos mínimos

Para correr modelos pequeños (7B parámetros) de forma razonable:

  • 8 GB de RAM como mínimo (16 GB recomendado)
  • 5-10 GB de espacio en disco por modelo
  • GPU opcional pero muy recomendable: 6 GB de VRAM para modelos 7B, 10-12 GB para modelos 13B

Con solo CPU los modelos funcionan, pero la respuesta es lenta (puede tardar 10-30 segundos en generar texto). Con una GPU discreta, la velocidad es totalmente usable en tiempo real.

Instalación en 3 pasos

1. Descargar Ollama

Ve a ollama.com y descarga el instalador para tu sistema operativo. En macOS es un .dmg, en Windows un .exe, en Linux un script de shell.

2. Descargar un modelo

Abre la terminal y ejecuta:

ollama pull llama3.2

Esto descarga Llama 3.2 (el modelo de Meta), que pesa unos 2 GB. Otros modelos populares:

  • ollama pull mistral — excelente relación calidad/tamaño, muy bueno para castellano
  • ollama pull gemma3 — modelo de Google, eficiente y capaz
  • ollama pull phi4 — modelo pequeño de Microsoft, muy rápido en CPU
  • ollama pull deepseek-r1 — modelo con capacidad de razonamiento paso a paso

3. Chatear

Una vez descargado, puedes chatear directamente desde la terminal:

ollama run llama3.2

Se abre un prompt donde escribes tus preguntas y el modelo responde en tiempo real.

Añadir una interfaz gráfica: Open WebUI

La terminal funciona, pero si quieres una interfaz como la de ChatGPT, instala Open WebUI. Es una aplicación web que se conecta a Ollama y ofrece historial de conversaciones, gestión de múltiples modelos, subida de documentos para analizar y más.

La forma más fácil de instalarlo es con Docker:

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway ghcr.io/open-webui/open-webui:main

Luego abre localhost:3000 en el navegador. Si tienes un NAS o servidor doméstico con Docker, también puedes instalar Open WebUI ahí y acceder desde cualquier dispositivo de la red.

Casos de uso reales

Resumir documentos confidenciales. Contratos, informes médicos, documentos legales. Súbelos a Open WebUI y pide al modelo que los analice. Los datos no salen de tu red.

Asistente de código offline. Con el modelo Codestral o DeepSeek Coder, tienes un copiloto de programación que funciona sin internet y sin cuotas. Se integra con VS Code mediante la extensión Continue.

Traducción y corrección de textos. Cualquier modelo 7B es perfectamente capaz de traducir y corregir textos con calidad profesional.

Chat privado para la empresa o la familia. Despliega Open WebUI en un servidor local y cualquier persona de la red puede usarlo sin cuentas externas ni datos en la nube.

Rendimiento esperado

En un ordenador con CPU moderna (sin GPU dedicada), un modelo 7B genera entre 5 y 15 tokens por segundo, lo que equivale aproximadamente a leer la respuesta mientras se escribe pero con pequeños saltos. Es suficiente para uso casual pero puede resultar lento para tareas de generación larga.

Con una GPU de gama media (RTX 3060, 12 GB VRAM), el mismo modelo genera 50-80 tokens por segundo, lo que ya es indistinguible de una respuesta instantánea.

El ecosistema que rodea a Ollama

Ollama se ha convertido en el estándar de facto para IA local. A su alrededor hay un ecosistema creciente: AnythingLLM para chatear con tus propios documentos, Flowise para crear flujos de trabajo de IA sin código, LibreChat como interfaz unificada para múltiples modelos. Todos ellos mencionados en nuestra guía de self-hosting de 50 herramientas.

La IA local ya no es un juguete para entusiastas. Con Ollama y un hardware razonablemente moderno, es una alternativa real a los servicios en la nube para un porcentaje importante de casos de uso cotidianos.

Publicar un comentario

0 Comentarios