Tu casa con ChatGPT (pero corriendo en tu propio hardware)

LLMs locales con Ollama integrados a Home Assistant: comandos en lenguaje natural sin enviar datos a la nube. Hardware, modelos y limitaciones reales.

Smart Ideas 01 de mayo de 2026 · 8 min de lectura

Tu casa con ChatGPT (pero corriendo en tu propio hardware)

ChatGPT es asombroso. Pero cuando le decís “che, bajá las persianas del living a la mitad y poné modo cine”, lo último que querés es que ese pedido viaje a OpenAI, lo loguee, lo procese y vuelva. No solo es lento (1-2 segundos en el mejor caso), no solo te cobran por token, sino que estás mandando información sobre tu vida diaria a una empresa.

La buena noticia: en 2026 ya tenemos modelos open-source corriendo localmente que para tareas de domótica son tan buenos como GPT-3.5. Y eso es más que suficiente.

¿Qué es un LLM local?

Un Large Language Model (LLM) local es un modelo de lenguaje que descargás y corre en tu propio hardware. No depende de internet, no manda datos a nadie, y una vez funcionando es gratis para siempre.

Los proyectos clave en 2026:

Ollama — el más fácil para empezar. Un comando y tenés un modelo corriendo.
llama.cpp — el motor C++ de inferencia que corre debajo de muchas otras herramientas.
LM Studio — GUI para gestionar modelos.
vLLM — para deployments con múltiples requests simultáneos.

Para domótica, Ollama es la opción default por su integración nativa con Home Assistant.

Modelos que andan bien para domótica

No necesitás GPT-4. Para clasificar intenciones, parsear comandos y orquestar entidades, modelos chicos alcanzan:

Modelo	Tamaño	RAM/VRAM	Velocidad típica	Calidad domótica
Phi-3-mini 3.8B	2.2 GB	4 GB	Muy rápido	Buena para comandos simples
Llama 3.2 3B	2 GB	4 GB	Muy rápido	Buena, multilenguaje
Mistral 7B	4.3 GB	8 GB	Rápido	Muy buena
Llama 3.1 8B	4.7 GB	8 GB	Rápido	Muy buena, español sólido
Qwen 2.5 14B	8.5 GB	12 GB	Medio	Excelente, recomendado en 2026
Llama 3.3 70B	40 GB	48 GB	Lento sin GPU dedicada	GPT-4 tier

Mi sweet spot recomendado: Qwen 2.5 14B corriendo cuantizado Q4 sobre una RTX 4060 16GB o equivalente. Tiempo de respuesta sub-segundo y calidad muy alta para tareas de domótica.

Hardware sugerido

Setup económico (USD 350-500)

Mac mini M4 16GB, o
Mini-PC con Ryzen 7 + 32 GB RAM (CPU only, modelo 3-7B).
Latencia: 1-3 segundos por respuesta. Suficiente para uso casual.

Setup recomendado (USD 800-1200)

PC con RTX 4060 Ti 16 GB o RTX 4070 12 GB.
32 GB RAM, SSD NVMe.
Modelo 14B cuantizado a Q4. Latencia 200-500 ms.
Esto es lo que realmente se siente como un asistente “vivo”.

Setup high-end (USD 2500+)

RTX 4090 24 GB o dual RTX 3090.
Modelos 32B-70B sin cuantizar pesado.
Calidad GPT-4 turbo en domótica + capacidad para tareas complejas (resúmenes de logs, análisis, etc).

Setup paso a paso

1. Instalar Ollama

# Linux / WSL
curl -fsSL https://ollama.com/install.sh | sh

# Verificar
ollama --version

# Bajar un modelo
ollama pull llama3.1:8b

# Probar
ollama run llama3.1:8b "Hola, decime una receta corta de pastel de papas"

2. Exponer Ollama en la red

Por defecto Ollama escucha solo en localhost. Para que Home Assistant le pegue desde otra máquina:

# /etc/systemd/system/ollama.service.d/override.conf
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"

sudo systemctl daemon-reload
sudo systemctl restart ollama

3. Instalar la integración en Home Assistant

Settings → Devices & Services → Add Integration → Ollama.

# La UI hace esto, mostrado en YAML conceptual
ollama:
  url: http://192.168.1.50:11434
  model: llama3.1:8b

La documentación oficial está en home-assistant.io/integrations/ollama.

4. Activar control de entidades

En la integración Ollama, marcá la opción “Control Home Assistant”. Esto le da al LLM acceso a las entidades expuestas y a los servicios. Sin esto, el asistente solo charla; con esto, ejecuta acciones.

5. Configurar la pipeline de voz (opcional)

Si querés sumarle voz, mirá nuestro post Cómo armar un asistente de voz local. En la pipeline, donde dice “Conversation agent”, elegí Ollama en vez de “Home Assistant default”.

Ejemplos de comandos que funcionan

Los siguientes los probamos en producción con un Qwen 2.5 14B sobre RTX 4060 Ti:

“Agarrá el modo cine en el living, baja persianas y pone Netflix.” El LLM entiende que tiene que: ejecutar script.modo_cine, llamar cover.set_position con 0% y abrir la app de Netflix en la TV vía media_player.select_source.

“Estamos por dormir, asegurá la casa.” Ejecuta: cerrar smart locks, activar alarma modo armed_home, apagar luces de planta baja, bajar termostato a setpoint nocturno.

“Si hay alguien rondando atrás de las 22hs avisame al celular.” El LLM crea (si tiene permisos de admin) una automation con trigger en Frigate y notify al mobile_app. Honestamente, esta funcionalidad es nueva y a veces falla — más estable usarlo como “asesor que te sugiere el YAML” que como auto-creador.

“¿Qué consumió la heladera la última semana?” Si tiene acceso a la integración Energy, te tira un resumen.

Por qué local mejor que ChatGPT cloud para domótica

Criterio	LLM Local	ChatGPT API
Latencia	200-500 ms	1-3 s
Costo recurrente	USD 0	USD 0.01-0.10/comando
Privacidad	Total	Tus comandos a OpenAI
Funciona sin internet	Sí	No
Calidad max	Qwen 2.5 14B ~ GPT-3.5	GPT-4
Setup inicial	2-4 hs	10 minutos

Para domótica de casa, el balance es claramente local. Para tareas más sofisticadas (escribir un mail, código, analizar contratos), GPT-4 sigue siendo superior — pero ahí no estás controlando luces, estás trabajando.

Si querés un híbrido, Home Assistant también soporta integraciones con OpenAI y Google Gemini directamente. Podés tener Ollama local como default y caer a OpenAI solo para tareas que el local no resuelve. Es perfectamente viable.

Limitaciones realistas

Modelos chicos = errores ocasionales: Phi-3 mini a veces mete servicio inexistente o llama entidad que no existe. Hay que pensar las automatizaciones con fallbacks.
Multi-turn frágil: las conversaciones de varios pasos (“¿qué cámaras hay?” → “ok, mostrame la del frente”) funcionan pero a veces pierden contexto. Mejorando en cada release.
GPU = ruido + calor + electricidad: una RTX 4060 Ti consume ~165W. Andá viéndolo en tu factura. Hay variantes silenciosas que ayudan.
Setup no es plug-and-play: si no sos cómodo con CLI Linux, vas a sufrir. Por eso ofrecemos installs llave en mano.
Modelos en español: la mayoría son entrenados predominantemente en inglés. Modelos como Llama 3.1+, Qwen 2.5 y Mistral funcionan bien en español. Otros modelos chicos pueden dar respuestas raras.

¿Vale la pena en 2026?

Sí, si:

Te molesta pagar suscripciones cloud para algo que tu PC puede hacer.
Te importa que tu vida no sea data de entrenamiento de nadie.
Disfrutás del control total — abrir el capot.
Tenés ya un mini home-lab armado o querés excusa para armarlo.

No, si:

Querés algo que funcione en 10 minutos sin tocar nada.
Vivís en un lugar con luz cara y la GPU no se justifica.
No te molesta Alexa / Google Assistant.

Para los del primer grupo, este es el momento. La calidad de los modelos open-source dejó de ser “interesante” y pasó a ser “production-ready” para domótica.

Disclaimer

Los precios de hardware son aproximados a 2026 y dependen de mercado regional. Las latencias citadas asumen modelo cuantizado en GPU dedicada local; CPU-only es 3-10x más lento. La calidad relativa entre modelos open-source y propietarios cambia trimestralmente — revisá HuggingFace Open LLM Leaderboard para data actualizada.

Fuentes

Más sobre el ecosistema: Asistente de voz local, Frigate cámaras AI, Automatizaciones que aprenden, Optimización energética. Pedí una demo.

Otros artículos

Dashboard de optimización energética con IA mostrando consumo y generación solar

Tu casa con ChatGPT (pero corriendo en tu propio hardware)

Tu casa con ChatGPT (pero corriendo en tu propio hardware)

¿Qué es un LLM local?

Modelos que andan bien para domótica

Hardware sugerido

Setup económico (USD 350-500)

Setup recomendado (USD 800-1200)

Setup high-end (USD 2500+)

Setup paso a paso

1. Instalar Ollama

2. Exponer Ollama en la red

3. Instalar la integración en Home Assistant

4. Activar control de entidades

5. Configurar la pipeline de voz (opcional)

Ejemplos de comandos que funcionan

Por qué local mejor que ChatGPT cloud para domótica

Limitaciones realistas

¿Vale la pena en 2026?

Disclaimer

Fuentes

Otros artículos

Pagá menos luz: cómo la IA optimiza el consumo de tu casa

Automatizaciones que aprenden tus rutinas (sin que tengas que programarlas)

Frigate: cámaras de seguridad que entienden lo que ven