Smart Ideas

Tu casa con ChatGPT (pero corriendo en tu propio hardware)

LLMs locales con Ollama integrados a Home Assistant: comandos en lenguaje natural sin enviar datos a la nube. Hardware, modelos y limitaciones reales.

Smart Ideas · 8 min de lectura
LLM corriendo local en GPU integrado a Home Assistant para domótica

Tu casa con ChatGPT (pero corriendo en tu propio hardware)

ChatGPT es asombroso. Pero cuando le decís “che, bajá las persianas del living a la mitad y poné modo cine”, lo último que querés es que ese pedido viaje a OpenAI, lo loguee, lo procese y vuelva. No solo es lento (1-2 segundos en el mejor caso), no solo te cobran por token, sino que estás mandando información sobre tu vida diaria a una empresa.

La buena noticia: en 2026 ya tenemos modelos open-source corriendo localmente que para tareas de domótica son tan buenos como GPT-3.5. Y eso es más que suficiente.

¿Qué es un LLM local?

Un Large Language Model (LLM) local es un modelo de lenguaje que descargás y corre en tu propio hardware. No depende de internet, no manda datos a nadie, y una vez funcionando es gratis para siempre.

Los proyectos clave en 2026:

  • Ollama — el más fácil para empezar. Un comando y tenés un modelo corriendo.
  • llama.cpp — el motor C++ de inferencia que corre debajo de muchas otras herramientas.
  • LM Studio — GUI para gestionar modelos.
  • vLLM — para deployments con múltiples requests simultáneos.

Para domótica, Ollama es la opción default por su integración nativa con Home Assistant.

Modelos que andan bien para domótica

No necesitás GPT-4. Para clasificar intenciones, parsear comandos y orquestar entidades, modelos chicos alcanzan:

ModeloTamañoRAM/VRAMVelocidad típicaCalidad domótica
Phi-3-mini 3.8B2.2 GB4 GBMuy rápidoBuena para comandos simples
Llama 3.2 3B2 GB4 GBMuy rápidoBuena, multilenguaje
Mistral 7B4.3 GB8 GBRápidoMuy buena
Llama 3.1 8B4.7 GB8 GBRápidoMuy buena, español sólido
Qwen 2.5 14B8.5 GB12 GBMedioExcelente, recomendado en 2026
Llama 3.3 70B40 GB48 GBLento sin GPU dedicadaGPT-4 tier

Mi sweet spot recomendado: Qwen 2.5 14B corriendo cuantizado Q4 sobre una RTX 4060 16GB o equivalente. Tiempo de respuesta sub-segundo y calidad muy alta para tareas de domótica.

Hardware sugerido

Setup económico (USD 350-500)

  • Mac mini M4 16GB, o
  • Mini-PC con Ryzen 7 + 32 GB RAM (CPU only, modelo 3-7B).
  • Latencia: 1-3 segundos por respuesta. Suficiente para uso casual.

Setup recomendado (USD 800-1200)

  • PC con RTX 4060 Ti 16 GB o RTX 4070 12 GB.
  • 32 GB RAM, SSD NVMe.
  • Modelo 14B cuantizado a Q4. Latencia 200-500 ms.
  • Esto es lo que realmente se siente como un asistente “vivo”.

Setup high-end (USD 2500+)

  • RTX 4090 24 GB o dual RTX 3090.
  • Modelos 32B-70B sin cuantizar pesado.
  • Calidad GPT-4 turbo en domótica + capacidad para tareas complejas (resúmenes de logs, análisis, etc).

Setup paso a paso

1. Instalar Ollama

# Linux / WSL
curl -fsSL https://ollama.com/install.sh | sh

# Verificar
ollama --version

# Bajar un modelo
ollama pull llama3.1:8b

# Probar
ollama run llama3.1:8b "Hola, decime una receta corta de pastel de papas"

2. Exponer Ollama en la red

Por defecto Ollama escucha solo en localhost. Para que Home Assistant le pegue desde otra máquina:

# /etc/systemd/system/ollama.service.d/override.conf
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"

sudo systemctl daemon-reload
sudo systemctl restart ollama

3. Instalar la integración en Home Assistant

Settings → Devices & Services → Add Integration → Ollama.

# La UI hace esto, mostrado en YAML conceptual
ollama:
  url: http://192.168.1.50:11434
  model: llama3.1:8b

La documentación oficial está en home-assistant.io/integrations/ollama.

4. Activar control de entidades

En la integración Ollama, marcá la opción “Control Home Assistant”. Esto le da al LLM acceso a las entidades expuestas y a los servicios. Sin esto, el asistente solo charla; con esto, ejecuta acciones.

5. Configurar la pipeline de voz (opcional)

Si querés sumarle voz, mirá nuestro post Cómo armar un asistente de voz local. En la pipeline, donde dice “Conversation agent”, elegí Ollama en vez de “Home Assistant default”.

Ejemplos de comandos que funcionan

Los siguientes los probamos en producción con un Qwen 2.5 14B sobre RTX 4060 Ti:

“Agarrá el modo cine en el living, baja persianas y pone Netflix.” El LLM entiende que tiene que: ejecutar script.modo_cine, llamar cover.set_position con 0% y abrir la app de Netflix en la TV vía media_player.select_source.

“Estamos por dormir, asegurá la casa.” Ejecuta: cerrar smart locks, activar alarma modo armed_home, apagar luces de planta baja, bajar termostato a setpoint nocturno.

“Si hay alguien rondando atrás de las 22hs avisame al celular.” El LLM crea (si tiene permisos de admin) una automation con trigger en Frigate y notify al mobile_app. Honestamente, esta funcionalidad es nueva y a veces falla — más estable usarlo como “asesor que te sugiere el YAML” que como auto-creador.

“¿Qué consumió la heladera la última semana?” Si tiene acceso a la integración Energy, te tira un resumen.

Por qué local mejor que ChatGPT cloud para domótica

CriterioLLM LocalChatGPT API
Latencia200-500 ms1-3 s
Costo recurrenteUSD 0USD 0.01-0.10/comando
PrivacidadTotalTus comandos a OpenAI
Funciona sin internetNo
Calidad maxQwen 2.5 14B ~ GPT-3.5GPT-4
Setup inicial2-4 hs10 minutos

Para domótica de casa, el balance es claramente local. Para tareas más sofisticadas (escribir un mail, código, analizar contratos), GPT-4 sigue siendo superior — pero ahí no estás controlando luces, estás trabajando.

Si querés un híbrido, Home Assistant también soporta integraciones con OpenAI y Google Gemini directamente. Podés tener Ollama local como default y caer a OpenAI solo para tareas que el local no resuelve. Es perfectamente viable.

Limitaciones realistas

  • Modelos chicos = errores ocasionales: Phi-3 mini a veces mete servicio inexistente o llama entidad que no existe. Hay que pensar las automatizaciones con fallbacks.
  • Multi-turn frágil: las conversaciones de varios pasos (“¿qué cámaras hay?” → “ok, mostrame la del frente”) funcionan pero a veces pierden contexto. Mejorando en cada release.
  • GPU = ruido + calor + electricidad: una RTX 4060 Ti consume ~165W. Andá viéndolo en tu factura. Hay variantes silenciosas que ayudan.
  • Setup no es plug-and-play: si no sos cómodo con CLI Linux, vas a sufrir. Por eso ofrecemos installs llave en mano.
  • Modelos en español: la mayoría son entrenados predominantemente en inglés. Modelos como Llama 3.1+, Qwen 2.5 y Mistral funcionan bien en español. Otros modelos chicos pueden dar respuestas raras.

¿Vale la pena en 2026?

Sí, si:

  • Te molesta pagar suscripciones cloud para algo que tu PC puede hacer.
  • Te importa que tu vida no sea data de entrenamiento de nadie.
  • Disfrutás del control total — abrir el capot.
  • Tenés ya un mini home-lab armado o querés excusa para armarlo.

No, si:

  • Querés algo que funcione en 10 minutos sin tocar nada.
  • Vivís en un lugar con luz cara y la GPU no se justifica.
  • No te molesta Alexa / Google Assistant.

Para los del primer grupo, este es el momento. La calidad de los modelos open-source dejó de ser “interesante” y pasó a ser “production-ready” para domótica.

Disclaimer

Los precios de hardware son aproximados a 2026 y dependen de mercado regional. Las latencias citadas asumen modelo cuantizado en GPU dedicada local; CPU-only es 3-10x más lento. La calidad relativa entre modelos open-source y propietarios cambia trimestralmente — revisá HuggingFace Open LLM Leaderboard para data actualizada.

Fuentes


Más sobre el ecosistema: Asistente de voz local, Frigate cámaras AI, Automatizaciones que aprenden, Optimización energética. Pedí una demo.

Compartir: X / Twitter LinkedIn WhatsApp