Cómo armar un asistente de voz que vive en tu casa (sin Google ni Alexa)
Guía técnica para montar un asistente de voz 100% local con Home Assistant, Whisper, Piper y Ollama. Privacidad real, funciona sin internet.
Cómo armar un asistente de voz que vive en tu casa (sin Google ni Alexa)
Si te molesta que cada vez que decís “che, prendé las luces” tu comando viaje a un servidor en Virginia, esta guía es para vos. Vamos a armar un asistente de voz 100% local: tus comandos nunca salen de tu red, funciona aunque se caiga internet, y no le pagás suscripción a nadie.
El stack es todo open-source y está oficialmente soportado por Home Assistant desde el “Year of the Voice” en 2023.
Stack que vamos a usar
- Home Assistant — el cerebro de toda la domótica.
- Whisper (OpenAI, open-source) — convierte voz a texto (STT).
- Piper — convierte texto a voz (TTS).
- Ollama + un LLM local (Llama 3, Mistral o Phi-3) — entiende intenciones complejas.
- Wyoming protocol — el protocolo que une todas las piezas.
Toda la pipeline está documentada oficialmente en home-assistant.io/voice_control.
Hardware mínimo realista
Para una pipeline funcional sin LLM:
- Raspberry Pi 5 (8 GB) o un mini-PC Intel N100 / NUC.
- 32 GB de almacenamiento (mejor SSD que SD).
- Un satélite de voz: puede ser un ESP32-S3-BOX-3, un viejo smartphone, o el Home Assistant Voice Preview Edition que sacaron a fines de 2024.
Si querés sumarle LLM local (más adelante en la guía), conviene un equipo con GPU (RTX 3060 12GB o similar) o un Apple Silicon con suficiente RAM unificada. Sin GPU, modelos chicos como Phi-3 o Llama 3.2 3B corren en CPU pero con latencia perceptible.
Paso 1 — Instalar los add-ons
Desde Settings → Add-ons → Add-on Store, buscá e instalá:
Whisper(STT)Piper(TTS)openWakeWord(palabra de activación tipo “Hey Jarvis”)
Una vez instalados, arrancalos. Home Assistant los detecta automáticamente vía Wyoming y los suma a la lista de proveedores de voz.
Paso 2 — Configurar la Voice Assistant Pipeline
Andá a Settings → Voice assistants → Add assistant.
# Esquema conceptual de la pipeline (HA la maneja por UI)
name: "Asistente Casa"
language: "es"
conversation_agent: "Home Assistant" # default, sin LLM
speech_to_text: "Whisper"
text_to_speech: "Piper"
wake_word: "openwakeword - hey_jarvis"
El conversation agent default de Home Assistant ya entiende cientos de intenciones en español: “encendé las luces del living”, “qué temperatura hay”, “abrí el portón”. La lista completa de intents soportados está en la integración conversation.
Paso 3 — Exponer entidades
Por defecto, Home Assistant no le da acceso al asistente a todas tus entidades (lo cual está bien por seguridad). Andá a Settings → Voice assistants → Expose y marcá las entidades que querés controlar por voz: luces, switches, persianas, climas, escenas.
Tip: aliasá tus entidades con nombres naturales. light.living_room_main en YAML, pero alias "luz del living". Con eso entiende variaciones: “prendé la del living”, “apagá la luz del living”, etc.
Paso 4 — Sumar un satélite de voz
Si tu Pi tiene mic + parlante (o usás un USB), podés correr todo en el mismo equipo. Si querés un satélite separado:
- Home Assistant Voice PE — viene listo, lo enchufás y aparece.
- ESP32-S3-BOX-3 — flasheable con ESPHome, USD 50 aprox.
- Smartphone viejo — la app oficial Home Assistant Companion soporta wake word desde 2024.
Paso 5 (avanzado) — Conectar un LLM local con Ollama
Esto es lo que convierte un asistente “que entiende comandos fijos” en algo que entiende lenguaje natural y puede orquestar varias acciones.
Instalá Ollama en tu servidor:
curl -fsSL https://ollama.com/install.sh | sh
ollama pull llama3.2:3b
ollama serve
En Home Assistant, instalá la integración oficial Ollama:
# configuration.yaml — esquema (HA lo configura por UI normalmente)
ollama:
url: http://192.168.1.50:11434
model: llama3.2:3b
Después en la pipeline cambiás el conversation agent de “Home Assistant” a “Ollama”. Ahora podés decirle cosas como:
“Estoy por mirar una peli, dejá el living como me gusta.”
Y el LLM va a inferir: bajar persianas, atenuar luz al 30%, encender la TV, poner sound mode “movie”. Si tenés esas escenas o scripts expuestos al asistente, los va a llamar.
Más detalle en nuestro post Tu casa con ChatGPT (pero corriendo en tu propio hardware).
Comandos de ejemplo que funcionan out-of-the-box
- “Encendé las luces del living.”
- “¿Qué temperatura hay en el dormitorio?”
- “Apagá todo en la planta baja.”
- “Activá la escena modo cine.”
- “¿Está el portón cerrado?”
- “Subí la calefacción a 22 grados.”
Con LLM local sumado, podés decir cosas más laxas: “che, hace frío” → infiere subir el clima. “Salgo de viaje hasta el lunes” → activa modo ausente.
Ventajas honestas
- Privacidad real: tus comandos nunca tocan internet. Auditable, todo el código es open-source.
- Funciona sin internet: si se cae el WAN, tu casa sigue obedeciendo.
- Sin suscripciones: a diferencia de Alexa+, no te van a cobrar por features que ya tenés.
- Latencia baja: 200-400 ms de respuesta para comandos simples sin LLM. Con LLM local 1-3 s según hardware.
Limitaciones honestas
- Calidad de voz Piper en español: aceptable, no tan natural como Google TTS. Hay voces nuevas saliendo cada mes.
- Whisper en español rioplatense: muy bueno, pero le cuestan los modismos extremos. El modelo
mediumolarge-v3mejora mucho. - LLM local pequeño = errores: un modelo de 3B parámetros se confunde con instrucciones ambiguas. Modelos 7B+ son mejores pero piden más hardware.
- Setup inicial: no es plug-and-play como un Echo. La primera vez te lleva un sábado entero. Después es estable.
¿Cuándo conviene?
- Te importa la privacidad (familias con chicos, casas con cámaras, oficinas).
- Tenés conexión a internet inestable y querés que la casa siga andando.
- Ya usás Home Assistant y querés sacarle más jugo.
- Te molesta pagar Amazon Music o YouTube Premium para que Alexa no te corte los comandos.
Disclaimer
Los precios de hardware son aproximados a 2026 y varían por país. La calidad de los modelos open-source mejora trimestralmente. Esta guía cubre el stack vigente al momento de publicación; revisá la documentación oficial para versiones actualizadas.
Fuentes
- Home Assistant — Voice control
- Home Assistant — Conversation integration
- Home Assistant — Ollama integration
- Whisper (OpenAI) en GitHub
- Piper TTS en GitHub
- Ollama en GitHub
¿Querés que te lo armemos llave en mano? Pedí una demo en vivo y te mostramos un sistema corriendo en nuestro showroom.