Cómo armar un asistente de voz que vive en tu casa (sin Google ni Alexa)

Guía técnica para montar un asistente de voz 100% local con Home Assistant, Whisper, Piper y Ollama. Privacidad real, funciona sin internet.

Smart Ideas 21 de abril de 2026 · 7 min de lectura

Cómo armar un asistente de voz que vive en tu casa (sin Google ni Alexa)

Si te molesta que cada vez que decís “che, prendé las luces” tu comando viaje a un servidor en Virginia, esta guía es para vos. Vamos a armar un asistente de voz 100% local: tus comandos nunca salen de tu red, funciona aunque se caiga internet, y no le pagás suscripción a nadie.

El stack es todo open-source y está oficialmente soportado por Home Assistant desde el “Year of the Voice” en 2023.

Stack que vamos a usar

Home Assistant — el cerebro de toda la domótica.
Whisper (OpenAI, open-source) — convierte voz a texto (STT).
Piper — convierte texto a voz (TTS).
Ollama + un LLM local (Llama 3, Mistral o Phi-3) — entiende intenciones complejas.
Wyoming protocol — el protocolo que une todas las piezas.

Toda la pipeline está documentada oficialmente en home-assistant.io/voice_control.

Hardware mínimo realista

Para una pipeline funcional sin LLM:

Raspberry Pi 5 (8 GB) o un mini-PC Intel N100 / NUC.
32 GB de almacenamiento (mejor SSD que SD).
Un satélite de voz: puede ser un ESP32-S3-BOX-3, un viejo smartphone, o el Home Assistant Voice Preview Edition que sacaron a fines de 2024.

Si querés sumarle LLM local (más adelante en la guía), conviene un equipo con GPU (RTX 3060 12GB o similar) o un Apple Silicon con suficiente RAM unificada. Sin GPU, modelos chicos como Phi-3 o Llama 3.2 3B corren en CPU pero con latencia perceptible.

Paso 1 — Instalar los add-ons

Desde Settings → Add-ons → Add-on Store, buscá e instalá:

Whisper (STT)
Piper (TTS)
openWakeWord (palabra de activación tipo “Hey Jarvis”)

Una vez instalados, arrancalos. Home Assistant los detecta automáticamente vía Wyoming y los suma a la lista de proveedores de voz.

Paso 2 — Configurar la Voice Assistant Pipeline

Andá a Settings → Voice assistants → Add assistant.

# Esquema conceptual de la pipeline (HA la maneja por UI)
name: "Asistente Casa"
language: "es"
conversation_agent: "Home Assistant"  # default, sin LLM
speech_to_text: "Whisper"
text_to_speech: "Piper"
wake_word: "openwakeword - hey_jarvis"

El conversation agent default de Home Assistant ya entiende cientos de intenciones en español: “encendé las luces del living”, “qué temperatura hay”, “abrí el portón”. La lista completa de intents soportados está en la integración conversation.

Paso 3 — Exponer entidades

Por defecto, Home Assistant no le da acceso al asistente a todas tus entidades (lo cual está bien por seguridad). Andá a Settings → Voice assistants → Expose y marcá las entidades que querés controlar por voz: luces, switches, persianas, climas, escenas.

Tip: aliasá tus entidades con nombres naturales. light.living_room_main en YAML, pero alias "luz del living". Con eso entiende variaciones: “prendé la del living”, “apagá la luz del living”, etc.

Paso 4 — Sumar un satélite de voz

Si tu Pi tiene mic + parlante (o usás un USB), podés correr todo en el mismo equipo. Si querés un satélite separado:

Home Assistant Voice PE — viene listo, lo enchufás y aparece.
ESP32-S3-BOX-3 — flasheable con ESPHome, USD 50 aprox.
Smartphone viejo — la app oficial Home Assistant Companion soporta wake word desde 2024.

Paso 5 (avanzado) — Conectar un LLM local con Ollama

Esto es lo que convierte un asistente “que entiende comandos fijos” en algo que entiende lenguaje natural y puede orquestar varias acciones.

Instalá Ollama en tu servidor:

curl -fsSL https://ollama.com/install.sh | sh
ollama pull llama3.2:3b
ollama serve

En Home Assistant, instalá la integración oficial Ollama:

# configuration.yaml — esquema (HA lo configura por UI normalmente)
ollama:
  url: http://192.168.1.50:11434
  model: llama3.2:3b

Después en la pipeline cambiás el conversation agent de “Home Assistant” a “Ollama”. Ahora podés decirle cosas como:

“Estoy por mirar una peli, dejá el living como me gusta.”

Y el LLM va a inferir: bajar persianas, atenuar luz al 30%, encender la TV, poner sound mode “movie”. Si tenés esas escenas o scripts expuestos al asistente, los va a llamar.

Más detalle en nuestro post Tu casa con ChatGPT (pero corriendo en tu propio hardware).

Comandos de ejemplo que funcionan out-of-the-box

“Encendé las luces del living.”
“¿Qué temperatura hay en el dormitorio?”
“Apagá todo en la planta baja.”
“Activá la escena modo cine.”
“¿Está el portón cerrado?”
“Subí la calefacción a 22 grados.”

Con LLM local sumado, podés decir cosas más laxas: “che, hace frío” → infiere subir el clima. “Salgo de viaje hasta el lunes” → activa modo ausente.

Ventajas honestas

Privacidad real: tus comandos nunca tocan internet. Auditable, todo el código es open-source.
Funciona sin internet: si se cae el WAN, tu casa sigue obedeciendo.
Sin suscripciones: a diferencia de Alexa+, no te van a cobrar por features que ya tenés.
Latencia baja: 200-400 ms de respuesta para comandos simples sin LLM. Con LLM local 1-3 s según hardware.

Limitaciones honestas

Calidad de voz Piper en español: aceptable, no tan natural como Google TTS. Hay voces nuevas saliendo cada mes.
Whisper en español rioplatense: muy bueno, pero le cuestan los modismos extremos. El modelo medium o large-v3 mejora mucho.
LLM local pequeño = errores: un modelo de 3B parámetros se confunde con instrucciones ambiguas. Modelos 7B+ son mejores pero piden más hardware.
Setup inicial: no es plug-and-play como un Echo. La primera vez te lleva un sábado entero. Después es estable.

¿Cuándo conviene?

Te importa la privacidad (familias con chicos, casas con cámaras, oficinas).
Tenés conexión a internet inestable y querés que la casa siga andando.
Ya usás Home Assistant y querés sacarle más jugo.
Te molesta pagar Amazon Music o YouTube Premium para que Alexa no te corte los comandos.

Disclaimer

Los precios de hardware son aproximados a 2026 y varían por país. La calidad de los modelos open-source mejora trimestralmente. Esta guía cubre el stack vigente al momento de publicación; revisá la documentación oficial para versiones actualizadas.

Fuentes

¿Querés que te lo armemos llave en mano? Pedí una demo en vivo y te mostramos un sistema corriendo en nuestro showroom.

Otros artículos

LLM corriendo local en GPU integrado a Home Assistant para domótica

Cómo armar un asistente de voz que vive en tu casa (sin Google ni Alexa)

Cómo armar un asistente de voz que vive en tu casa (sin Google ni Alexa)

Stack que vamos a usar

Hardware mínimo realista

Paso 1 — Instalar los add-ons

Paso 2 — Configurar la Voice Assistant Pipeline

Paso 3 — Exponer entidades

Paso 4 — Sumar un satélite de voz

Paso 5 (avanzado) — Conectar un LLM local con Ollama

Comandos de ejemplo que funcionan out-of-the-box

Ventajas honestas

Limitaciones honestas

¿Cuándo conviene?

Disclaimer

Fuentes

Otros artículos

Tu casa con ChatGPT (pero corriendo en tu propio hardware)

Pagá menos luz: cómo la IA optimiza el consumo de tu casa

Automatizaciones que aprenden tus rutinas (sin que tengas que programarlas)