Édgar Cervantes / Autoridad Android
Tenemos bastantes guías sobre cómo usar Amazon Alexa en Android Authority, pero es posible que sienta curiosidad por la tecnología subyacente del asistente de voz. Aquí hay una breve explicación de cómo funciona Alexa, desde su estructura general hasta cómo escucha y responde a los comandos de voz.
Cómo funciona Alexa: una descripción general

Los componentes básicos de Alexa, desde la perspectiva del usuario, son una cuenta de Amazon y un dispositivo Alexa conectado a Internet, generalmente un altavoz o pantalla inteligente. La cuenta le permite crear un perfil, guardar configuraciones de software y hardware y asociar dispositivos, servicios y accesorios compatibles. Los dispositivos Alexa escuchan los comandos de voz, los suben a los servidores de Amazon para traducirlos y luego entregan los resultados en forma de audio o video. Algunos modelos también funcionan como concentradores Thread o Zigbee para productos de hogar inteligente compatibles.
Todos los comandos de voz comienzan con una palabra de activación que le indica al dispositivo que escuche. El valor predeterminado es, por supuesto, «Alexa», pero la aplicación Asistente para Android o iPhone/iPad te permite cambiarlo a «Amazon», «Computadora», «Echo» o (en algunas regiones) «Ziggy». De hecho, la aplicación es básicamente un tercer componente básico, ya que es necesario para configurar el dispositivo y vincular cosas a su cuenta de Amazon.
Hay muchos, muchos comandos posibles de Alexa, por lo que no profundizaremos mucho aquí, pero estos son mensajes de voz en lenguaje natural que cubren todo, desde preguntas de conocimiento general hasta reproducción de medios y controles domésticos inteligentes. Por ejemplo:
Algunas funciones requieren habilitar «habilidades», ya sea a través del sitio web de Amazon o la aplicación Alexa. Usando los comandos anteriores como ejemplos, el del medio no funcionaría sin una habilidad que vincule su cuenta de Spotify, y el control del termostato requeriría una habilidad de marca apropiada como Ecobee o Nest.
La aplicación Alexa también habilita rutinas, que es solo otra palabra para automatizaciones. Puede obtener más información al respecto en nuestra guía de rutinas. La versión corta es que son acciones creadas por el usuario y desencadenan acciones basadas en comandos de voz o diversas condiciones, como la ubicación, el estado de los accesorios o la hora del día. Por ejemplo, una rutina de Buenos días podría encender las luces, reproducir las noticias de NPR y calentar la cafetera a través de un enchufe inteligente cuando dices: «Alexa, empieza mi día».
Para ser controlados por Alexa, los accesorios para el hogar inteligente deben admitir específicamente la plataforma, al menos hasta que el estándar Universal Matter entre en funcionamiento en el otoño de 2022. Sin embargo, casi todos los tipos de accesorios están disponibles. Además de enchufes, termostatos y bombillas inteligentes, puede obtener de todo, desde purificadores de aire hasta aspiradoras robotizadas. Estos están vinculados mediante la aplicación Alexa, ya sea que se conecten a través de habilidades, Thread o Zigbee.
Más: Cómo usar Amazon Alexa
¿Cómo escucha Alexa?

Dhruv Butani / Autoridad de Android
Si bien todos los dispositivos equipados con Alexa tienen al menos un micrófono, a menudo son dos o más en altavoces y pantallas inteligentes. Esto facilita aislar las voces del ruido ambiental, ya que crea datos direccionales que pueden compararse y filtrarse mediante algoritmos de procesamiento de señales. Hay límites finitos, por supuesto: no puede pararse junto a un televisor ruidoso o un lavavajillas y esperar que un altavoz Echo lo entienda.
Al contrario de lo que te hayan dicho, Alexa no graba constantemente todo lo que dices. Eso es escuchando constantemente su palabra de activación, y el audio posterior (que finaliza después de que deja de hablar) normalmente se envía a Amazon para su interpretación. Decimos normal porque Amazon empuja cada vez más hacia el procesamiento fuera de línea. Sin embargo, necesitará dispositivos recientes, como el Echo de cuarta generación o el Echo Show 10, que tienen el procesador AZ Neural Edge de la compañía. La función también debe habilitarse manualmente y los dispositivos seguirán cargando transcripciones.
Amazon dice que cifra las grabaciones de audio cargadas, pero las guarda de forma predeterminada y analiza «una muestra extremadamente pequeña» de clips anónimos para mejorar el rendimiento de Alexa. Las grabaciones se han utilizado en casos penales y algunos sonidos o frases pueden malinterpretarse como palabras de alerta, por lo que si le preocupa la privacidad, querrá optar por no guardar su historial de voz o eliminarlo regularmente. Lea nuestra guía de privacidad para el hogar inteligente para obtener más detalles y comparaciones.
Ver también: Configurar Alexa para emergencias
¿Cómo responde Alexa?

La razón por la que Alexa dependía completamente de la nube hasta hace poco son las demandas del procesamiento del lenguaje natural. Cada comando se descompone en unidades individuales de habla llamadas fonemas, y esas unidades luego se comparan con una base de datos para encontrar las palabras más parecidas. Además, el software debe identificar la estructura de la oración, así como los términos relevantes para los diferentes subsistemas. Si dices «configura el termostato para que se enfríe», Alexa lo sabe enviándolo a una API (interfaz de programación de aplicaciones) de hogar inteligente.
Esta es la razón principal por la que Alexa puede distinguir entre acentos y dialectos. Hay bases de datos únicas para cada idioma que admite Amazon, incluidas las variaciones regionales, y los usuarios deben seleccionarlas en la aplicación Alexa si su dispositivo no está precargado. Un hablante de American Echo no entenderá el alemán desde el primer momento, como puede atestiguar cualquiera que haya pedido canciones de Nachtmahr.
El aprendizaje automático juega un papel igualmente crítico, ya que el contexto y la historia le dan a Alexa una mejor oportunidad de adivinar tus intenciones. Por eso Amazon invierte tanto en analizar grabaciones de clientes reales. La gente tiende a usar el contexto y la historia para medir el significado de las conversaciones, y usando solo la lógica de la computadora, Alexa podría interpretar algo como «tocar música de Chvrches» (la banda escocesa de synth pop) como una solicitud para escuchar música de los coros de la iglesia. Alexa puede cometer errores y los comete, pero los mares de datos que Amazon tiene a su disposición significan que el asistente evoluciona con el tiempo.
Preguntas frecuentes
Eficaz. Si bien algunos dispositivos permiten el control de voz fuera de línea del volumen y los accesorios inteligentes para el hogar vinculados al concentrador, o verifican y cancelan cosas como temporizadores y recordatorios, casi todo lo demás requiere comunicarse con servidores de Amazon y/o servicios de terceros vinculados. Incluso los dispositivos que pueden procesar audio localmente siguen cargando transcripciones.
Sí, suponiendo que no haya silenciado los micrófonos de un dispositivo. Necesita responder a su palabra de activación.
Crucialmente, sin embargo, no incluye todo. La grabación solo se activa después de que se detecta una palabra de activación y finaliza tan pronto como dejas de hablar (o Alexa cree que lo has hecho, de todos modos). Si le preocupa la privacidad, debe optar por no guardar estas grabaciones o eliminar regularmente el historial de voz.
Por algunas definiciones. Es capaz de aprender y resolver problemas, por ejemplo, interpretando comandos de voz para los que no está preprogramado.
Dicho esto, no exhibe la misma flexibilidad o adaptabilidad que una mente humana o animal. No se puede tener una conversación real y aprenderla paso a paso en lugar de sobre la marcha. Ciertamente está lejos de ser consciente, por difícil que sea definirlo.