Come Alexa ascolta le Wake Words

Alexa ascolta sempre ma non registra continuamente. Non invia nulla ai server cloud finché non sente che dici la parola sveglia (Alexa, Echo o Computer). Ma ascoltare le parole sveglia è più difficile di quanto potresti pensare.

L’hardware Echo non è poi così intelligente. Senza Internet, qualsiasi richiesta o domanda che farai fallirà. Questo perché i tuoi comandi vengono inviati al cloud per l’interpretazione e le decisioni. Amazon non vuole che ogni conversazione che hai davanti a un altoparlante intelligente venga registrata, ma piuttosto, solo i comandi che dai all’altoparlante intelligente. Per questo motivo, l’azienda utilizza una parola sveglia per attirare l’attenzione dell’oratore intelligente. Per ottenere ciò, Amazon utilizza una combinazione di microfoni ottimizzati, un buffer di memoria ridotto e un allenamento con rete neurale.

Microfoni ottimizzati per individuare la tua voce

Amazon Echo dot 3 con l'anello LED azzurro acceso.Il LED azzurro sarà sempre rivolto nella direzione della tua voce.

Gli altoparlanti dell’assistente vocale, come Echo ed Echo Dot, in genere hanno più microfoni integrati. L’Echo Dot, ad esempio, ne ha sette. Questo array conferisce ai dispositivi diverse capacità, dall’udire i comandi pronunciati a distanza, alla separazione del rumore di fondo dalle voci.

Quest’ultimo è particolarmente utile per il rilevamento delle parole di attivazione. Utilizzando i suoi molteplici microfoni, l’eco può individuare la tua posizione rispetto a dove è seduto e ascoltare in quella direzione ignorando il resto della stanza.

Lo vedi in azione ogni volta che usi la parola sveglia. Mettiti di fianco a un Echo o Echo Dot e pronuncia la parola sveglia. Notare che l’anello si illumina di blu scuro, quindi di un blu più chiaro mentre gira e “punta” verso di te. Ora, sposta diversi passaggi di lato e pronuncia ancora una volta la parola sveglia. Nota che le luci celesti ti seguono.

Sapere dove ti trovi, aiuta il dispositivo a concentrarsi meglio su di te e eliminare i rumori provenienti da altre parti.

La memoria corta impedisce all’altoparlante di trattenere troppo

I dispositivi Echo hanno molto spazio di archiviazione, ma non ne usano molto. Secondo Rohit Prasad, Vice President di Amazon e Head Scientist of Alexa Artificial Intelligence, an Echo può memorizzare fisicamente solo pochi secondi di audio.

Riducendo la sua capacità, Amazon non solo ti offre più privacy (è un posto in meno in cui è archiviata la tua voce), ma impedisce anche a Echo di ascoltare intere conversazioni, limitando la sua attenzione alla ricerca della parola sveglia.

Immagina di avere una cassetta da tre secondi e un registratore. Supponiamo che, dopo aver raggiunto la fine, il nastro si riavvolga dall’inizio alla fine. Se hai iniziato a registrare una conversazione, tutto ciò che hai detto quattro secondi fa verrebbe cancellato e registrato immediatamente. Questo è ciò che fa Amazon Echo.

Registra continuamente ma cancella tutto ciò che ha appena registrato allo stesso tempo. Questa breve capacità di attenzione significa che tutto ciò che può sentire è la parola “Alexa” e non molto di più. Tre secondi, però, sono abbastanza lunghi perché quella parola possa essere registrata, esaminata e agita in modo appropriato.

L’allenamento della rete neurale aiuta con la corrispondenza dei modelli

Un diagramma di flusso dei livelli dell'algoritmo Amazon.Una rappresentazione dei livelli utilizzati dagli algoritmi di Amazon.

Infine, Amazon dipende da formazione rete neurale per insegnare a Echo come abbinare i pattern. Proprio come altre forme di apprendimento automatico, Amazon addestra i suoi algoritmi alimentandoli istanza dopo istanza della parola Alexa (o Computer o Echo, a seconda della parola sveglia che l’azienda sta addestrando).

L’idea è di coprire ogni inflessione e accento, ma anche il contesto. Amazon vuole che il tuo Echo riconosca la differenza quando gli parli, quando ne parli o, forse, quando parli con una persona di nome Alexa. Anche i microfoni direzionali aiutano con questo obiettivo.

Con ogni parola che Echo sente, fa scorrere l’audio attraverso strati di algoritmi. Ogni livello è progettato per escludere falsi positivi, alla ricerca di suoni simili o indizi di contesto. Se un controllo di livello viene superato, la parola passa a quello successivo. Infine, quando il dispositivo locale decide di aver sentito la parola sveglia, inizia a registrare e trasmettere l’audio ai server cloud di Amazon. Amazon utilizza quattro algoritmi: uno per ogni parola sveglia (Alexa, Computer, Echo) e uno per Alexa Guard, che tratta suoni specifici, come il vetro che si frantuma, come una parola sveglia.

Ma anche quando si verifica una corrispondenza, Amazon esegue ancora controlli più complicati. Hai notato che quando qualcuno pronuncia la parola Alexa in uno show televisivo o in una pubblicità, di solito non suscita una risposta dal tuo Echo? Questo perché Amazon esegue anche un controllo cloud.

I controlli cloud escludono alcuni falsi positivi

Un uomo della pubblicità di Alexa che fissa il suo spazzolino da denti Echo acceso.Questo esilarante spot pubblicitario di Alexa non sveglia il tuo eco.

Quando le aziende realizzano spot pubblicitari che includono Alexa, possono farlo invia l’audio ad Amazon. L’azienda esegue l’audio attraverso algoritmi di pattern matching simili utilizzati per identificare la parola sveglia. Una volta che l’istanza esatta è stata completamente catalogata, viene aggiunta a un database.

Come parte del processo quando ti rivolgi al cloud, il tuo Echo include informazioni sulla parola sveglia che ha sentito e controlla quel database. Ogni volta che trova una corrispondenza, Amazon ordina al tuo Echo di ignorare la parola sveglia, spegnersi e scartare qualsiasi audio registrato.

Inoltre, Amazon controlla le istanze della parola sveglia pronunciata simultaneamente. Non tutte le aziende inviano l’audio ad Amazon, quindi l’azienda ha escogitato una nuova soluzione di backup. Dopo aver verificato una corrispondenza del database, l’azienda confronta l’impronta della parola sveglia con qualsiasi altra istanza in arrivo contemporaneamente. È improbabile che due persone che dicono Alexa contemporaneamente suonino esattamente allo stesso modo, quindi se c’è una corrispondenza, Amazon sa che è probabile che sia uno spot pubblicitario o un programma televisivo e ignora la richiesta.

Nonostante tutti i controlli, si verificano ancora falsi positivi. Puoi ascoltare ciò su cui ha registrato il tuo Echo Hub per la privacy di Amazone probabilmente troverai almeno un falso positivo nel gruppo. Ma la tecnologia viene continuamente migliorata e, alla fine, Amazon vorrebbe che funzionasse senza una parola sveglia.