I moderni assistenti virtuali, quali Alexa, Google Assistant e Siri, hanno compiuto notevoli progressi negli ultimi anni. Tuttavia, nonostante i loro miglioramenti, permane un limite: la loro incapacità di comprenderci appieno. La loro operatività si basa eccessivamente su comandi vocali specifici e predefiniti.
Il Riconoscimento Vocale: Un’Illusione
In realtà, gli assistenti vocali non ci “capiscono” nel vero senso della parola. Quando interagiamo con Google Home o Amazon Echo, le nostre parole vengono convertite in stringhe di testo, che vengono poi confrontate con comandi preimpostati. Se viene trovata una corrispondenza esatta, l’assistente esegue le istruzioni associate. In caso contrario, cerca di determinare un’azione alternativa basandosi sulle informazioni a disposizione e, se non riesce, restituisce un messaggio di errore del tipo “Mi dispiace, non so come aiutarti”. Si tratta di una sorta di “trucco” che ci fa credere di essere compresi.
Questi assistenti non sono in grado di interpretare il contesto o di sfruttare la conoscenza di argomenti correlati per prendere decisioni. È facile “metterli in difficoltà”. Ad esempio, se chiediamo ad Alexa “Lavori per la NSA?”, otterremo una risposta, ma se chiediamo “Sei segretamente parte della NSA?” la risposta sarà “Non lo so” (almeno al momento della redazione di questo testo).
Gli esseri umani, al contrario, possiedono una vera comprensione del linguaggio. Se chiedessimo a una persona: “Cos’è quel klarvain nel cielo? Quello curvo e pieno di colori come il rosso, l’arancione, il giallo e il blu”, anche se “klarvain” è una parola inventata, la persona potrebbe dedurre dal contesto che ci stiamo riferendo a un arcobaleno.
Mentre un essere umano converte le parole in concetti, è anche in grado di applicare la propria conoscenza e comprensione per formulare una risposta. Se chiediamo a una persona se lavora segretamente per la NSA, risponderà “sì” o “no”, anche se mentendo. Un umano non direbbe “Non lo so” a una domanda del genere. La capacità di mentire è un’abilità che deriva da una vera comprensione.
I Limiti della Programmazione
Gli assistenti vocali sono vincolati ai parametri prestabiliti nella loro programmazione. Qualsiasi deviazione da questi parametri può interrompere il loro funzionamento. Questo è particolarmente evidente quando si interagisce con dispositivi di terze parti. In questi casi, il comando risulta spesso complesso e scomodo, seguendo la forma “di’ al produttore del dispositivo di comandare un’azione opzionale”. Ad esempio: “di’ a Whirlpool di mettere in pausa l’asciugatrice”. Un altro esempio, più difficoltoso da ricordare, è l’abilità di Geneva per Alexa per controllare alcuni forni GE. L’utente deve ricordare di “dire a Geneva” e non “dire a GE” prima di impartire il resto del comando. È possibile chiedere di preriscaldare il forno a 175 gradi, ma non sarà possibile seguire con una richiesta di incrementare la temperatura di altri 25 gradi, cosa che un essere umano potrebbe fare senza difficoltà.
Amazon e Google hanno lavorato intensamente per superare queste limitazioni. In passato, per bloccare una porta con serratura smart, si doveva seguire la sequenza sopra descritta. Oggi, è sufficiente dire “chiudi la porta d’ingresso”. Alexa in passato si confondeva con la richiesta di “raccontami una barzelletta sul cane”, ma ora questa domanda ha una risposta. Sono state aggiunte delle variazioni ai comandi, ma l’utente deve comunque conoscere la formula esatta per farsi capire, utilizzando la sintassi e l’ordine corretti.
Se tutto questo vi ricorda una riga di comando, non vi sbagliate.
Assistenti Vocali: Linee di Comando Sofisticate
Una riga di comando è uno strumento che consente di eseguire operazioni semplici, ma solo se si conosce la sintassi corretta. Se si digita “dyr” invece di “dir”, il sistema restituirà un messaggio di errore. È possibile creare alias per memorizzare i comandi più facilmente, ma è necessario conoscere i comandi originali, il loro funzionamento e l’uso efficace degli alias. Senza un’adeguata preparazione, l’uso della riga di comando risulterà inefficace.
Lo stesso vale per gli assistenti vocali. È necessario conoscere il modo corretto di pronunciare un comando o porre una domanda. Bisogna anche sapere come impostare i gruppi per Google e Alexa, e come rinominare i dispositivi smart. In caso contrario, si finirà per chiedere all’assistente di chiudere lo studio, per poi sentirsi chiedere “quale studio?”.
Anche quando si utilizza la sintassi e l’ordine corretti, il comando potrebbe fallire o produrre risultati inattesi. Due dispositivi Google Home nella stessa casa potrebbero fornire informazioni meteo per luoghi leggermente differenti, pur avendo accesso alle stesse informazioni sull’account utente e alla stessa connessione internet.
Nell’esempio sopra, è stato dato il comando “Imposta un timer per mezz’ora”. Google Home ha creato un timer chiamato “Hour”, chiedendo in seguito la durata del timer. Ripetendo lo stesso comando altre tre volte, la funzione ha funzionato correttamente e ha creato un timer di 30 minuti. Utilizzando invece il comando “Imposta un timer per 30 minuti”, la funzione si è dimostrata più affidabile.
Nonostante l’interazione con Google Home o Echo possa sembrare più naturale, il funzionamento interno degli assistenti vocali è simile a quello delle linee di comando. Non è necessario imparare una nuova lingua, ma è necessario imparare un nuovo dialetto.
La Comprensione Limitata Limita la Crescita
Nonostante queste limitazioni, assistenti vocali come Google Assistant e Alexa funzionano in modo soddisfacente (Cortana è un caso a parte). Google Assistant e Alexa sono in grado di effettuare ricerche online in modo accettabile, anche se Google è naturalmente più efficiente nella ricerca e può rispondere a domande semplici quali conversioni di misura e calcoli aritmetici. Con una smart home configurata correttamente e un utente ben istruito, la maggior parte dei comandi funzionerà come previsto. Ma questo risultato è frutto di impegno e sforzo, non di una reale comprensione intellettuale.
Le funzioni base, come i timer e le sveglie, erano piuttosto semplici. Col tempo, è stata aggiunta la possibilità di dare nomi ai timer e di aggiungere tempo a quelli esistenti. Gli assistenti vocali sono diventati più sofisticati e possono rispondere a più domande. Ogni giorno vengono introdotte nuove capacità e funzioni. Ma questa evoluzione non deriva da una crescita personale basata sull’apprendimento e sulla comprensione.
Manca la capacità di utilizzare le conoscenze pregresse per affrontare situazioni nuove. Per ogni comando o domanda che funziona, ce ne saranno sempre almeno tre che non funzionano. Senza una svolta nel campo dell’intelligenza artificiale che permetta di raggiungere una capacità di comprensione simile a quella umana, gli assistenti vocali resteranno delle semplici linee di comando vocali, utili in determinate situazioni, ma limitati a quei contesti per cui sono stati programmati.
In altre parole: le macchine stanno imparando a fare delle cose, ma non riescono a capirle.