WhatsApp, la dettatura e la gente fuori di testa: pensieri sparsi sul perché parliamo alle macchine ma non con le macchine

Il mio odio per i messaggi vocali, specialmente quelli di WhatsApp, è ormai credo abbastanza noto ai quattro che mi seguono su queste pagine. Tuttavia c’è un altro aspetto di questo fenomeno (purtroppo diffusissimo) che mi lascia perplesso: la lunghezza dei suddetti messaggi vocali e l’apparente nonchalance con cui la gente parla per ore nel microfono del cellulare, soprattutto per strada, senza il benché minimo timore di essere scambiata per matta.

Mi spiego meglio: un grossissimo limite all’adozione degli auricolari Bluetooth è consistito, storicamente, nell’imbarazzo che la gente provava (potenziale nel 99% dei casi, perché nessuno ci considera davvero, ma a noi piace pensare di essere dei VIP sempre sotto l’occhio dei paparazzi) nel parlare ad un auricolare non immediatamente visibile.
Un problema che si era posto – in parte – anche con i primi auricolari a filo che, se indossati dalla parte opposta rispetto all’osservatore, ci facevano apparire come un matto che parlasse nel nulla.

Inspiegabilmente, WhatsApp sembra aver cancellato quasi di colpo questo problema. Gente che parla per periodi lunghissimi al microfono, spesso tenendo il cellulare ad un millimetro dalla bocca anche se ha l’auricolare (con microfono), infervorandosi magari anche oltre il dovuto.

Il silenzio e l’imbarazzo, però, tornano sovrani quando si tratta di utilizzare i comandi vocali.
Perchè, apparentemente, raccontare i fatti propri a chiunque sia nelle vicinanze (e – considerato il volume utilizzato da parecchie persone – “vicinanze” è un termine da intendersi utilizzato in senso molto ampio) ci crea molti meno problemi rispetto ad un semplice “Riproduci la playlist “Scimmia” in ordine casuale”?1

Perchè parliamo alle macchine, ma non con le macchine?

Provo ad ipotizzare, ché se la risposta fosse chiara ed univoca vi avremmo già posto rimedio2.

Un aspetto da considerare è sicuramente l’efficienza degli assistenti vocali attualmente in circolazione3.
Ogniqualvolta leggo in una recensione (iOS, Android, FireOS, poco importa) anglosassone magnificare l’efficienza e la reattività di uno di essi, non posso fare a meno di pensare che il punto di vista sia pesantemente influenzato (eufemismo colossale) da ciò che potremmo definire come “la questione madrelingua”.
Se l’assistente è pensato, realizzato e migliorato da chi parla la tua stessa lingua, sarò molto più adatto a soddisfare le tue esigenze rispetto a quelle di chi parla in maniera radicalmente diversa sotto quasi ogni punto di vista.
Se Siri correttamente interpreta “Next” quando sto riproducendo un brano come il comando per passare al successivo, non è detto che la cosa funzioni con un banalissimo – in Italiano – “il prossimo”4.
Ciò comporta un alto grado di ripetizione dei comandi, o in alternativa un adeguamento alla necessità di impartire gli stessi tramite “espressioni stupidamente eloquenti” (“Riproduci il prossimo brano”).
Entrambe le strade portano ad un sicuro risultato: frustrazione.
S’inceppa così il “processo mentale” che – chiarissimo nella nostra testa – si frammenta contro un muro di apparente “idiozia digitale”, resa in molti casi ancor più insopportabile da una cortesia estrema.5
Questo è il motivo che mi spinge ad apprezzare un sistema che presenta una percentuale di errori più alta ma con un maggior numero di lingue supportate, rispetto ad uno “semi-infallibile” ma rinchiuso nel proprio “cortile lessicale”.

Cosa somiglia – senza esserlo – di più ad un matto di chi ripete più e più volte la stessa istruzione a voce alta, parlando apparentemente con nessuno, alzando sempre di più il tono della voce e mostrando irritazione crescente ad ogni iterazione del comando?

Appunto.

Un altro aspetto, forse più profondo e psicologico, risiede nell’idea stessa di parlare con una macchina. Per via di quanto abbiamo detto qui sopra, e poiché siamo ancora convinti che tutti i telefonini si somigliano 6, parlare con una macchina sembra un’opzione assurda. In fin dei conti, l’iPhone X è un Nokia 3310 che si è rifatto il look: se non mi sognavo minimamente di parlare a quello, e tutto ha sempre funzionato bene7, cosa dovrebbe cambiare?

L’ignoranza tecnica è un tratto costitutivo della stragrande maggioranza degli utenti di qualsiasi apparecchio anche solo vagamente tecnologico: non mi preoccupo di leggere un manuale o chiedermi cosa possa davvero fare l’oggetto per cui ho speso un migliaio di euro circa, visto che lo considero un semplice rimpiazzo di quello che lo ha preceduto.

Ma con Whatsapp è diverso: io sto parlando alla macchina, ma con Tizio, Caio eccetera oltre la macchina.
Dopotutto è un telefono, no?
Ecco allora che l’interfaccia, quella inaffidabile, lenta di comprendonio e con lo status di una cabina del telefono nobilitata, scompare: l’illusione del contatto diretto con l’interlocutore porta a volersi garantire la miglior fedeltà possibile per il proprio messaggio. E cosa c’è di più fedele alle proprie parole che la registrazione delle stesse?
Come effetto collaterale dei difetti fin qui elencati, anche la possibilità di utilizzare la dettatura viene esclusa a priori8.

Tutto questo processo mentale penalizza in generale l’esperienza d’uso di uno smartphone, ma tutto sommato l’interazione primaria con questo tipo di dispositivi è ancora veicolata dallo schermo.
Chi ne subisce un danno quasi irreparabile è una nuova categoria che cerca di farsi strada: quella dei wearables.

Ancora oggi, pur essendo fermamente convinto che l’Apple Watch sia un acquisto che rifarei senza problemi, fatico a suggerirlo a qualcuno. Questo perchè, al di là del consigliargli di verificare se i punti di forza del dispositivo – notifiche e funzioni fitness – facciano al caso suo, so già di non poterlo consigliare quale interfaccia vocale, almeno nel 90% dei casi9.
Nessuno che si ponga problemi a parlare al proprio smartphone considererebbe minimamente la possibilità di parlare al proprio orologio da polso10.
Di nuovo, il problema sembra essere costituito dal fatto che AppleWatch rende ancora più esplicito, quasi “sfacciato”, il nostro parlare con la macchina.

Probabilmente il problema si attenuerà con la diffusione, il cambio generazionale11 e via dicendo.
Ma sappiamo come, in una sorta di circolo vizioso parziale, l’adozione di massa dipenda dal miglioramento delle performance, inibito a sua volta dalla mancata adozione di massa.
Se davvero andiamo verso un modello di AI che si basa non tanto sulla pura potenza computazionale, quanto sulla flessibilità guadagnata tramite l’apprendimento delle nostre convenzioni ed abitudini d’uso, “addestrare” i computer su una base ristretta di utenti porterà nella migliore delle ipotesi ad un allungamento considerevole dei tempi 12, quando non ad una castrazione delle possibilità offerte.

Stay Tuned,
Mr.Frost


  1. Sì, potete ridere pensando che io abbia davvero una playlist “Scimmia”. Davvero, non mi offenderò. No, non ho intenzione di cambiarne il nome, visto che è la più longeva della mia storia (mi segue, variando il contenuto, dai tempi dell’iPod prima generazione – fate i vostri conti). 
  2. Sì, lo considero un handicap auto-imposto, poichè si decide coscientemente di non sfrutttare una grossa parte degli strumenti che i nostri terminali sono in grado di offrire. Provate ad impostare un timer tramite Siri e tramite app, e ditemi quale delle soluzioni vorreste adottare il più spesso possibile. 
  3. Non parlo di misure teoriche come il rateo di riconoscimento, parlo dell’esperienza restituita nell’uso comune. 
  4. Spesso, chi fa un uso intensivo, approfondito – potremmo definirlo professionale – dei sistemi operativi mobili, li imposta comunque in lingua inglese per poterne sfruttare il maggior numero di caratteristiche con la minor frizione possibile. 
  5. Programmiamo le macchine perchè si comportino come se fossero – quando il loro ambito di competenza sfiora il nostro – inferiori a noi perchè ne abbiamo paura? “Siri, fai XYZ” “Scusa, ma non capisco cosa intendi con XYZ. Vuoi che lo cerchi su Internet?”. Mi ricorda un racconto di Asimov
  6. Proprio così, stiamo parlando soprattutto di chi considera il termine corretto “smartphone” una cosa da fighetto che se la tira parlando inglese – non ridete, sono molti più di quanto sia auspicabile. 
  7. Dove per bene spesso s’intende in maniera a stento accettabile, ma tanto la tecnologia è indistinguibile dalla magia
  8. La dettatura patisce un ulteriore handicap rispetto ai comandi vocali: per quanto complessi possano essere, difficilmente questi superano una certa lunghezza. Ciò consente all’hardware – quasi qualunque hardware attualmente in circolazione – di gestirli con una certa facilità in termini di memoria e capacità di calcolo. Ma la detttatura è tutta un’altra storia: testi lunghi, articolati, spesso con “ripensamenti” ed incertezze multiple, i quali vengono nella “migliore” delle ipotesi fedelmente riportati fino ad una spettacolare deflagrazione, coincidente con l’esaurimento del buffer. 
  9. L’entità dello “spreco di possibilità” è già aumentata parecchio nel passaggio tra il mio Serie 0 e l’attuale Serie 3, che un amico e lettore di questi deliri mi riferiva essere impressionantemente più veloce proprio nell’esecuzione delle istruzioni impartite tramite comandi vocali. 
  10. Una delle battute che più spesso subisco è, non a caso, quella che fa riferimento ad una nota serie TV anni 80 con una certa automobile senziente… 
  11. Sono abbastanza fiducioso che, anche se con una progressione decisamente meno spettacolare, il fenomeno ricalcherà le orme di quanto avvenuto con i tablet rispetto ai libri cartacei; ricordiamo i numerosi video su YouTube che testimoniano di pargoli intenti a fare tap su pagine di libri cartacei, profondamente indispettiti dal fatto che ciò che considerano il modo di interagire standard con la realtà non sortisca alcun effetto. 
  12. Su questo punto va ad innestarsi la polemica riguardante l’uso – quantità e qualità – dei nostri dati personali da parte delle aziende IT. Google che secondo taluni ne abusa, ottenendo però risultati “migliori” in minor tempo, contro Apple che pare più attenta alla tutela della privacy, anche a costo di dover fare “il giro lungo”.