Un cambiamento antropologico: dalla civiltà dell’oralità e civiltà del visivo e della scrittura – e ritorni

Il linguaggio e la parola hanno vissuto un cambiamento antropologico fondamentale con la transizione storica dalla cultura orale alla civiltà della scrittura, la prima incentrata sulla voce, la seconda sulla vista. La società basata sull’oralità è caratterizzata dal riconoscere un ruolo centrale alla voce rispetto al sapere e alla comunicazione, influendo sulla concezione e sull’uso della parola e del linguaggio. Mentre la civiltà della scrittura dipende dalla centralità riconosciuta al visivo, è caratterizzata dal suo rapporto distaccato e prevalentemente funzionale col linguaggio: la parola strumento del pensiero, durevole e permanente nel tempo. Le civiltà orali invece si affidano al flusso sonoro, evanescente e irriproducibile, che mette in comunicazioni i corpi e li coinvolge e avvicina materialmente. Parola, voce e azione procedono influenzandosi reciprocamente.

Sono aspetti culturali che impattano sul rapporto tra linguaggio e realtà, con importanti conseguenze sul piano pratico. Nella nostra cultura scritta empirico-razionale, il linguaggio non è tanto materialmente connesso con gli eventi di cui parla, così come è separato dagli oggetti a cui si riferisce: significanti, segni astratti mediante immagini mentali evocano cose ed eventi assenti, tanto che lettura e scrittura non si eseguono facilmente in presenza degli eventi trattati. Forse perché si tratta di abilità culturali recentemente acquisite, cui il corpo e la mente non hanno avuto il tempo di adattarsi. Si deve comunque tener conto che lo scritto è tanto dispendioso cognitivamente che richiede una dedizione esclusiva, reclama luoghi silenziosi dove non accada altro, opera in assenza delle azioni – e degli attori – cui si riferisce, che deve pertanto anzitutto descrivere o rappresentare.

Eppure osserva Guido Barbieri “in realtà la voce umana non ha mai cessato, neppure nel dopoguerra, di essere un magnete potente, capace di attrarre la fantasia, l’immaginazione, la capacità inventiva di migliaia di compositori del nostro tempo, anche di quelli più radicali (…) Circa il 25 % delle opere scritte tra la seconda metà del XX secolo e i primi due decenni del XXI sono destinati alla voce”.

Unicità della voce, il riconoscimento vocale e trascrizione

“La voce è sigla singolare e ha valore di specchio ed eco dell’identità” Gianni Emilio Simonetti

“La voce viene certamente da una persona unica, irripetibile, come ogni persona (…) una persona viva, gola, torace, sentimenti, che spinge nell’aria questa voce diversa da tutte le altre” (Italo Calvino, Sotto il sole giaguaro)

In ogni corpo è sempre unica e sempre unica, diversa da ogni altra, è voce di ognuno.

L’infante riconosce la voce materna nelle sue prime settimane di vita. Ed il riconoscimento è reciproco, e si esprime in entrambi i casi vocalmente: prima ancora di comunicare qualcosa attraverso la parola, comunicano con le proprie voci.

Con le analisi vocali spettrografiche l’unicità della voce trova evidenze strumentali: la mia voce è la mia password.

L’autentificazione basata sulla biometria vocale funziona confrontando la voce di una persona con un’impronta vocale memorizzata su file: un pattern vocale già registrato in un database. La voce può essere analizzata per oltre 140 fattori rispetto a un’impronta vocale.

L’autentificazione vocale può essere attiva, con richiesta di una passphrase , o passiva, senza interrompere la chiamata o richiesta, lasciando parlare il cliente finché il numero di campioni è sufficiente al riconoscimento e viene avviata la procedura. La modalità passiva è più sicura e più gradevole per il cliente. Il sistema determina il grado di accuratezza ottenuto dalla voce, supponiamo l’80%, e in base alle procedure stabilite dà l’accesso al servizio richiesto oppure fa domande aggiuntive per coprire il 20% nella certezza di riconoscimento.

L’autentificazione vocale può essere combinata con quella facciale, con l’utente scatta una foto di se stesso in tempo reale che può essere paragonata a un volto in archivio.

«Non è una tecnologia precisa al 100% perché si basa su modelli statistici, su reti neurali, non su modelli matematici – precisa Piergiorgio Vittori, global development director di Spitch, società di consulenza e soluzioni tecnologiche con base in Svizzera – per questo si usa in aggiunta ad altri livelli di sicurezza. L’accuratezza però è elevata, perché l’identificazione del pattern vocale si basa su oltre 70 parametri, non solo sillabe e fonemi, ma per esempio anche il movimento della lingua»

Le prestazioni principali delle soluzioni di autenticazione biometrica vocale possono essere così schematizzate:

  • precisione nel riconoscimento,
  • affidabilità del servizio,
  • usabilità e velocità
  • sicurezza nella gestione dei dati sensibili
  • compatibilità con gli standard emergenti e accettati dalle normative vigenti
  • multitenancy
  • costi
  • risparmi di tempo.

L’autenticazione della voce è facilmente integrabile con la trascrizione online.

Sono numerosi i tool di trascrizione.

La conversione dal parlato a testo prevede una serie di passaggi complessi.

In primo luogo, l’ADC (convertitore analogico-digitale) converte il suono registrato in forma digitale, al fine di renderlo compatibile con il computer. La qualità della conversione da analogico a digitale dipende molto dalla frequenza di campionamento del sistema.
Durante la conversione, si filtra il rumore che il microfono ha raccolto con la voce e si regolano i livelli del suono e dei volumi a un livello costante.

I dati digitali subiscono poi una serie di “splicing”, un confronto con i termini del database del software di riconoscimento vocale, al fine di trascrivere accuratamente il file audio in testo.

Le principali prestazione di questi sistemi sono l’accuratezza e la velocità di messa a disposizione del testo online.

Tecnologie e funzionamento degli assistenti vocali

La categoria che forse meglio comprende le funzionalità dell’uso della voce è “assistenti vocali” (smart speaker o Virtual Voice Assistants – VVA). Sono degli assistenti virtuali che possono essere presenti nello smartphone, nel tablet, nel computer o dentro a dei dispositivi che hanno la forma di uno speaker. Ciascuno di essi, una volta attivato, è in grado di riconoscere le parole pronunciate dall’utente (vengono di solito trasformate in testo; funzionalità speech-to-text) e grazie all’intelligenza artificiale residente sul cloud, quindi sui server del produttore, di reagire alle richieste di volta in volta avanzate.

La loro tecnologia si basa sull’intelligenza artificiale. Ciò vuol dire che, grazie al machine learning, non solo sono in grado di riconoscere il linguaggio naturale delle persone, ma anche di attivare meccanismi di auto-apprendimento che consentono ai loro sistemi di evolvere ad ogni uso, raccogliendo dati e apprendendo abitudini e preferenze, così da interagire con gli utenti in maniera sempre più puntuale e pertinente.

Per comprendere al meglio il funzionamento di questi strumenti, può essere particolarmente utile ed interessante conoscerne i passaggi funzionali, che vengono di seguito descritti schematicamente.

L’assistente vocale (di seguito VVA) è collocato in un’apparecchiatura che può essere uno smartphone o un altoparlante. Il VVA, se non viene avviato, è in standby seppur in ascolto costante, e fino a quando non viene rilevata un’espressione di sveglia specifica, non viene trasmesso alcun audio dal dispositivo che riceve la voce e non viene eseguita alcuna altra operazione. Quando l’utente pronuncia l’espressione di risveglio, il VVA confronta localmente l’audio con l’espressione, e se corrispondono, l’assistente apre un canale di ascolto e il contenuto audio viene immediatamente trasmesso. Una volta attivato, l’utente formula una richiesta che viene trasmessa al provider VVA. La sequenza del discorso pronunciato viene quindi trascritta automaticamente.

Utilizzando le tecnologie di elaborazione del linguaggio naturale (NLP), il comando viene interpretato, le intenzioni del messaggio vengono estratte e le variabili informative (slot) vengono identificate. Viene quindi utilizzato un dialog manager per specificare lo scenario di interazione da implementare con l’utente fornendo lo schema di risposta appropriato. Se il comando coinvolge una funzionalità fornita da un’app di terze parti, il provider VVA invia allo sviluppatore dell’app le intenzioni e le variabili informative (slot) del messaggio.

Dopodiché viene identificata una risposta adattata alla richiesta dell’utente. Risposte come “non ho la risposta alla tua domanda”, sono standard nel caso in cui il VVA non sia in grado di interpretare correttamente la richiesta; invece, qualora vi riesca, viene creata una frase di risposta e/o viene identificata un’azione.

Se necessario, vengono utilizzate risorse remote come database della conoscenza accessibili al pubblico (enciclopedie online, ecc.), oppure accessibili tramite autenticazione (conto bancario, applicazione musicale, account per acquisti online, ecc.). Infine, pronunciando l’espressione di spegnimento, il VVA torna in standby, in attesa che venga pronunciata ancora l’espressione di sveglia e la nuova richiesta dell’utente.

Per la tutela della privacy

Che la voce di chi usa assistenti vocali contenga informazioni sensibili è un concetto abbastanza affermato e condiviso tra gli operatori e dalle organizzazioni rappresentanti gli utenti. Quello di cui si ha meno consapevolezza riguarda le condizioni per tutelare la privacy. In proposito, un aspetto importante è assicurare che la voce di chi usa un assistente vocale non venga trasmessa ai server dell’azienda produttrice dell’assistente, ma rimanga sul dispositivo. Se per esempio viene effettuata la diagnosi vocale su una patologia o sullo stato di salute, tali informazioni non devono andare sul cloud o in genere a terze parti che possano ricevere e tesaurizzare queste informazioni sensibili.

Quindi ai fini di garanzia della tutela potrebbero essere adottate diverse misure:

  • assicurarsi che l’analisi dei dati sensibili sarà fatta sullo smartphone, ma nel cloud (dove avviene l’elaborazione) non giungeranno i dati che identificano la persona.
  • non realizzare e far utilizzare un’app installata sullo smartphone, ma una web app. in modo che nello smartphone non rimanga traccia
  • assicurarsi, almeno attraverso dichiarazione dell’operatore, che la voce, nel caso rimanga registrata sul cloud, non sia sottoposta ad analisi spettrografica.

La diagnostica delle patologie attraverso la voce

Una volta liberata la voce dai significati e ‘ridotta’ a suono, emerge il corpo della voce come sintomo, impronta vocale di effetti e fonte di informazioni ed evidenze che sfuggono alla persona parlante e alla medicina istituzionale.

Per l’analisi della voce vengono estratti biomarcatori vocali che si collegano ad una patologia e permettono la diagnosi precoce, la classificazione di malattie e il monitoraggio da remoto delle stesse.

I biomarcatori vocali vengono identificati e trattati attraverso l’analisi spettrale della vocalizzazione. Così la voce, sottoposta all’analisi spettrale, è portatrice di un potere di rivelazione e di diagnosi: quello che interessa non è la voce come portatrice di contenuti / significati o come la materializzazione dell’intenzionalità, ovvero la forma di esteriorizzazione privilegiata del volere (Derrida), bensì la possibilità del ‘voler-dire-nulla’. Per registrare la voce e diagnosticare patologie o stati di salute, non si chiede, infatti, di dire qualcosa, perché interessa soltanto che la voce si presti all’analisi vocale spettrografica, il cui impiego è volto ad espropriare la voce di significato – e il paziente da l’io-parlo, dal Sé-dicente. In queste condizioni vengono trattati attraverso la voce aspetti che la medicina non ha mai cercato nel parlato, attraverso l’anamnesi, l’acquisizione dei consensi informati, la stessa medicina narrativa.

“Così la voce si trova ad essere detta, intradetta dai suoni che, ad es(empio), ne scandiscono l’affanno, il lamento, le impennate, il bisbiglio, la furia, l’inceppo etc. “ Carmelo Bene

L’attenzione va allora sulla voce, e non ai significati di cui è portatrice, alle modifiche involontarie che caratterizzano la nostra voce: «La nostra voce – spiega Saggio di VoiceWise– non è sempre la stessa. Quando parliamo a un neonato, assumiamo un tono di voce di un’ottava più alta (facciamo la vocina “stridula” e acuta) così come, quando bisbigliamo nell’orecchio di un amico, pronunciamo “sibili” che non emettiamo durante un parlato normale. E ancora, quando cantiamo spesso impostiamo il vibrato tipico di una voce “tremolante”».

«Ogni patologia agisce variando solo specifici parametri vocali, per cui – spiega ancora il prof. Saggio – determina una sua “firma”, una specifica caratteristica sul cambiamento di voce. Dalla semplice misura ed analisi della voce abbiamo saputo individuare persone affette da otite, rinite, faringite, bronchite, diabete, tubercolosi, febbre virale, differenziandole da soggetti “sani”».

Il Professore osserva che la voce può essere legata a diverse patologie, perché dipende fondamentalmente da tre condizioni: lo stato fisiologico, quello psicologico e quello patologico. Una percentuale significativa dei parametri che caratterizzano la voce e che sono estraibili dipende proprio dallo stato patologico.

Le patologie, riescono a variare dei parametri della voce per lo più non udibili dall’orecchio umano, perché l’orecchio umano ha una sensibilità molto bassa; ma un microfono e un registratore professionali, con degli algoritmi intelligenza artificiale riescono a captare tali variazioni.

Attraverso l’incremento della quantità e qualità della banca dati, la diagnosi vocale è sempre più specifica e sensibile. Per questi test, e utilizzando direttamente i microfoni degli smartphone, si parla di una sensibilità del 70 – 90 % e di una specificità del 75%, per cui il rischio di falsi positivi e falsi negativi è intorno al 30 per cento. Il software deve essere certificato CE come dispositivo medico.

Nonostante tali evidenze, l’ambizione di rendere la voce scientificamente credibile, così concepita, scomponibile e trattabile, sta trovando diverse resistenze ed ostacoli, e continuerà a trovarli per qualche decennio: oltre alle resistenze verso il parlato e il tattile, proprie di una civiltà del visivo e della scrittura, vanno considerati gli ostacoli che trova un sistema di diagnosi che attinge alla fonte della sostanza sottostante il linguaggio, ‘non invasivo’, ‘a costo zero’ e ‘in tempo reale’, basato su modalità di refertazione e su evidenze che sono improprie per la medicina e per l’economia e ciò anche se la medicina abbia una lunga e variegata esperienza di indagini diagnostiche strumentali.

Al tempo stesso, va considerato che la diagnosi vocale è allineata alla tendenza prevalente verso soluzioni per la diagnosi non dolorose, non invasive, a costo irrisorio e con risposta immediata.

Inoltre, la rapidità del test fa fronte alla scarsa accessibilità al sistema sanitario: se per esempio una persona ha sintomi come la tosse, nel 90% dei casi cerca informazioni sanitarie su internet e soltanto in seguito contatta il medico di famiglia, prenota un test diagnostico o prenota una visita con lo specialista. Il tempo per conoscere il proprio stato di salute è troppo lungo.

Il numero delle patologie alle quali è applicata la diagnosi vocale è considerevole. Mediante la diagnosi vocale si è in grado di fare diagnosi precoci e di monitorare malattie neurodegenerative come Alzheimer, Parkinson, SLA, depressione, problemi dello sviluppo come l’autismo, diverse malattie respiratorie quali la broncopneumopatia ostruttiva.

Estensione della diagnostica vocale al “non patologico”

Oltre alla diagnostica con la voce delle patologie (Voice Med One, Vocalist Health, VoiceWise), va considerato il campo delle diagnosi di condizioni non patologiche, di carattere psicologico e che compromettono la sicurezza delle persone. Tale campo diagnostico vocale si fonda sul fatto che le alterazioni della voce correlabili a particolari condizioni psicologiche (euforia, tristezza, depressione, ansia) riguardano parametri diversi e distinguibili da quelli che cambiano in base alla condizione patologica.

Il professore Giovanni Sacco (VoiceWise) è attento a queste applicazioni in condizioni non patologiche. Lui stesso in un’intervista ha trattato le seguenti:

  • l’antidoping
  • il pianto del bambino
  • il tasso alcolemico
  • lo stato di ebrezza con applicazione all’auto.

Nel campo della diagnostica vocale delle condizioni di stress, non patologiche, e che compromettono la sicurezza va considerato l’ambito

  • dei disturbi da stress e da ansia
  • sintomi di sonnolenza durante la guida
  • stress da studio e da esami.

Produzione della documentazione sanitaria

La registrazione mediante interfacce vocali e trascrizione automatica del parlato permette di produrre la documentazione clinica in tempo reale con l’attività sanitaria e in contemporanea con l’incontro col paziente. Oltre che produrre e disporre della documentazione in tempo reale, I vantaggi sono di diversa natura:

  • poter ‘scrivere’ senza impegnare né mani, né occhi, e quindi lasciandoli liberi per altre attività
  • liberare tempo e risorse: 150 parole al minuto, con la dettatura, tre volte più veloce di una tastiera.

La riduzione dei tempi è ancora più rilevante con l’utilizzo di blocchi di testo standardizzabili, personalizzabili, codificabili e richiamabili durante la dettatura.

Operare con audio e testo sempre sincronizzati facilita inoltre le operazioni di correzione e permette una facile sottotitolatura delle immagini.

Un altro importante beneficio è dato dalle applicazioni di comandi vocali a mani libere e ad occhi liberi: la possibilità di dare le prescrizioni a voce con la trascrizione automatica e in tempo reale, dove l’impronta vocale sostituisce la firma elettronica.

I benefici sono forse ancora maggiori negli interventi chirurgici e nelle emergenze.

Contributo alla medicina narrativa e alla medicina di precisione

Ad integrazione della medicina basata sulle evidenze, le tecnologie vocali di autenticazione e digitalizzazione del parlato possono essere di supporto alla medicina narrativa e alla medicina di precisione, nella comune strategia di dare più voce al paziente e personalizzare la prevenzione, diagnosi e cura in base al singolo paziente.

La registrazione della voce e la raccolta informatizzata di narrazioni su esperienze di cura e di assistenza di pazienti e caregiver può essere integrata dall’impostazione di liste di stimoli narrativi pensati per specifici obiettivi terapeutici. Gli stimoli servono a contenere il racconto del paziente per finalizzarlo alla personalizzazione del percorso di cura, principale interesse suo e del curante. In quest’ottica, l’uso della piattaforma consente di passare dalla storia individuale a un corpus di storie più ampio. Le narrazioni anonimizzate sono così utilizzabili per elaborare indicatori soggettivi di valutazione di bisogni e percorsi assistenziali, anche a partire dall’efficacia percepita da pazienti e caregiver.

Applicazioni a seconda del tipo di disabilità

La casa, con lo sviluppo accelerato della domotica, è diventato il luogo privilegiato delle applicazioni delle tecnologie vocali. Oltre al confort, l’utilità è nel controllare e comandare rispetto ad ogni fonte di pericolo per le persone che abitano la casa. Sono previsti anche comandi base standardizzati e richiamabili, che possono essere predefiniti o appresi dall’assistente vocale virtuale attraverso l’interazione con l’utente.

Le tecnologie vocali puntano ad accessibili ‘a tutti’ e a personalizzarsi sulle esigenze di ognuno. Non poteva allora non porsi l’obiettivo di essere a porta di mano anche delle persone che soffrono di disabilità.

L’accessibilità dev’esser quindi vista come un diritto e non una caratteristica da spuntare in un elenco di requisiti.

La strategia evidentemente è quella dell’inclusione e dell’abbattimento delle barriere, attraverso la facilità di accesso alle tecnologie e aumentando il grado di indipendenza e di sicurezza delle persone.

Il riconoscimento vocale, integrato principalmente con computer, cellulari e smart speaker è proprio un chiaro esempio di come vincere questa sfida.

Se per i normo dotati l’utilizzo del riconoscimento vocale, della sintesi vocale e di conseguenza di tutti gli apparecchi che sfruttano questo sistema, sono diventanti indispensabili per ottimizzare i tempi, per le persone con disabilità sono diventati dei veri e propri “salva vita”.

Le tecnologie vocali hanno permesso a chi ha difficoltà di movimento o altre disabilità, di: controllare il dispositivo con il solo uso della voce, aprire app, navigare online, inviare una mail, scattare una foto, essere maggiormente indipendenti all’interno della propria abitazione… Tutto questo però è integrato ed agevolato attraverso svariate applicazioni create appositamente per persone con disabilità, per migliorare la loro interazione con la tecnologia e sfruttarla maggiormente.

Per le disabilità visive, si hanno importanti benefici in termini di autonomia, apprendimento, sicurezza dall’uso delle tecnologie vocali, limitandosi al telefono, senza che sia necessario l’uso diretto del computer, con la trascrizione automatica del parlato o viceversa attraverso la vocalizzazione del testo scritto attraverso screen reader dotati di sintesi vocali o addirittura la codifica in codice Braille attraverso display o stampanti.

Gli smartphone sono già dotati di strumenti per l’accessibilità, nonostante ciò esistono molte app dedicate ai non vedenti. Si tratta di applicazioni create pensando a funzionalità utili soprattutto fuori casa, come quando ci si sposta in città o si fa shopping; oltre che per fare un uso ottimale e completo del dispositivo in sé, ad esempio dando comandi vocali e ricevendo feedback sonori.

Per un disabile motorio il  riconoscimento vocale e la dettatura automatica permettono una scrittura più veloce rispetto all’uso di periferiche e tastiere adattate: questo può significare maggiore libertà e immediatezza nel controllo dei comandi del computer e per la compilazione di messaggi veloci, e-mail e appunti. La possibilità dei comandi vocali impatta sull’autonomia delle persone con disabilità motoria, per esempio nel controllo della casa attraverso l’azionamento di dispositivi domotici.

Ai disabili uditivi la tecnologia di riconoscimento vocale ha dato la possibilità di proiettare la trascrizione del parlato su una lavagna digitale, un telo o uno schermo di un computer personale, potendo in questo modo essere partecipi di un discorso, conferenza o lezione. attraverso questa nuova metodologia. Una sotto titolatura precisa e accurata del parlato di tutte le persone che partecipano all’interazione nel corso dell’attività formativa, contribuirebbe ad abbattere sostanzialmente le barriere che impediscono una piena partecipazione delle persone con disabilità uditiva. L’utilizzo di Smart Speaker consente anche a loro di migliorare la loro relazione con lo spazio che li circonda, le funzionalità classiche sono disponibili e di grande aiuto anche per loro, semplicemente questi dispositivi sono integrati con schermi o ipad che riportano le risposte attraverso linguaggio scritto e non uditivo.

Per le disabilità cognitive, la scrittura “sotto dettatura” potrebbe essere una risorsa compensativa e molto significativa per persone con dislessia, disgrafia e disortografia. La visualizzazione dei grafemi corrispondenti ai fonemi pronunciati al microfono permetterebbe anche un rafforzamento delle proprie abilità di associazione. Vi sono molti casi studio per rendere questo progresso tecnologico un vero e proprio aiuto significativo per l’inclusione ed il miglioramento dell’apprendimento da parte di persone con difficoltà cognitive.

Ing. Giuseppe Perrella
Presidente Nomos