Skip to main content

Potrebbe chiamarsi The Voice. Ma non canta ”My Way” e non calca i palcoscenici, almeno per ora. Il suo nome è Tacotron 2: si tratta di un nuovo sistema di sintesi vocale messo a punto da Google, così accurato e preciso da essere praticamente indistinguibile da una ‘verà voce umana. A sviluppare Tacotron 2, come raccontano gli esperti di Google in un articolo pubblicato su ArXiv, il server che ospita i lavori scientifici prima della pubblicazione su rivista, è stato un algoritmo di intelligenza artificiale basato su due diverse reti neurali. Il sistema sarà utilizzato per migliorare Google Assistant, il segretario digitale di Android da poco arrivato anche in Italia.

Dal testo allo spettro, dallo spettro alla voce

Tacotron 2, tecnicamente, è un sistema di text-to-speech, ovvero, come scrivono gli autori del lavoro, “un’architettura basata su reti neurali per la sintesi vocale direttamente dal testo”. La generazione della voce avviene in due passaggi: la prima rete neurale legge il testo e lo traduce in uno spettrogramma, il grafico che rappresenta l’evoluzione temporale delle frequenze sonore. Lo spettrogramma, poi, viene dato in pasto a WaveNet, un algoritmo messo a punto da Google lo scorso anno in grado di leggere le frequenze e rigenerare il suono corrispondente con un elevatissimo grado di accuratezza. Tanto da riuscire a riprodurre persino il flebile suono del respiro umano tra una parola e l’altra.

Parole complesse, punteggiatura, scioglilingua

Stando a quel che dicono i suoi creatori, Tacotron 2 è estremamente versatile. Le reti neurali alla base del sistema, infatti, sono in grado di comprendere il senso generale del testo che leggono e di decidere quindi in autonomia, per esempio, su quali parole porre più enfasi. Fanno inoltre particolare attenzione alla punteggiatura e possono essere istruite a pronunciare con più forza parole scritte in maiuscolo.

E ancora: non tengono conto di eventuali errori di ortografia e sono persino in grado di pronunciare senza problemi scioglilingua molto complessi. A questa pagina è possibile ascoltare diversi esempi – Google, in proposito, specifica che si tratta di frasi completamente nuove per il sistema, ovvero non utilizzate durante la fase di ‘addestramento’ – e provare a indovinare se una specifica frase è pronunciata da Tacotron 2 o da un essere umano. Un test tutt’altro che semplice, dal momento che si tratta di differenze davvero minime. Attualmente, il sistema è stato sviluppato solo per riprodurre una specifica voce femminile, ma non è escluso che Big G, in futuro, decida di addestrarlo su una o più voci altre.

Fonte: http://www.repubblica.it/tecnologia/2017/12/28/news/cosi_parlo_l_intelligenza_artificiale_impossibile_distinguerla_da_quella_umana-185377580/?ref=RHPF-VT-I0-C6-P1-S4.2-T1