Nowy syntezator mowy jest w stanie naśladować każdy głos

Kategorie:

Źródło: pixabay.com

Wirtualni asystenci są obecnie bardzo popularnym rozwiązaniem, można spotkać się z nimi na przykład podczas przekierowywania rozmowy w call center. Zwykle mają jednak dziwny, sztuczny głos, który łatwo jest odróżnić od naturalnej rozmowy. Syntezator mowy używa zestawu wcześniej zapisanych fraz, dźwięków oraz ich kombinacji. Naukowcy pracują więc nad sztuczną inteligencją, która będzie w stanie odtworzyć rzeczywisty głos każdej osoby.

Dokładna imitacja głosu jest możliwa dzięki zastosowaniu sieci neuronowych, pracujących na tych samych zasadach, co sieci neuronowe w mózgu człowieka. Sztuczna inteligencja uczy się rozpoznawać cechy ludzkiej mowy, a następnie wykorzystuje zebrane dane do syntezy sztucznego głosu.

Prace nad idealnym syntezatorem napotykają jednak problemy, między innymi ze zrozumiałością mowy. Jednak wszystkie utrudnienia będą możliwe do wyeliminowania w przyszłości, ponieważ już teraz system pracuje w czasie rzeczywistym. Program został przeszkolony w zakresie dużej liczby fragmentów dźwięków, należących do tysięcy osób. Uzyskane informacje są kompresowane do postaci „głosowego DNA”, czyli klucza cyfrowego.

Opierając się na kluczu, system może odtworzyć dowolne słowa, nawet te, które nie były zaangażowane w proces uczenia się. Przedstawiciele firmy Lyrebird, pracującej nad projektem, porównują swój wynalazek do Photoshopa. Po utworzenia pakietu oprogramowania Adobe, człowiek zyskał możliwość manipulowania obrazem, teraz to samo ma stać się z dźwiękiem.