Firma Zuckerberga udostępniła model językowy umożliwiający tłumaczenie na 100 języków

Kategorie: 

Źródło: youtube.com

Firma Meta ogłosiła SeamlessM4T, multimodalny model sztucznej inteligencji do tłumaczenia mowy i tekstów. Sieć neuronowa przetwarza zarówno tekst, jak i dźwięk i obsługuje do stu języków. Celem narzędzia jest pomoc osobom mówiącym różnymi językami w skuteczniejszej komunikacji między sobą.

 

 

SeamlessM4T wykonuje rozpoznawanie mowy, tłumaczenie mowy na tekst (tłumaczy mowę na inny język w formacie tekstowym), tłumaczenie mowy na mowę (użytkownik przesyła dźwięk mowy, a sztuczna inteligencja wyprowadza przetłumaczoną mowę), tłumaczenie tekstu na tekst (podobnie jak działa Tłumacz Google) i tłumaczenie tekstu na mowę (możesz przekazać tekst do sieci neuronowej, a ona przetłumaczy go i wyrazi na głos w innym języku). Każda z funkcji tłumaczenia tekstu obsługuje stu języków, a funkcje wyprowadzania mowy obsługują 36 języków.

 

Stworzenie uniwersalnego tłumacza języka jest trudnym zadaniem, ponieważ istniejące systemy zamiany mowy na mowę i mowy na tekst obejmują jedynie niewielką część języków świata. Według artykułu badawczego Seamless4MT naukowcy firmy stworzyli multimodalny zbiór ponad 470 tys. godzin automatycznie zsynchronizowanych tłumaczeń mowy o nazwie SeamlessAlign. Następnie przefiltrowali podzbiór tego korpusu za pomocą danych oznakowanych przez ludzi i pseudo-oznaczonych, łącznie 406 tys. godzin.

 

Firma nie jest pewna, skąd wzięła dane szkoleniowe. Dane tekstowe uzyskano z Wikipedii, źródeł wiadomości, skryptów mowy i innych źródeł i przetłumaczono przez profesjonalnych tłumaczy. Dane mowy SeamlessM4T pochodzą z „4 milionów godzin surowego dźwięku pobranego z publicznego repozytorium ogólnodostępnych danych internetowych”, z czego 1 milion godzin było w języku angielskim. Firma nie określiła, z jakiego repozytorium skorzystano i skąd pobrano użyte fragmenty audio.

 

Kontynuując stosunkowo otwarte podejście do sztucznej inteligencji, firma wypuszcza SeamlessM4T na licencji badawczej, która pozwala innym programistom rozwijać to dzieło. Prawdopodobnie będzie to impuls do uczenia się przyszłych modeli sztucznej inteligencji w dziedzinie tłumaczeń od innych badaczy.

 

Meta  nie jest pierwszą firmą zajmującą się sztuczną inteligencją oferującą narzędzia do tłumaczenia maszynowego. Tłumacz Google korzysta z metod uczenia maszynowego od 2006 roku, a duże modele językowe (takie jak GPT-4) są dobrze znane ze swoich możliwości tłumaczenia. Jednak ostatnio technologie przetwarzania dźwięku stały się bardziej aktywne. We wrześniu OpenAI wypuściło własny model tłumaczenia mowy na tekst typu open source o nazwie Whisper, który potrafi rozpoznawać mowę w plikach audio i tłumaczyć ją na tekst z dużą wiernością.

 

SeamlessM4T kontynuuje ten trend, rozszerzając tłumaczenie multimodalne na wiele innych języków. Ponadto firma twierdzi, że „podejście jednosystemowe” SeamlessM4T to monolityczny model sztucznej inteligencji, a nie wiele modeli połączonych ze sobą (jak niektóre wcześniejsze metody przetwarzania dźwięku tej samej firmy), co zmniejsza liczbę błędów i poprawia wydajność procesu tłumaczenia.

Ocena: 

Nie ma jeszcze ocen
Opublikował: tallinn
Portret użytkownika tallinn

Legendarny redaktor portali zmianynaziemi.pl oraz innemedium.pl znany ze swojego niekonwencjonalnego podejścia do poszukiwania tematów kontrowersyjnych i tajemniczych. Dodatkowo jest on wydawcą portali estonczycy.pl oraz tylkoprzyroda.pl gdzie realizuje swoje pasje związane z eksploracją wiadomości ze świata zwierząt


Komentarze

Portret użytkownika Endymion

Kilka lat temu grałem na

Kilka lat temu grałem na Androidzie w grę strategiczną. Społeczność z całego Świata. Czat miał wbudowanego tłumacza. Rozmawiałem z Chińczykami, Amerykanami na temat srowIDa. Byłem pod wrażeniem tej technologii.

Za pomocą gry, miałem kontakt z ludźmi z całego Świata, pisalem po polsku, a ktoś miał moją wiadomość napisaną w cyrylicy. Komunikator był genialny. Bez przekłąmań treści, gramatyka różnych języków różni się i to było dostrzegalne, ale swobodnie mogłem prowadzić kowersację z ludźmi. Jak Wuhan było zamknięte, to okazało sie, że na prowincji nie słyszeli by o Cow-ID, gdyby nie TelaWizja.Tam toczyło się normalne  zycie, a tylko łżemedia stworzyły obraz plandemii.

Pracowałm w kilku korpo. Tam dyrektorem była osoba po germanistyce, nie mająca pojęcia o zarządzaniu firmą, ale musiała szprechać po germańsku, aby zdawać raport przełożonym. W Polsce w pracy jest najbardziej istotne znajomość 2-3 języków obcych, a nie kwalifikacje. Myślę,że ta aplikacja ma szansę wywrócić cały rynek pracy od kierowników w zwyż w korpo.

 

DIVI LESCHI GENUS AMO 

Skomentuj