DeepMind A.I. Bridges gapet mellan robot och mänskliga röster

$config[ads_kvadrat] not found

DeepMind StarCraft II Demonstration

DeepMind StarCraft II Demonstration
Anonim

Konstgjord intelligens gjorde bara robotröst mycket mer realistiska.

DeepMind, som tidigare visat kraften hos A.I. genom att slå en mänsklig spelare på Go i mars och skärpa sin krafträkning i halv juli, fokuserar nu på talssyntes.

A.I-forskningsgruppen, som ingår i Googles moderbolag Alfabet, avslöjade i morse att den har skapat en ny teknik som heter WaveNet som kan användas för att generera tal, musik och andra ljud mer exakt än tidigare.

DeepMind förklarar att många befintliga talssyntesmetoder är beroende av att "en mycket stor databas med korta talfragment spelas in från en enda högtalare och sedan rekombineras för att bilda fullständiga uttalanden." WaveNet använder å andra sidan "raw waveformen av ljudsignalen "För att skapa mer realistiska röster och ljud.

Det betyder att WaveNet arbetar med de enskilda ljuden som skapas när en människa talar istället för att använda kompletta stavelser eller hela ord. Dessa ljud körs sedan genom en "beräkningsmässigt dyr" process som DeepMind har funnit "nödvändigt för att generera komplext, realistiskt ljudande ljud" med maskiner.

Resultatet av allt det extra arbetet är en 50 procent förbättring av syntetiserat tal i amerikansk engelska och kinesisk mandarin. Här är ett exempel på talgenerering med parametrisk text-till-tal, vilket är vanligt idag, som används av DeepMind för att visa hur denna talsyntesmetod saknas:

Och här är ett exempel på samma mening som genereras av WaveNet:

När företagen fortsätter sitt arbete med naturliga språkgränssnitt kommer det att bli allt viktigare att erbjuda mer realistiska svar. WaveNet kan hjälpa till att lösa det problemet.

$config[ads_kvadrat] not found