Xiaomi öppnar källkod för OmniVoice TTS i hundratals språk

Xiaomi öppnar källkod för OmniVoice TTS i hundratals språk

Sara Nilsson Sara Nilsson . 2 Kommentarer

6 Minuter

Röst-AI tenderar att låta imponerande på pappret men märkligt livlös i praktiken. Xiaomi menar att de har en lösning. Företaget har gjort OmniVoice öppet tillgängligt: en ny text-till-talmodell byggd för röstkloning, flerspråkig talgenerering och finkornig kontroll över hur en syntetisk röst faktiskt låter.

Det som gör släppet anmärkningsvärt är inte bara det vanliga löftet om renare tal eller snabbare output. Xiaomi presenterar OmniVoice som en modell som kan fungera på hundratals språk, inklusive språk med få resurser som ofta ignoreras av etablerade talsystem. Om påståendet håller utanför laboratoriedemos kan det få betydelse långt utanför flaggskeppstelefoner och smarta assistenter.

Tillkännagivandet kom via Xiaomis officiella WeChat-kanal, där företaget säger att OmniVoice presterar starkt både på kinesiska och engelska och i vissa flerspråkiga uppgifter kan matcha eller till och med överträffa kommersiella alternativ. Det är ett vågat påstående. Men detaljerna antyder att Xiaomi siktar på en verklig smärtpunkt i talteknologin: de flesta text-till-tal-system fungerar fortfarande bäst på ett fåtal stora språk, medan allt annat får en försvagad upplevelse.

Var OmniVoice kan förändra samtalet

Xiaomi säger att OmniVoice designades med flerspråkig talsyntes i fokus. Företaget beskriver den som en röstklonande text-till-talmodell som stödjer hundratals språk, inklusive sådana med mycket begränsat träningsmaterial online. I praktiska termer innebär det att systemet är avsett att producera begripligt, naturligt klingande tal även när data är knapp, en utmaning som länge bromsat utvecklingen av röst-AI för regionala och nischade språk.

Enligt Xiaomi överträffade modellen flera kommersiella system i tester över 24 språk, särskilt vad gäller tallikhet och begriplighet, trots att den bara tränats på öppna dataset. I en bredare utvärdering som täckte 102 språk säger företaget att OmniVoice kom nära människonivå i begriplighet och i vissa fall till och med överträffade den. Sådana påståenden kräver självklart oberoende verifiering, men de signalerar hur aggressivt Xiaomi vill positionera modellen i den globala AI-konkurrensen.

En av de mer intressanta delarna av tillkännagivandet är betoningen på träning med små datamängder. Xiaomi säger att även språk med mindre än 10 timmars tillgängligt material fortfarande kan uppnå högkvalitativ talsyntes. För samhällen och utvecklare som arbetar med underrepresenterade språk kan det vara den verkliga nyheten. En modell som sänker datatröskeln ändrar vem som kan bygga talverktyg från början.

Under huven tar OmniVoice en annan väg än många av dagens mer komplexa text-till-tal-pipelines. I stället för att stapla flera moduler och prediktionssteg säger Xiaomi att de använder ett enda bidirektionellt Transformer-nätverk för att omvandla text direkt till tal. En enklare arkitektur. Färre rörliga delar. Potentiellt färre flaskhalsar.

Den designen hänger också ihop med hastighet. Xiaomi hävdar att OmniVoice kan tränas på 100 000 timmar data på en enda dag, och under inferens kan den köra upp till 40 gånger realtidshastighet i PyTorch. För utvecklare spelar det roll. Snabb inferens är ofta skillnaden mellan en flashig demo och något som faktiskt kan levereras i konsumentprodukter, kundtjänstsystem, hjälpmedel eller innehållsplattformar.

Företaget pekar på två tekniska val bakom dessa vinster. Det första är vad de kallar en fullständig kodboksstrategi med slumpmässig maskning, vilket sägs förbättra både effektivitet och modellens totala prestanda under träning. Det andra är användningen av en stor språkmodell i förträningen, ett steg som enligt Xiaomi hjälper till att förbättra uttal och begriplighet i en icke-autoregressiv text-till-tal-ram. Enkelt uttryckt försöker modellen inte bara låta flytande. Den försöker förstå språklig struktur tillräckligt väl för att uttala svåra ord mer naturligt.

Det blir särskilt relevant i verkliga användningsfall, där talsyntes ofta fallerar på namn, accenter, lånord eller blandad textspråk. Xiaomi säger att OmniVoice också ger användare mer kontroll här. Svåra uttal, inklusive kinesiska polyfona tecken och engelska egennamn, kan korrigeras manuellt för att öka tillförlitligheten.

Kundnära funktioner är där OmniVoice börjar kännas mindre som en forskningsartikel och mer som en plattform. Användare kan skapa anpassade röster genom att beskriva egenskaper som ålder, kön, tonhöjd, accent, dialekt och talstil. Den kan också generera viskande röster och andra specialiserade vokala stilar utan att kräva ett referensljudklipp, vilket är ett påtagligt steg i flexibilitet.

Xiaomi säger också att modellen kan rengöra brusiga referensinspelningar innan röstkloning, och extrahera tydligare talaregenskaper från inspelningar gjorda i ofullkomliga miljöer. Det kan låta som en liten detalj, men alla som arbetat med verkliga ljud vet hur stökigt källmaterial ofta är. Ett kloningssystem som klarar bakgrundsljud är mycket mer användbart än ett som bara fungerar i studiovillkor.

Sedan har vi uttrycksfullheten. OmniVoice stödjer intonationskontroller, inklusive effekter som skratt och suckar, vilket kan få syntetiskt tal att kännas mindre robotiskt och mer samtalsinriktat. Dit är marknaden på väg. Nästa generation av röst-AI handlar inte bara om att läsa text högt korrekt. Den handlar om framförande, personlighet och känslomässig nyans.

Xiaomi är inte det första företaget som jagar det målet, och det kommer inte att vara det sista. Men genom att göra OmniVoice öppen källkod satsar företaget strategiskt på att bredare utveckartillgång kan driva deras talteknik in i fler produkter, fler marknader och fler språk. Om modellen levererar ens en del av vad Xiaomi lovar kan OmniVoice bli en av årets mest intressanta öppna källkodsutgåvor inom röst-AI.

"Som teknikreporter skriver jag om digital kultur, sociala medier och människans relation till maskiner. Jag gillar när tekniken blir personlig."

Lämna en kommentar

Kommentarer

Tomas

Wow, open source för hundratals språk? Om det funkar blir det en game changer, hoppas de släpper kod + evaldata snart!

datapuls

Låter lovande men är det verkligen så bra utanför labbet? 10 timmars data känns för bra för att va sant...