Text-to-Speech, ook wel TTS genoemd, is een vorm van ondersteunende technologie die gemak en comfort in het leven brengt. Het systeem leest digitale teksten hardop en duidelijk genoeg voor zodat een persoon ze kan begrijpen. TTS staat ook bekend als read-aloud-technologie, algemeen geaccepteerd vanwege de flexibiliteit. Het is een kwestie van één druk op de knop, waarbij de tekst van de website wordt omgezet in audio.
Het systeem breidt zich uit naar alle apparaten, zoals smartphones, laptops, desktops en tablets, en wordt als ideaal beschouwd voor kinderen, het publiek boven de 20 en mensen met een beperking. De worsteling met lezen en het benadrukken van de ogen op elektronische apparaten zijn allemaal verdwenen met TTS, terwijl de focus, het leren en de gewoonte om online te lezen door te luisteren worden vergroot. Dus als u een blogger, lezer of website-eigenaar bent, is TTS software die uw kennishorizon zal verbreden. Maar wat zijn de voordelen van een stem voor alles, geen beperking en geen grenzen? Het is gescheiden op basis van de gebruikers, aangezien zij de persoon zijn die de diensten gebruikt.
Mensen in staat stellen om met machines te converseren is een lang gekoesterde droom van mens-computerinteractie. Het vermogen van computers om natuurlijke spraak te begrijpen is de afgelopen jaren gerevolutioneerd door de toepassing van diepe neurale netwerken (bijvoorbeeld Google Voice Search). Het genereren van spraak met computers — een proces dat gewoonlijk wordt aangeduid als spraaksynthese of tekst-naar-spraak (TTS) — is nog steeds grotendeels gebaseerd op zogenaamde concatenatieve TTS, waarbij een zeer grote database met korte spraakfragmenten wordt opgenomen van een enkele spreker en vervolgens opnieuw wordt gecombineerd om volledige uitingen te vormen. Dit maakt het moeilijk om de stem aan te passen (bijvoorbeeld over te schakelen naar een andere spreker, of de nadruk of emotie van hun toespraak te veranderen) zonder een geheel nieuwe database op te nemen.
Het TTS-proces bestaat uit verschillende fasen:
Er zijn verschillende soorten TTS-technologie, waaronder:
GSpeech biedt veel functies, waaronder online, SaaS, on-premise Text-to-Speech (TTS)-oplossingen voor een breed scala aan bronnen zoals websites, mobiele apps, e-books, e-learningmateriaal, documenten, dagelijkse klantervaring, transportervaring en nog veel meer. Hoe een bedrijf, organisatie en uitgevers die TTS-technologie integreren hiervan profiteren.
TTS-technologie biedt betere toegankelijkheid voor mensen met een visuele beperking, dyslexie of leesproblemen, waardoor ze gemakkelijker toegang hebben tot informatie en kunnen communiceren.
Door gebruikers een alternatieve manier te bieden om uw content te consumeren, kunt u de zoekmachineoptimalisatie (SEO) van uw WordPress-website verbeteren. Dit is met name belangrijk voor gebruikers die afhankelijk zijn van schermlezers om op het web te navigeren.
TTS-technologie kan de gebruikerservaring verbeteren door een meer natuurlijke en intuïtieve manier van interactie met apparaten te bieden, waardoor de noodzaak voor handmatig typen of lezen afneemt.
Met TTS-technologie kunt u 24/7 klantenondersteuning bieden, veelgestelde vragen beantwoorden en klanten op een efficiëntere en effectievere manier van informatie voorzien.
TTS-technologie kan de productiviteit verhogen door taken zoals gegevensinvoer, transcriptie en lezen te automatiseren, waardoor er tijd vrijkomt voor belangrijkere taken.
TTS-technologie ondersteunt meerdere talen, waardoor het een waardevol hulpmiddel is voor bedrijven en organisaties die wereldwijd actief zijn.
TTS-technologie kan het leesbegrip verbeteren doordat gebruikers naar de tekst kunnen luisteren terwijl ze meelezen met het geschreven woord. Hierdoor wordt het makkelijker om complexe informatie te begrijpen.
TTS-technologie kan de belasting en vermoeidheid van de ogen verminderen door een alternatief te bieden voor lezen en typen. Hierdoor is het een waardevol hulpmiddel voor mensen die veel tijd achter een beeldscherm doorbrengen.
TTS-technologie kan de betrokkenheid vergroten door een interactievere en meeslependere ervaring te bieden. Hierdoor is het een waardevol hulpmiddel voor educatieve en entertainmenttoepassingen.
TTS-technologie kan u een concurrentievoordeel opleveren door een unieke en innovatieve manier van interactie met apparaten te bieden, waarmee u uw product of dienst onderscheidt van de concurrentie.
Dit heeft geleid tot een grote vraag naar parametrische TTS, waar alle informatie die nodig is om de gegevens te genereren, wordt opgeslagen in de parameters van het model, en de inhoud en kenmerken van de spraak kunnen worden bestuurd via de invoer van het model. Tot nu toe heeft parametrische TTS echter de neiging minder natuurlijk te klinken dan concatenatief. Bestaande parametrische modellen genereren doorgaans audiosignalen door hun uitvoer door te geven aan signaalverwerkingsalgoritmen die bekend staan ​​als vocoders.
WaveNet verandert dit paradigma door de ruwe golfvorm van het audiosignaal rechtstreeks te modelleren, monster voor monster. Het gebruik van ruwe golfvormen betekent niet alleen dat het natuurlijker klinkende spraak oplevert, maar ook dat WaveNet elke vorm van audio kan modelleren, inclusief muziek.
Onderzoekers vermijden doorgaans het modelleren van ruwe audio omdat het zo snel tikt: doorgaans 16,000 samples per seconde of meer, met belangrijke structuur op veel tijdschalen. Het bouwen van een volledig autoregressief model, waarin de voorspelling voor elk van die samples wordt beïnvloed door alle voorgaande samples (in statistische termen is elke voorspellende distributie geconditioneerd op alle voorgaande observaties), is duidelijk een uitdagende taak.
Echter, PixelRNN en PixelCNN modellen, eerder gepubliceerd, lieten zien dat het mogelijk was om complexe natuurlijke beelden te genereren, niet alleen één pixel per keer, maar één kleurkanaal per keer, wat duizenden voorspellingen per beeld vereiste. Dit inspireerde ons om onze tweedimensionale PixelNets aan te passen aan een eendimensionaal WaveNet.
De bovenstaande animatie laat zien hoe een WaveNet is opgebouwd. Het is een volledig convolutioneel neuraal netwerk, waarbij de convolutionele lagen verschillende dilatatiefactoren hebben die het receptieve veld exponentieel laten groeien met de diepte en duizenden tijdstappen laten bestrijken.
Tijdens de training zijn de invoersequenties echte golfvormen die zijn opgenomen door menselijke sprekers. Na de training kunnen we het netwerk bemonsteren om synthetische uitingen te genereren. Bij elke stap tijdens het bemonsteren wordt een waarde getrokken uit de waarschijnlijkheidsverdeling die door het netwerk is berekend. Deze waarde wordt vervolgens teruggevoerd naar de invoer en er wordt een nieuwe voorspelling voor de volgende stap gedaan. Het stap voor stap opbouwen van samples op deze manier is rekenkundig duur, maar we hebben ontdekt dat het essentieel is voor het genereren van complexe, realistisch klinkende audio.
Wij hebben getraind WaveNet met behulp van enkele TTS-datasets van Google, zodat we de prestaties ervan konden evalueren. De volgende afbeelding toont de kwaliteit van WaveNets op een schaal van 1 tot 5, vergeleken met de huidige beste TTS-systemen van Google (parametrisch en concatenative), en met menselijke spraak met behulp van Gemiddelde meningscores (MOS). MOS zijn een standaardmaat voor subjectieve geluidskwaliteitstests en werden verkregen in blinde tests met menselijke proefpersonen (van meer dan 500 beoordelingen op 100 testzinnen). Zoals we kunnen zien, verkleinen WaveNets de kloof tussen de state of the art en menselijke prestaties met meer dan 50% voor zowel Amerikaans Engels als Mandarijn Chinees.
Voor zowel Chinees als Engels worden de huidige TTS-systemen van Google tot de beste ter wereld gerekend. Het is dan ook een enorme prestatie dat we beide systemen met één model kunnen verbeteren.
GSpeech heeft een AI-spraaksynthesealgoritme, wat een van de meest geavanceerde en realistische in de branche is. De meeste spraaksynthesizers (waaronder Apple's Siri) gebruiken wat concatenatieve synthese wordt genoemd, waarbij een programma afzonderlijke lettergrepen opslaat — geluiden zoals "ba", "sht" en "oo" — en ze on the fly aan elkaar plakt om woorden en zinnen te vormen. Deze methode is in de loop der jaren behoorlijk goed geworden, maar klinkt nog steeds houterig.
WaveNet gebruikt daarentegen machine learning om audio vanaf nul te genereren. Het analyseert de golfvormen uit een enorme database met menselijke spraak en creëert ze opnieuw met een snelheid van 24,000 samples per seconde. Het eindresultaat omvat stemmen met subtiliteiten zoals lippensmakkers en accenten. Toen Google WaveNet in 2016 voor het eerst onthulde, was het veel te rekenintensief om buiten onderzoeksomgevingen te werken, maar het is sindsdien aanzienlijk afgeslankt en toont een duidelijke pijplijn van onderzoek naar product.