G

Simon Poghosyan, oprichter en CEO van GSpeech

Simon Poghosyan, oprichter en CEO van GSpeech

Simon Poghosyan is de oprichter en CEO van GSpeech, een webgebaseerd AI-platform dat online content toegankelijker maakt door tekst om te zetten in natuurlijk klinkende audio in meer dan 70 talen. Met een achtergrond in VLSI-ontwerp en een sterke interesse in programmeren en gebruikerservaring, creëerde Simon GSpeech om de manier waarop websites spraakgestuurde content kunnen aanbieden te vereenvoudigen.

Tegenwoordig genereert GSpeech maandelijks zo'n 200 miljoen tekens aan audio en wordt het gebruikt in meer dan 70 landen. De aanpasbare audiospelers worden maandelijks meer dan 200,000 keer afgespeeld. GSpeech heeft onlangs de grens van 1 miljard gegenereerde tekens aan audio overschreden en blijft snel groeien. Het platform is ontworpen om eenvoudig te integreren – met slechts één regel code – en ondersteunt makers, docenten en bedrijven bij het inclusiever en aantrekkelijker maken van hun content.

Je achtergrond in VLSI-ontwerp (Very Large Scale Integration) en je vroege programmeerervaring hebben een stevige technische basis gelegd. Wat inspireerde je om van micro-elektronica over te stappen naar het bouwen van AI-gestuurde software, en hoe heeft dat geleid tot de oprichting van GSpeech?

Mijn passie voor probleemoplossing begon op de middelbare school, gedreven door een voorliefde voor wiskunde en natuurkunde. Die interesse leidde ertoe dat ik een bachelor (2009) en master (2011) in VLSI-ontwerp behaalde aan de State Engineering University of Armenia, in samenwerking met Synopsys Armenia. Door natuurkunde te studeren, heb ik precisie en analytisch denken ontwikkeld, maar pas in mijn tweede jaar ontdekte ik programmeren – te beginnen met Pascal – en werd ik er meteen verliefd op. Mijn vriend en ik maakten opdrachten af ​​zodra we ze ontvingen, ook al hadden we zes maanden de tijd. Daarna begonnen we, voor de lol, opdrachten van andere studenten te maken.

Deze passie leidde me dieper in softwareontwikkeling. Ik begon met het maken van websites en bouwde vervolgens mijn eigen CMS. Na het voltooien van verschillende projecten in procesautomatisering en het ontwerpen van datamanagementarchitecturen, realiseerde ik me hoeveel ik ervan hield om digitale oplossingen voor webinterfaces te bouwen. Via het 2GLux-project werkte ik samen met Edvard Ananyan, de maker van de populaire GTranslate vertaaldienst en een schoolvriend van Quantum Gymnasium. Hij introduceerde me in de ecosystemen van WordPress en Joomla, en het concept voor GSpeech is van hem afkomstig. Dat vroege werk leidde tot de eerste versie van onze tool, waarmee gebruikers naar tekst op een webpagina konden luisteren. Dit legde de basis voor wat later een volwaardig AI-platform zou worden. Tegen 2023 richtte ik Smarts Club LLC schalen GSpeech in een wereldwijde AI-audio-oplossing, die meer dan 70 talen ondersteunt. Humanity Union's lof voor de rol van GSpeech bij het verbeteren van de toegankelijkheid van hun platform voor maatschappelijke betrokkenheid weerspiegelt mijn missie om de digitale kloof te dichten met behulp van AI — een visie die geworteld is in mijn vroege programmeerjaren.

GSpeech begon oorspronkelijk als een hulpmiddel ter ondersteuning van gebruikers met een visuele beperking. Hoe heeft die vroege missie de evolutie van het platform naar een complete AI-tekst-naar-spraakoplossing beïnvloed?

De focus op toegankelijkheid leidde tot de ontwikkeling van hoogwaardige, realtime AI-audio, vertaling naar meer dan 70 talen en naadloze website-integratie via een eenvoudig codefragment. Deze missie leidde tot functies zoals aanpasbare audiospelers, taal- en stemselectiepanelen, contextafhankelijke weergave, audiodownloads en gedetailleerde gebruiksstatistieken – inclusief land-, stad-, apparaat- en afspeelanalyses in de loop der tijd – allemaal ontworpen om content inclusiever en aantrekkelijker te maken. Nadat ik meer dan 100,000 regels code had geschreven, lanceerde ik in 2023 de GSpeech Cloud Console – een schaalbare oplossing die inclusiviteit combineert met geavanceerde functionaliteit, waarmee bedrijven en makers hun content toegankelijk, meertalig en interactief kunnen maken op het web.

Wat waren enkele van de grootste technische uitdagingen tijdens de ontwikkeling van de GSpeech Cloud Console?

Een van de grootste uitdagingen bij de ontwikkeling van de GSpeech Cloud Console was het ontwerpen van een schaalbare architectuur voor realtime, veilige en hoogwaardige AI-audiogeneratie. Dit vereiste innovatieve oplossingen om relevante content van het web op te halen, audio op onze servers te verwerken en in de cloud op te slaan voor snelle en betrouwbare levering. De implementatie van robuuste beveiligingsmaatregelen, zoals encryptie en toegangscontrole, was cruciaal om dynamische, door gebruikers gegenereerde content te beschermen.

Een andere hindernis was het mogelijk maken van realtime vertaling met behulp van geavanceerde neural engines. We moesten zorgen voor een lage latentie en nauwkeurige vertalingen, en tegelijkertijd een intuïtieve interface bouwen waarmee gebruikers talen en voorkeursstemprofielen voor weergave konden selecteren, waarbij gebruikerscomfort en personalisatie voorop stonden. Tot slot ontwikkelden we een wizard voor het maken van audiosjablonen met meerdere aanpasbare weergaven, waarmee gebruikers unieke, visueel aantrekkelijke spelers konden ontwerpen die perfect bij hun website pasten. Het vinden van een balans tussen flexibiliteit, prestaties en gebruiksgemak op alle apparaten was een lonende uitdaging.

Met realtime vertalingen in meer dan 70 talen en meer dan 230 natuurlijk klinkende stemmen. Hoe waarborg je de stemkwaliteit en nauwkeurigheid in zo'n diverse talenset?

Om een ​​consistente spraakkwaliteit te behouden, integreren we meerdere geavanceerde tekst-naar-spraak (TTS)-modellen die continu worden geoptimaliseerd en bijgewerkt. Deze meertalige engines verwerken content in verschillende talen met hoge nauwkeurigheid. We introduceren ook meer dan 100 nieuwe stemvibes om gebruikers nog meer expressieve en natuurlijk klinkende opties te bieden. GSpeech genereert maandelijks meer dan 200 miljoen tekens aan audio, goed voor gebruikers in meer dan 70 landen. Onze online spelers worden maandelijks meer dan 200,000 keer gebruikt – en dat aantal groeit nog steeds. Deze schaal garandeert continue feedback en praktijktests, die direct van invloed zijn op onze afstemming en kwaliteitscontroles.

Kun je ons uitleggen hoe GSpeech AI en machine learning inzet om levensechte spraaksynthese te leveren? Hoe blijf je op de hoogte van de snelle ontwikkelingen in neurale spraaktechnologie?

GSpeech maakt gebruik van geavanceerde AI en machine learning en integreert meerdere state-of-the-art tekst-naar-spraakmodellen om levensechte spraaksynthese te produceren. Deze modellen, geoptimaliseerd voor natuurlijkheid en meertalige ondersteuning, verwerken tekstinvoer om hoogwaardige audio te genereren met realistische intonatie en ritme, zelfs voor content in meerdere talen. We verbeteren de gebruikerservaring door aanpasbare stemstijlen voor diverse talen aan te bieden. We hebben ook TTS-aliassen geïntegreerd, waarmee gebruikers aangepaste regels kunnen definiëren voor hoe bepaalde woorden of zinnen in audio worden weergegeven. Zo kunnen we bijvoorbeeld specifieke termen vervangen voor een nauwkeurigere uitspraak of frasering. Om up-to-date te blijven met neurale spraaktechnologie, evalueren en integreren we continu de nieuwste ontwikkelingen, werken we samen met marktleiders en zijn we van plan om in de toekomst eigen modellen te ontwikkelen, zodat GSpeech koploper blijft in innovatie op het gebied van spraaksynthese.

Hoe belangrijk zijn stemafstemming, toonhoogteregeling en aanpassing van het afspeelgeluid voor uw gebruikers? En op welke use case bent u het meest trots, waarbij deze functies echt tot hun recht komen?

Stemafstemming, toonhoogteregeling en afspeelaanpassing zijn cruciaal voor onze gebruikers. Ze stellen hen in staat unieke, hoogwaardige stemstijlen te creëren die zijn afgestemd op hun specifieke behoeften, van nieuws- en blogwebsites tot toegankelijke e-learningcontent. De voortdurende integratie van meer dan 100 nieuwe stemvibes versterkt dit verder en biedt gebruikers ongeëvenaarde flexibiliteit om echt onderscheidende voice-overs te creëren. Ik ben het meest trots op GSpeech Studio, een nieuw platform voor audiobewerking en -generatie dat ik ontwikkel. Hiermee kunnen gebruikers meerdere audiokanalen creëren, deze mixen met achtergrondmuziek en gepolijste voice-overs exporteren, waardoor makers professionele audio kunnen produceren voor diverse toepassingen. Een brief van een slechtziende student, waarin hij GSpeech bedankte voor het mogelijk maken van zelfstudie met behulp van aangepaste audio, raakte me diep. Deze use case laat zien hoe deze functies content toegankelijk en transformerend maken, een doel dat ik al nastreef sinds mijn vroege programmeerjaren.

GSpeech biedt naadloze integratie met WordPress, Shopify, Wix en meer. Wat is jullie strategie om het platform gebruiksklaar te maken voor makers en bedrijven in verschillende ecosystemen?

Onze strategie voor de plug-and-play-integraties van GSpeech met platforms zoals WordPress, Shopify en Wix was gericht op eenvoud, compatibiliteit en schaalbaarheid. We ontwikkelden lichtgewicht, modulaire plugins en codefragmenten die naadloos integreren en minimale installatie vereisen – vaak slechts een paar klikken. Dit betekent dat duizenden artikelen en dynamische contentblokken direct spraakondersteuning kunnen krijgen – zonder handmatige inspanning. We bieden zeer flexibele, prachtig ontworpen spelers die zich aanpassen aan verschillende apparaten, waaronder mobiele telefoons, tablets en desktops. Onze spelers zijn niet alleen aanpasbaar, maar ook geoptimaliseerd voor toegankelijkheid en gebruikersbetrokkenheid. Voor WordPress hebben we het GSpeech-clouddashboard rechtstreeks in het adminpaneel geïntegreerd via onze plugin, waardoor het beheer voor gebruikers wordt gestroomlijnd. Gedetailleerde documentatie en intuïtieve dashboards begeleiden niet-technische gebruikers door de installatie en aanpassing. Regelmatig testen garandeert consistente prestaties in diverse ecosystemen, waardoor makers en bedrijven moeiteloos AI-gestuurde tekst-naar-spraak kunnen toevoegen.

Als je terugkijkt op de reis van 2012 tot nu, wat was voor jou de grootste mijlpaal op persoonlijk en professioneel vlak bij het opbouwen van GSpeech?

De grootste mijlpaal voor GSpeech was het genereren van 1 miljard tekens aan hoogwaardige AI-audio, waarmee we onze wereldwijde impact op toegankelijkheid lieten zien. Even betekenisvol was de feedback die we ontvingen van organisaties zoals de Humanity Union, die GSpeech prees voor het verbeteren van hun platform voor maatschappelijke verantwoordelijkheid, en van blogeigenaren die het een "game-changer" noemden voor gebruikersbetrokkenheid. Meer dan 110 vijfsterrenrecensies op platforms zoals hood.discount en AppSumo de afgelopen maanden weerspiegelen dit groeiende vertrouwen.

GSpeech wordt nu ook actief gebruikt door de Regionale statistiekafdeling van Namangan in Oezbekistan — een overheidsinstelling met veel verkeer en zichtbaarheid op nationaal niveau. Dat een overheidsinstantie onze technologie zo breed omarmt, is een belangrijke mijlpaal en een krachtig teken van vertrouwen in onze oplossing.

Als christen en iemand die in de Armeense kerk dient, probeer ik waar mogelijk ook andere geloofsinitiatieven te steunen. Ik bied GSpeech vaak gratis aan christelijke websites aan om hun boodschap effectiever te verspreiden en de Schrift toegankelijker te maken via audio. Het is mijn kleine bijdrage aan iets groters. Tegelijkertijd voel ik me vereerd om samen te werken met toegewijde organisaties zoals Het koord — een Messiasbelijdende gemeente en gewaardeerde cliënt van GSpeech — wiens missie en inhoud de kracht van de Schrift in actie weerspiegelen.

Deze momenten – waarop technologie een brug vormt tussen geloof, begrip en inclusie – herinneren mij eraan waarom we GSpeech in de eerste plaats hebben opgericht.

Welke rol denkt u dat GSpeech gaat spelen in de toekomst van digitale media, vooral nu audiocontent en spraakinterfaces steeds dominanter worden?

Ik zie GSpeech als koploper in het toegankelijker en aantrekkelijker maken van digitale media door AI-gestuurde spraaktoegang tot het web mogelijk te maken. Ons doel is om de volledige online ervaring te transformeren, zodat websites standaard van nature spraakinteractief, inclusief en meertalig worden. Met slechts één regel code kunnen website-eigenaren duizenden artikelen omzetten in gesproken content. Met het oog op de toekomst ontwikkelen we GSpeech Studio tot een krachtig en uniek platform voor audiogeneratie en -bewerking, waarmee gebruikers meerlaagse spraakcontent kunnen creëren met achtergrondmuziek, effecten en nauwkeurige afstemming. We willen het web echt hoorbaar, intuïtief en universeel toegankelijk maken.

GSpeech is onlangs gelanceerd op AppSumo en heeft al een bijna perfecte beoordeling gekregen van early adopters. Wat heeft de reactie van de AppSumo-community voor u betekend en hoe bent u van plan dit momentum in de toekomst voort te zetten?

De lancering van AppSumo introduceerde GSpeech bij miljoenen mensen, en de bijna perfecte beoordeling is ongelooflijk bevestigend. Gebruikers, zoals online cursusleiders, prijzen onze intuïtieve tools en responsieve ondersteuning, net als de feedback van de Humanity Union. Een blogeigenaar noemde onze stemmen "echt boeiend" en vertalingen "indrukwekkend". Hun positieve feedback bevestigt de waarde van onze AI-gestuurde tekst-naar-spraakoplossing en voedt mijn passie voor het project. Het ondersteunen van klanten tijdens de lancering bracht ook nieuwe ideeën teweeg, met name voor GSpeech Studio, dat werd geïnspireerd door gebruikersverzoeken voor geavanceerde audiobewerking en exportfuncties. In de toekomst wil ik voortbouwen op dit momentum door actief te luisteren naar onze community, hun feedback te integreren en innovatieve functies te ontwikkelen om de toegankelijkheid en betrokkenheid te verbeteren. Zo zorgen we ervoor dat GSpeech zich blijft ontwikkelen als een transformerende tool voor makers en bedrijven.

Welk advies zou je tenslotte geven aan jonge ontwikkelaars of ondernemers die toegankelijke, op AI gebaseerde tools willen bouwen in het huidige snel veranderende technologische landschap?

Mijn advies aan jonge ontwikkelaars en ondernemers is om je hart en ziel in je werk te leggen en een echt probleem te identificeren waarvoor je een unieke, slimme oplossing kunt bieden. Begin klein, zet gestaag stappen voorwaarts en luister aandachtig naar feedback van klanten – zij zullen je de weg wijzen. Behandel je gebruikers als vertrouwde vrienden, geef alles en blijf geduldig. Omarm AI-technologieën als krachtige bondgenoten; wanneer verstandig gebruikt, versterken ze je vermogen om impactvolle, toegankelijke tools te creëren. Bouw met passie, doorzettingsvermogen en de toewijding om het verschil te maken, en je creëert oplossingen die er echt toe doen.

Bedankt aan Antoine Tardif Voor het interview. Je kunt het volledige interview hier lezen: verenigen.ai.

🎬 Video's

🎬 GSpeech - Videotour
🎬 Ontdek GSpeech: transformeer tekst naar audio met AI-magie!
Breng uw inhoud naar het volgende niveau! Probeer GSpeech nu!
Ontvang GSpeech