We kennen allemaal de monotoon uitgesproken boodschappen door computers. Dit is snel verleden tijd door nieuwe spraaktechnologie.
Door computers samengevoegde en uitgesproken tekst (‘speech synthesis technology’) is iets waar we dagelijks mee te maken hebben. Van een melding op ons navigatiesysteem als ‘sla over 300 meter rechtsaf’ tot aankondigingen op de werkvloer of in openbare gebouwen en gesproken antwoorden op Google-zoekopdrachten. Tot nu toe was de technologie alleen in staat de tekst hardop voor te lezen, op de monotone wijze die iedereen wel bekend zal voorkomen. Maar nu het aantal toepassingen ervan toeneemt is er behoefte ontstaan aan een uitspraak die passend is bij de boodschap.
Andere parameters
Een gesproken rondleiding in een museum is natuurlijk niet hetzelfde als de melding om een gebouw te evacueren. En toch werden boodschappen tot nu toe telkens op dezelfde manier afgespeeld. Fujitsu heeft nu een nieuwe technologie ontwikkeld voor het samenvoegen van spraak, met een toon die past bij iedere situatie. Voorheen werd gebruik gemaakt van het grote hoeveelheden vooraf opgenomen audiobestanden, die gecombineerd werden om woorden te vormen. De Fujitsu-technologie voegt spraak samen met verschillende eigenschappen, zoals stemkwaliteit, intonaties en spraaksnelheid als parameters.
Het samenvoegen van spraak met tonen die passen bij de juiste situatie is mogelijk door verschil te maken tussen tonen. Bijvoorbeeld een stem die waarschuwt bij gevaar en die langzaam en dwingend spreekt, of een luide stem op de fabrieksvloer die ook boven het lawaai van machines uit helder verstaanbaar is. Door parameters anders toe te passen en algoritmes te gebruiken die gebruik maken van kunstmatige intelligentie zijn karakteristieken in spraak te onderscheiden. Het is nu tevens mogelijk de woorden dertig keer sneller samen te voegen dan voorheen.
Nieuwe toepassingen
Met de nieuwe spraaktechnologie kan bijvoorbeeld een systeem in een fabriek op verschillende manieren boodschappen uitspreken. Het systeem leest routinematige boodschappen op een rustige manier voor, terwijl bij dreigend gevaar een meer alarmerende toon wordt gebruikt. En afhankelijk van het omgevingsgeluid wordt de stem zo aangepast dat deze goed verstaanbaar is. De nieuwe spraaktechnologie kan overigens ook voor heel andere, bijvoorbeeld medische, toepassingen gebruikt worden. Wanneer iemand die bijvoorbeeld door een ziekte zijn stem kwijtraakt, kan deze door vooraf zijn spraak op te nemen blijven converseren in zijn eigen, samengevoegde, stemgeluid.