Your Planet Sustainable?Your Tribe Harmonious?Your Life Vibrant?
Future Proof Ideas since 2005, by Erwin van Lun

Spraaktechnologie weer iets echter

IBM research heeft een nieuwe patent geregistreerd waarbij spraaksynthese weer iets natuurlijker wordt. Luister naar een demo. Er worden automatiseerd kuchjes ingevoegd, en er wordt gestopt en random gepauzeerd. De verschillen zijn zo klein dat ze bijna niet zij op te merken. Volgens IBM zijn de stemmen bijna niet van echt te onderscheiden.

The voice is made even more convincing because it has been programmed to include verbal tics such as “ums”, “ers” and sighs.

Computer experts at IBM have invented the technology to be used on telephone helplines, satellite navigation systems and even on cameras or iPods.

It is so sophisticated that the devices will be able to pause for effect or cough to attract the users’ attention, spelling an end to the irritating monotone voices that have become a part of everyday modern life.

Andy Aaron, of IBM’s Thomas J Watson research group speech team, said: “These sounds can be incredibly subtle, even unnoticeable, but have a profound psychological effect. It can be extremely reassuring to have a more attentive-sounding voice.

“When you are on the telephone on an automated service helping you fix your computer or buy insurance, this could make the difference between being a happy customer or hanging up and cancelling a service.”

The new technology, called “generating paralinguistic phenomena via markup in text-to-speech syntheses”, has only recently been patented.

Mr Aaron said: “We are almost at the point where the voice is indistinguishable from a human, but that is not our goal. We don’t want to fool anybody.”

The software will even be able to react to a situation, telling us to “shhh” if they are being interrupted or coughing to gain attention.

It will also include an algorithm that can “learn” to add expressions at the correct point in a sentence.

Mark Gretton, from the satellite navigation manufacturer TomTom, said: “There is definitely scope for using non-word prompts to remind stressed-out drivers to take a turn, or simply pay more attention.”

Future Vision by Erwin Van Lun on this article

Beeldsynthese en spraaksynthese zijn de gemakkelijkste onderdelen bij het nabouwen van kunstmatig leven in een virtuele wereld. Het herkennen van objecten, mensen, dieren is wat complexer en ook hierin zijn volop betekenissen. Het kunnen begrijpen van complexe menselijke communicatie en de abstracte concepten waarover wij praten, dat is nog een hele stap verder. Nog heel veel stappen verder. Maar ook komt. Als we dit eenmaal goed begrijpen, kunnen we geautmatiseerd in welke taal, in welk accent dan ook praten over de meest ingewikkelde onderwerpen. Dat komt. Het komt.

Related trends

Related postings

Archive

Twitter
RSS