Spraakherkenning: de toekomst aan het woord

Het nieuwe tijdperk van spraakherkenning

Audi Magazine

Met uw ogen op de weg gericht vraagt u uw GPS om het dichtstbijzijnde tankstation te zoeken en de route te berekenen. Vervolgens zet u de muziek op pauze en dicteert u, nog steeds zonder het stuur los te laten, een bericht om uw aankomsttijd te bevestigen aan de persoon met wie u hebt afgesproken. De spraakinterface wordt de norm, en niet alleen in wagens. Achter deze technologieën zit veel artificiële intelligentie … en een beetje hulp uit België.

Het nieuwe tijdperk van spraakherkenning
Uw Audi luistert

Uw Audi luistert

Volgens een recent onderzoek door het grootste digitale marketingbureau van de Verenigde Staten is de wagen de plek waar we spraakherkenning het meest gebruiken. 52,8% van dit type opdrachten wordt tijdens het rijden gegeven, waarbij we voornamelijk een route zoeken, een bericht dicteren, iemand bellen, de tijd checken en muziek afspelen.

Audi neemt uiteraard het voortouw bij deze nieuwe technologische ontwikkelingen. Spraakbesturing is aanwezig op alle modellen van het merk die zijn uitgerust met het Audi MMI systeem, met uitzondering van cabrio's. Hiermee kunt u het infotainmentsysteem rechtstreeks bedienen of zoekopdrachten via het navigatiesysteem uitvoeren. Deze spraakbesturing heeft ook een systeem om de stemherkenning te verbeteren. Ze is hiermee een voorbeeld van de vooruitgang op het vlak van artificiële intelligentie en wat bekend staat als NLP (Natural Language Processing), een van de meest populaire sectoren van het moderne ​​onderzoek.

Horen en begrijpen

Horen en begrijpen

Hoe werkt spraakherkenning? Voordat het systeem kan begrijpen, moet het luisteren en vervolgens leren. De eerste stap is het analyseren van de menselijke stem, om deze te kunnen omzetten in digitale informatie. De geluidsfrequenties worden vervolgens vertaald in tekst en uiteindelijk verwerkt door artificiële intelligentie. Hierdoor kan het ontvangende toestel ze integreren en op de juiste manier reageren.

Op het eerste zicht is een spraakherkenningssysteem 'dom'. Het knipt geluiden enkel op in akoestische vectoren, en laat deze verwerken door een machine. Pas in de Natural Language Understanding (NLU)-fase begint het na te denken, verschillende modellen te combineren – taal, uitspraak, fonetiek – en te leren.

Artificiële intelligentie is al in staat tot knappe prestaties op dit vlak, inclusief het omzetten van intonaties, maar ook het waarnemen of simuleren van aarzeling om een ​​meer natuurlijke indruk te geven. Zo heeft Google een applicatie ontwikkeld die in staat is om telefonisch een tafel in een restaurant of een hotelkamer te reserveren, zonder menselijke tussenkomst. Het wordt echter ingewikkeld wanneer u bijvoorbeeld van de ene taal naar de andere moet overschakelen. België is daarmee een schoolvoorbeeld voor artificiële intelligentie geworden.

Het Belgische model

Het Belgische model

Overschakelen van Frans naar Nederlands, dan naar Duits en vervolgens naar Engels. Spraakherkenningstoepassingen hebben hun handen vol in ons land. Maar de grootste uitdaging: voor- en achtervoegsels, die vaak gebruikt worden in het Nederlands. Voor artificiële intelligentie hebben de woorden 'klant' en 'klantje' bijvoorbeeld niets met elkaar te maken. Het bijna oneindig toevoegen van voor- of achtervoegsels past niet in de logica van NLP-methoden.

De Gentse start-up Radix pakte het probleem aan en wist dit op te lossen met een volledig nieuwe aanpak. Waar AI's gewend zijn te leren door te raden (als het ene woord dicht bij het andere staat, zijn de twee waarschijnlijk gerelateerd) en door context te gebruiken, is hun model in staat om elk woord terug te brengen tot een wolk van elementen en vervolgens de herkennings- en analysemethoden toe te passen op verschillende niveaus.

Dit betekent ook dat deze spraakherkenning makkelijk van de ene taal naar de andere overschakelt en zelfs verbanden weet te leggen tussen verschillende types woordenschat. Zo kan ze niet alleen zaken als “hottentottencircustentententoonstelling” identificeren (10 t's en 33 letters in één woord), maar ook raakvlakken vinden met tentoonstelling, expositie …

En morgen?

En morgen?

Volgens sommige studies zal in 2030 naar schatting 80% van de online zoekopdrachten naar informatie gesproken zijn. In de wagen natuurlijk, maar ook thuis met virtuele assistenten zoals Amazon Alexa* of Google Home. In 2020 waren dat er 4,2 miljard over de hele wereld. Een cijfer dat de komende twee jaar al zou kunnen verdubbelen, en op middellange termijn dat van de wereldbevolking kan overtreffen.

Uit deze evolutie zullen veel innovaties voortkomen. Spraakanalyses, die de leeftijd van een persoon of emoties kunnen bepalen via het stemgeluid, of mondelinge identificatiesystemen, om toegang tot een plaats te geven of indringers te detecteren, zullen zich zo verder verspreiden. Het genereren van natuurlijke taal is ook booming, in de nasleep het beroemde ChatGPT en andere tekstgeneratoren.

Het feit dat we de stem gebruiken om zoekopdrachten uit te voeren, zal tegelijkertijd de hele architectuur van trefwoorden en ons concept van internet veranderen. We hebben de neiging om meer woorden te gebruiken wanneer we een vraag mondeling stellen, dan wanneer we een schriftelijke vraag stellen. Hoe dan ook, uw Audi is al klaar om zich aan te passen aan deze evolutie en biedt u zelfs snelkoppelingen die spraakbesturing nog eenvoudiger maken. Spreek, en uw wagen luistert.

Misschien bent u ook geïnteresseerd in deze artikels

*
De Amazon Alexa-dienst is niet beschikbaar in België.