Timing in voicebots


Is jouw voicebot performant of ervaar je een gesprek als een trage satellietverbinding? In dat geval is het goed om eens de timing van de voicebot te optimaliseren. Met timing van de voicebot bedoelen we o.a. de reactiesnelheid, spreeksnelheid en rust tussen zinnen.

Timing in voicebots

Reactiesnelheid houdt rolverdeling in stand

Timing is in een gesproken dialoog essentieel. Bij een gesprek waar een lange stilte valt voordat de ander reageert of kan reageren (denk aan de satellietverbinding), kan snel de twijfel doen toeslaan of de boodschap is ontvangen of wie aan het spreken is. Ontstaan er kruisende berichten dan is de rolverdeling in een gesprek zoek en niet makkelijk snel te repareren. Dit wordt nog lastiger als je elkaar niet kan zien. Voor voicebots is het belangrijk voldoende snel te reageren na een gestelde vraag. Binnen Botprof streven we er altijd naar binnen 150ms - 200ms een reactie te vinden op een gestelde vraag. Niet alleen voelt een gesprek zo vlot aan, het neemt twijfel weg over de rolverdeling in een gesprek. Daarbij moet je altijd rekening houden met de kwaliteit van de internetverbinding van de gebruiker. Een mobiele 3G gebruiker kan een hogere latency ervaren dan iemand op een kantoor internetverbinding.

Rust gaat samen met begrip

Tijdens het spreken is rust net zo belangrijk. De rust die we nemen tussen zinnen helpt de ander een gesprek beter te begrijpen. Immers geven we de ander zijn/haar hersenen daarmee even de tijd het wat gezegd is te verwerken en kunnen we zelf ook ademhalen. In Botprof noemen wij dit ook wel de digitale ademhaling; Een bewust toegevoegde pauze tussen zinnen die de gesproken boodschap duidelijker overbrengt omdat de ander deze kan verwerken. Maar wacht daarmee zeker niet te lang; In de praktijk zien we dat na 1,5 seconden de twijfel al kan doen toeslaan of de ander is uitgesproken of nog een zin volgt. En bij voicebots kan je nog niet door elkaar praten.

Optimalisatie

Het optimaliseren van performance en timing van een voicebot is essentieel voor een goede gebruikerservaring. Dit optimaliseren van de performance doen we niet alleen voor de gebruiker maar ook voor onze eigen systemen. Hoe efficiënter de systemen zijn in het vinden van antwoorden, hoe minder resources (zoals serverkosten) nodig zijn voor het operationeel beheer van de voicebot. Verder willen we dat bij een plotselinge toename van het aantal gebruikers, de snelheid van de voicebot niet negatief wordt beïnvloed.

Timing is geen exacte wetenschap en kan afhankelijk zijn van de doelgroep, persona en use-case. Zo kan je voorstellen dat voor jonge kinderen of ouderen een rustiger spreektempo een betere ervaring geeft. Timing kan zelfs per persoon verschillen. Of misschien wil je een terugkerende gebruiker een vlottere ervaring geven, terwijl je een eerste gebruiker wat meer en rustiger uitleg geeft. Dankzij Auto-SSML hebben we in Botprof veel controle over de timing van de gesproken dialoog en kunnen we deze dynamisch aanpassen per bot, doelgroep of zelfs per gesprek.

Voor onze quiz van De slimste mens die we ontwikkelden voor KRO-NCRV, is de bot geoptimaliseerd op snelheid en getest op piekbelasting. Met een Tv-programma van meer dan 2 miljoen kijkers kunnen in korte tijd veel bezoekers de voice action gaan gebruiken. Ook al krijgt de voicebot 50 vragen in dezelfde seconde, dan wil je niet dat dit de ervaring van de quiz negatief beïnvloed. Een quiz moet altijd vlot aanvoelen.

Timing in chatbots

Voor chatbots, ofwel voor getypte dialoog, is timing net zo belangrijk. Voor een getypte dialoog gelden andere regels dan voor voice en in dit geval speelt de leessnelheid van de gebruiker een belangrijke rol. Geef je direct 5 gespreksballonnen terug nadat de gebruiker zijn entertoets heeft losgelaten dan wordt dit doorgaans als te vlug en onnatuurlijk ervaren. Ondanks dat de computer het antwoord al lang heeft, moeten gespreksballonnen liever op een behapbare snelheid een gebruiker tegemoetkomen. Binnen Botprof passen we hiervoor een dynamisch timingsmodel toe; De snelheid van een gesprekballon hangt af van de hoeveelheid tekst waarmee een natuurlijkere simulatie plaatsvindt van de typsnelheid van een menselijke gebruiker.

Geplaatst 08-2022 in Conversational AI