chatbot conference 3 de diversiteit van het testen van chatbots

TESTEN

Bij het testen van een chatbot zijn er enerzijds functionele en enkele technische testen nodig. Daarnaast is de aansluiting bij de beleving van gebruikers van groot belang. In dit blog voeg ik beide samen tot één testaanpak.

FUNCTIONELE EN TECHNISCHE TESTEN

Ik weet nog goed hoe mijn eerste chatbot-testdag bij DELA verliep. De eerste stap was om gevoel te krijgen met de chatbot, door de ‘happy flow’ te testen. Dit was het opvragen van algemene productinformatie, dus nog zonder dat een klant hoeft in te loggen. Dit heb ik vervolgens uitgebreid naar de belangrijkste user stories, zoals het opvragen van de polisgegevens van de klant en het muteren van adresgegevens via de chatbot.

Gaandeweg ontstonden er meer testideeën; deels functioneel, maar ook technisch.
Uiteraard moet ook de onderliggende techniek getest worden, zoals de koppeling met de backend systemen. Daarnaast voerde ik timeout testen uit, testen op spelfouten en invoerfouten, testen van afgebroken gespreksflows, enzovoort.

Het resultaat was een grote set met verschillende soorten testen.

chatbot-conference-2-van-idee-naar-succes

TEST MET GEBRUIKERS

Het succes van chatbots is sterk afhankelijk van de ervaring van de gebruiker. Er zijn meerdere manieren om erachter te komen hoe je gebruiker over de chatbot denkt. Afhankelijk van het soort bedrijf, het soort chatbot en het budget kun je de juiste manier kiezen om deze informatie te krijgen.

De eenvoudigste manier –ook de meest bewerkelijke– is om de gebruikers te vragen wat ze ervan vonden, bijvoorbeeld via een interview. Daarbij zul je gestandaardiseerde vragen stellen (kwantitatief), maar ook ruimte laten om vrij een mening te geven (kwalitatief). Niet iedereen is even comfortabel om vroeg in het proces ‘echte’ klanten te betrekken, waardoor regelmatig de klantenservice wordt ingeschakeld voor deze test. Het is toch heel nuttig en zeker aan te raden om je open te stellen voor de feedback van klanten, niet in de laatste plaats omdat klanten dat als heel positief ervaren.

Meerdere organisaties kijken live mee terwijl de gebruiker de chatbot gebruikt. Tijdens een sessie bij VGZ over chatbots bleek dat ze dit expliciet testen in een UX lab. Ook in een presentatie van KPN op de Chatbot Conference werd deze vorm van testen aangehaald.

Om objectieve cijfers te verzamelen, kun je de logging bekijken nadat de testklanten de chatbot hebben getest. Zo kun je zien waar men lang over nadenkt, onverwachte acties uitvoert of zelfs afhaakt.
Een vierde variant is het AB testen: test twee antwoordvarianten en meet na afloop de tevredenheid. Dit kun je doen bij bewoordingen, zoals stijl, aanspreekvorm en aantal woorden. Succes meet je dan het liefst via ‘conversie’, ofwel; hoeveel mensen klikken uiteindelijk daadwerkelijk op de link.
Een andere vorm van AB testen is het live brengen van twee chatbots. Dit klinkt heel complex en duur, maar voor grotere bedrijven kan dit de moeite en de kosten waard zijn. Er zijn zoveel technieken en varianten (zie ook weer het eerste blog) en zomaar de eerste optie kiezen kan uiteindelijk veel geld kosten.

LEREN VAN GEBRUIK

Je kunt ervoor kiezen om niet te testen en gebruikersfeedback te verzamelen. Of dit écht een optie is, hangt natuurlijk weer van de situatie af. Het nadeel hiervan is dat vaker gereageerd wordt als het NIET goed is. Op zich kun je daarvan leren, maar geeft je niet altijd een objectief beeld van de werkelijke waardering.

Feedbackvragen
Om een beter beeld te krijgen, zou je ook weer kunnen experimenteren met de feedbackvragen. Bijvoorbeeld door niet alleen te vragen ‘bent u geholpen’, maar te laten kiezen uit een aantal gevoelens. Blij, neutraal, boos, maar ook verbaasd of geïnteresseerd. Meer detailinformatie is misschien te halen uit de logging. Je kunt uit logging vrij objectief trends afleiden, maar je mist dan wel de uiteindelijke mening die de gebruiker hierover had.
Test de bewoordingen
Er zijn heel wat testen te bedenken over bewoording. Een leuke test is de ‘one breath test’, om te bepalen of een zin te lang is. De kunst is namelijk om voldoende informatie te geven, op een duidelijke manier en in eenvoudige bewoording, in een minimaal aantal woorden. Dit wordt ‘microcopy’ genoemd.
Test de foutafhandeling
Een chatbot zal zeker niet altijd de juiste antwoorden geven op de vragen die de klant stelt. Het is heel belangrijk om daarop voorbereid te zijn. Zoals één van de sprekers, Ben Sauer, het noemde: ‘fail gracefully’. Eerder schreef Cassy Kozyrkov een blog over dit onderwerp; zij noemde het ‘safety nets’. Bijvoorbeeld het inbouwen van regels die de meest ongewenste woorden afvangt, of een bepaald minimaal matchpercentage van het antwoord voordat je het gebruikt. Ook hier kun je testgevallen voor opstellen.

Genoeg testen om te overwegen! En er is niet één beste testaanpak. Het is –zoals iedere testaanpak– afhankelijk van de situatie en daardoor iets om goed over na te denken. Helaas bleek bij de Chatbot Conference dat niemand nog standaard een test consultant aan het team toevoegt, terwijl iedereen aangeeft dat testen heel belangrijk is. Tijd voor ons –de testcommunity– om dit te doorbreken.

Hopelijk helpt dit blog daarbij!

Benieuwd hoe je AI toevoegt aan een chatbot en deze AI goed test? Lees het extra blog!