Hallucinatiepreventie bij AI in klantenservice begint met één regel: de agent mag alleen antwoorden op basis van wat hij kan ophalen, en moet zwijgen als dat niet lukt. Grounding, goed retrieval-ontwerp en de bereidheid om "ik weet het niet" te zeggen zijn effectiever dan welke modelupgrade dan ook. Dit artikel legt uit waarom supportagents hallucineren en wat je eraan kunt doen.
Wat is een AI-hallucinatie in klantenservice?
Een hallucinatie is wanneer de AI een antwoord genereert dat correct klinkt maar niet gebaseerd is op jouw daadwerkelijke content. Het kan een retourbeleid verzinnen dat niet bestaat, een levertijd noemen die je nooit hebt gepubliceerd, of vol overtuiging een productfeature fabriceren. Het antwoord leest goed. Het klopt alleen niet.
Bij algemene chatbots zijn hallucinaties vervelend. Bij klantenservice zijn ze een risico. Een fout antwoord over een retourtermijn of garantieclaim kan echt geld kosten en echt vertrouwen schaden. Anders dan een zoekmachine die "geen resultaten" toont, zal een taalmodel bijna altijd een antwoord produceren, ook als het daar geen basis voor heeft.
Het Vectara Hallucination Evaluation Framework testte topmodellen op 12.000 feitelijke vragen in 2026 en vond dat de beste modellen op minder dan 1% van de algemene kennisvragen hallucineren. Dat klinkt geruststellend, maar algemene benchmarks zijn jouw helpcentrum niet. Jouw productdetails, je prijzen, je beleid staan nergens in de trainingsdata van het model. Zonder grounding gokt het model op patronen, niet op feiten.
Waarom lost grounding alleen het probleem niet op?
Grounding verbindt het taalmodel met jouw daadwerkelijke content via retrieval-augmented generation (RAG). In plaats van antwoorden uit trainingsdata, antwoordt het model vanuit passages die zijn opgehaald uit je kennisbank. Dat is de juiste architectuur. Maar het is geen complete oplossing.
RAG-systemen kennen meerdere faalscenario's die ook met grounding tot hallucinaties leiden:
- Retrieval mist. De juiste passage staat in je content, maar de retrieval-stap vindt hem niet. Het model antwoordt dan vanuit wat het wél heeft gevonden, ook als dat slechts zijdelings gerelateerd is.
- Chunkgrensproblemen. Als je content op willekeurige punten wordt opgeknipt, kan een definitie in het ene chunk terechtkomen en de ondersteunende details in een ander. Het model ziet de helft en vult de rest aan.
- Conflicterende bronnen. Je FAQ zegt het ene. Je voorwaardenpagina zegt iets anders. Het model kiest er één, of erger, combineert beide tot iets wat geen van beide bronnen daadwerkelijk zegt.
- Overmatig vertrouwen op dunne bewijslast. Het model vindt één zin die gedeeltelijk gerelateerd is aan de vraag en bouwt er een hele alinea omheen, met context die niet uit de bron komt.
Onderzoek naar retrieval-systemen bevestigt dit patroon: retrieval-fouten leiden ertoe dat de generator "onvolledige antwoorden geeft, informatie fabriceert om gaten te vullen, of onnodig weigert." Grounding vermindert hallucinaties, maar elimineert ze niet.
Hoe ontwerp je content die retrieval daadwerkelijk kan gebruiken?
De grootste hefboom die je hebt is je kennisbank. De meeste helpcentra zijn geschreven voor mensen die context meebrengen die de pagina zelf niet bevat. Ze scannen, scrollen voorbij introducties en leiden betekenis af uit screenshots. Een AI-agent doet dat allemaal niet. Hij werkt met wat de retriever teruggeeft.
Content die hallucinaties voorkomt heeft een paar eigenschappen:
Eén vraag per artikel. Als een pagina drie verschillende onderwerpen behandelt, kan de retriever hem voor elk daarvan teruggeven, maar het model ziet alle drie en combineert ze mogelijk tot één antwoord. Splits de content zodat elk artikel één vraag helder beantwoordt.
Expliciete titels. "Aan de slag" zegt de retriever niets. "Hoe vraag ik een restitutie aan voor een Shopify-bestelling" zegt precies wat de pagina behandelt. Titels zijn het sterkste retrieval-signaal dat je hebt.
Geen verstopte antwoorden. Als het echte antwoord in alinea vier staat na drie alinea's introductie, zullen sommige retrieval-systemen de introductie teruggeven in plaats van het antwoord. Zet het antwoord vooraan.
Vermeld wat je niet ondersteunt. Als je geen telefonische support biedt, schrijf dat op. Als je retourtermijn 30 dagen is zonder uitzonderingen, schrijf "zonder uitzonderingen." Afwezige uitspraken zijn onzichtbaar voor retrieval. Het model kan niet vinden wat je nooit hebt geschreven.
Versie en dateer je content. Verouderde artikelen veroorzaken een specifiek type hallucinatie: technisch correcte antwoorden op een beleid dat zes maanden geleden is gewijzigd. Een verversingsschema doet ertoe. Als je prijzen in maart zijn veranderd, is het artikel van januari nu een hallucinatiebron.
We schreven een uitgebreide gids over het opbouwen van een kennisbank voor AI-supportagents als je dieper wilt gaan op structuur en onderhoud.
Wat is weigergedrag en waarom doet het ertoe?
Het meest onderschatte middel tegen hallucinaties is de agent leren om "ik weet het niet" te zeggen. In klantenservice is een zelfverzekerd fout antwoord altijd erger dan een eerlijk "ik weet het niet zeker, ik verbind je door met het team."
Weigergedrag betekent dat de agent expliciete regels heeft over wanneer hij niet moet antwoorden:
- Laag retrieval-vertrouwen. Als de retriever passages teruggeeft met lage gelijkenisscores, moet de agent geen antwoord proberen.
- Vragen buiten scope. Een klant die naar de prijzen van je concurrent vraagt of een juridische vraag stelt buiten jouw domein, moet een weigering triggeren, geen gok.
- Tegenstrijdig bewijs. Wanneer opgehaalde passages elkaar tegenspreken, moet de agent escaleren in plaats van bemiddelen.
Dit is waar de architectuur van je AI-agent ertoe doet. Een goed geconfigureerde agent behandelt stilte als een feature, niet als een fout. Hij weigert als het bewijs dun is en draagt over aan een mens via een schone overdracht in plaats van een antwoord te fabriceren.
Hoe test je op hallucinaties voordat ze klanten bereiken?
Je hebt een regressietestset nodig. Dit is een lijst met vragen gekoppeld aan verwachte antwoorden, afkomstig uit je daadwerkelijke content. Voer de testset regelmatig uit en controleer op:
- Verzonnen feiten. De agent noemt iets specifieks (een getal, een datum, een feature) dat niet in je content staat.
- Bronmismatch. De agent schrijft een antwoord toe aan het verkeerde artikel of combineert informatie van ongerelateerde pagina's.
- Verouderde antwoorden. De agent geeft een antwoord dat vorig kwartaal correct was maar nu niet meer.
- Zelfverzekerde weigeringen die geen weigeringen hadden moeten zijn. Het antwoord staat in je content, maar de agent zegt dat hij het niet weet. Dit is een retrieval-probleem, geen hallucinatie, maar het duikt op in dezelfde test.
Begin met 50 tot 100 vraag-antwoordparen over je meest voorkomende tickettypes. Breid de set uit telkens wanneer je een hallucinatie in productie vindt. Behandel de testset als levende documentatie.
Hoe Keloa hallucinatiepreventie aanpakt
De AI-agents van Keloa zijn uitsluitend gegrond in jouw content. Elk antwoord bevat een bronverwijzing naar de passage waarop het is gebaseerd, zodat je team kan verifiëren wat de agent zei en waar hij het vond. Wanneer de agent geen zeker antwoord kan vinden, weigert hij en draagt het gesprek over aan een mens in je unified inbox met de volledige context erbij.
De bronverwijzingsvereiste is niet decoratief. Het dwingt het retrieval-systeem om bewijs te produceren en het model om daarbinnen te blijven. Als er geen citeerbare passage is, is er geen antwoord. Die beperking is effectiever dan welke prompt-truc dan ook om hallucinaties uit klantgesprekken te houden.
Veelgestelde vragen
Wat veroorzaakt AI-hallucinaties in klantenservice? De meest voorkomende oorzaak is een kloof tussen wat de klant vraagt en wat de kennisbank bevat. Wanneer het retrieval-systeem geen sterke match kan vinden, vult het taalmodel de kloof met plausibel klinkende maar onbronvermelde content. Verouderde of tegenstrijdige artikelen dragen ook bij.
Kan RAG AI-hallucinaties volledig voorkomen? Nee. RAG vermindert hallucinaties aanzienlijk door antwoorden te gronden in opgehaalde content, maar retrieval-fouten, chunkgrensproblemen en conflicterende bronnen kunnen er nog steeds voor zorgen dat het model fabriceert of combineert. Weigergedrag en contentkwaliteit doen er net zoveel toe.
Hoe vaak moet ik de antwoorden van mijn AI-agent controleren? Wekelijks steekproeven is een goede basis voor een team met gemiddeld volume. Bekijk 20 tot 30 AI-afgehandelde gesprekken per week, met focus op onderwerpen waar je content dun is of recent bijgewerkt. Verhoog de frequentie tijdens productlanceringen of beleidswijzigingen.
Wat is het verschil tussen een hallucinatie en een fout antwoord? Een hallucinatie is een specifiek type fout antwoord waarbij het model content genereert die door geen enkele bron wordt ondersteund. Een fout antwoord kan voortkomen uit verouderde content, wat een contentprobleem is, geen modelprobleem. Beide moeten worden opgelost, maar via verschillende paden.
Moet ik de AI-agent laten zeggen "ik weet het niet"? Ja. Een goed geconfigureerde supportagent moet weigeren te antwoorden wanneer het retrieval-vertrouwen laag is. Klanten geven de voorkeur aan een eerlijk "ik weet het niet zeker, ik check het met het team" boven een zelfverzekerd fout antwoord. Combineer de weigering met een schone overdracht zodat de klant nooit zonder pad vooruit zit.