Hoe Zuiver.ai werkt

Hoe ‘normale’ AI wordt opgespoord is geen geheim. Een detector vergelijkt de ingeleverde tekst met een gigantische database en speurt het internet af naar overeenkomsten. Op deze manier slaat de detector aan wanneer een tekst overeenkomt, en kunnen leerlingen niet meer wegkomen met simpelweg ‘copy-pasten’.

Bij AI-gegenereerde teksten is de detectie niet zo eenvoudig. Een gegenereerde tekst is niet zomaar op het internet te vinden, aangezien deze uniek wordt gegenereerd. Zelfs als je precies dezelfde prompt invoert, krijg je vaak een compleet ander resultaat. Dit maakt de detectie van AI een stuk complexer dan het zoeken naar overeenkomsten op het internet.

Toch lukt het Zuiver.ai om AI-gegenereerde tekst met 99,99% nauwkeurigheid te herkennen in meer dan 85% van de gevallen. Om uit te leggen hoe we dat doen, is het belangrijk om te begrijpen hoe een AI-gegenereerde tekst wordt gemaakt.


Teksten genereren

AI schrijft door steeds het meest waarschijnlijke volgende woord te kiezen op basis van het vorige woord. Stel je voor dat je een zin begint met:

"Ik ga naar de..."

De kans is groot dat een AI iets als "winkel", "school" of "bioscoop" kiest, omdat die woorden statistisch gezien vaak voorkomen. Compleet onverwachte woorden zul je niet gauw tegenkomen, zoals bijvoorbeeld "walvissenopvang" of "maan". Dit is een simpel voorbeeld, maar het laat goed zien hoe AI zijn zinnen zo vloeiend maakt. Mensen daarentegen zijn juist heel onvoorspelbaar in hun woordkeuzes.

Natuurlijk zal een mens in het "Ik ga naar de..."-voorbeeld vaak ook het meest voor de hand liggende woord kiezen. Daarom werkt AI-detectie niet door losse woorden te analyseren. Een mens maakt hier en daar de meest voorspelbare keuze, maar een AI kiest woord na woord, steeds de statistisch beste optie. Dat zorgt ervoor dat na een paar zinnen een tekst té perfect wordt, té vloeiend en uiteindelijk onmenselijk voorspelbaar.

En precies dát voorspelbare patroon herkennen wij met ons zelfontwikkelde en getrainde model. Zo weten we wanneer een tekst niet door een mens, maar door AI is geschreven!


Onze oplossing

We beoordelen korte stukken uit een document om te bepalen of ze door AI zijn geschreven met behulp van een ensemblemodel. Dit model bestaat uit twee delen: een taalmodel dat elk woord vergelijkt met zijn verwachtingen en een supervised classifier als extra controle. De gecombineerde score van deze modellen voor elk tekstfragment wordt vergeleken met een drempelwaarde, vastgesteld op basis van een dataset van 46.382 teksten. Ligt de score boven deze drempel, dan beoordelen we de tekst als AI-gegenereerd.

Op onze interne dataset, bestaande uit bijna 50.000 teksten van scholieren van alle niveaus, detecteert Zuiver.ai meer dan 85% van de AI-gegenereerde teksten. Dit doen wij met een zeer hoge zekerheid: in onze dataset werd geen enkele menselijke tekst aangezien voor AI.