Sinds ChatGPT en generatieve AI hun intrede maakten, wordt het gebruik van slimme taaltechnologie omarmd door de bedrijfswereld. De golf aan nieuwe mogelijkheden gaat vooralsnog echter niet gepaard met een collectief bewustzijn over de sociale en maatschappelijke implicaties van dergelijke technologieën. “Meer data is niet noodzakelijk altijd beter”, stellen onderzoekers van de UGent.
Natural language processing (NLP) en large language models (LLM), daar draait het om bij generatieve AI. Deze baanbrekende technologische innovaties zullen een bijzonder grote impact hebben. Bij de onderzoeksgroep Language and Translation Technology van de UGent gaf het aanleiding tot het schrijven van het eerste Nederlandstalige overzichtswerk over deze technologie: ‘Taaltechnologie ontrafeld: hoe taal en technologie hand in hand gaan’. De auteurs en onderzoekers willen met het boek taaltechnologie toegankelijk maken voor een breed publiek door uit te leggen hoe het systeem werkt, welke toepassingen er bestaan, waarom deze slimme technologieën niet meer zullen verdwijnen uit onze leefwereld en wat de gevolgen zijn voor de samenleving.
“Je kan er niet omheen dat er – ondanks de sterk groeiende aandacht – bij de brede bevolking nog maar weinig inzicht is in wat er onder de motorkap zit van deze technologieën. Dat was de reden waarom we het boek bewust voor een breed publiek wilden schrijven”, vertelt Veronique Hoste, redacteur en professor taaltechnologie aan de UGent. “Men beseft vooral niet hoeveel data hierachter schuilgaat. En hoe je in feite in interactie gaat met de technologie als je die gebruikt”, vult redacteur en postdoctoraal onderzoekster Cynthia Van Hee aan. “Uiteraard hoeft ook niet iedereen alle technische aspecten van deze technologie te begrijpen, maar het is volgens ons toch belangrijk dat er een basiskennis aanwezig is.”
Zeker wanneer bedrijven artificiële intelligentie gaan implementeren in hun bedrijfsvoering, is het van belang dat men zich bewust is van de implicaties. “Denk bijvoorbeeld aan het laten screenen van cv’s door slimme taalmodellen. Dat kan een grote tijdswinst opleveren, maar de bias of vooringenomenheid die in die modellen zit, kan zo ook een invloed hebben op belangrijke beslissingen. Dat moet je als bedrijf goed beseffen”, gaat Hoste verder.
Een meer fundamenteel probleem is het grote gebrek aan transparantie. “Eigenlijk functioneren NLP-systemen vandaag als een grote black box: je weet niet exact hoe ze beslissingen nemen. Dat is problematisch. De onderzoekswereld besteedt er wel veel aandacht aan, al stellen we vast dat de huidige methodologieën om die systemen transparant te maken, voorlopig tekortschieten”, verduidelijkt Van Hee. “Nieuwe regelgeving, die vandaag volop wordt ontwikkeld, moet hier zeker aandacht voor hebben zodat ook commerciële toepassingen transparanter kunnen worden.”
Een andere problematische component van slimme taaltechnologie, die tot op heden relatief weinig belicht wordt, is de grote ecologische voetafdruk. In een tijd waarin klimaatimpact – zeker bij bedrijven – de marsrichting mee bepaalt, is dat op zijn minst opvallend. Veronique Hoste: “De klimaatimpact van een vraag die wordt gesteld aan ChatGPT, is ongeveer 10 keer hoger dan een klassieke zoekopdracht in Google. Sommigen gaan zelfs uit van een energieverbruik dat tot 25 keer hoger ligt, door de grote hoeveelheden energie die nodig zijn om de technologie te trainen, maar evengoed de vele natuurlijke materialen die nodig zijn om deze systemen te bouwen. Dat is iets waar nauwelijks iemand lijkt bij stil te staan. Daarom proberen we zoveel mogelijk op deze nagel te kloppen.”
Het boek geldt dus niet alleen als een naslagwerk over taaltechnologie, het is tevens een oproep om kritisch te durven kijken naar de werking en vooral de maatschappelijke implicaties van het gebruik van dergelijke technologieën. “Dat is een collectieve oefening en de enige manier om ze duurzaam maatschappelijk te verankeren”, gaat Hoste verder. “Als voorbeeld vertellen we in het boek het verhaal van Tessa, de chatbot van NEDA, een Amerikaanse organisatie die zich inzet voor het voorkomen van eetstoornissen. Na een update maakte het systeem, dat voorheen goed werkte, gebruik van generatieve AI om de antwoorden te formuleren. Niet veel later moest die offline worden gehaald omdat de chatbot foutieve en gevaarlijke adviezen bleek te geven, zoals tips om af te vallen. Dit voorval toont aan dat meer data en sterkere technologie inzetten daarom niet altijd beter is en duidt op het belang van een collectieve bewustwording rond technologie, die reeds start in het basisonderwijs.”
Algemeen wordt er door technologieontwikkelaars dus nog te vaak geredeneerd vanuit een soort bewijsdrang en te weinig vanuit een reflectie over de wenselijkheid van bepaalde nieuwe slimme taaltechnologieën. “Nieuwe LLM’s die vandaag op de wereld worden losgelaten, zijn in regel altijd getraind met nog meer data, terwijl dat niet noodzakelijk beter is voor de bedrijven die ze gaan inzetten. In de praktijk zien we namelijk dat kleinere taalmodellen, getraind op contextspecifieke datasets, vaak net performanter kunnen zijn. Daarom moeten we ijveren voor meer hybride systemen, in plaats van steeds meer data. Niet in het minst als je de milieukosten van al die grote taalmodellen erbij rekent”, besluiten de onderzoeksters in koor.