Chatbots zijn hot and happening: thuis, op school en op werk. De Big Tech-bedrijven in Silicon Valley proberen maximaal van deze populariteit te profiteren door hun chatbots continu te optimaliseren. Chatbots zijn daardoor in toenemende mate in staat om de productiviteit op werk te verhogen. In deze blog testen wij welke chatbot anno 2024 het best kan worden gebruikt op de werkvloer. De strijd wordt aangegaan tussen de meest populaire chatbots van 2024: OpenAI’s ChatGPT-4, Google Bard en Microsoft Copilot. De Microsoft Copilot, die in deze blog getest wordt, is de chatbot (in de Microsoft Edge browser of via de Copilot app) die voorheen Bing Chat werd genoemd. Dit is een andere tool dan de multifunctionele tool voor Office 365 Enterprise of Copilot Studio.
De tools in deze test moeten reageren op identieke vragen. Hun antwoorden worden beoordeeld op vorm en inhoud.
Chatbots zijn gebaseerd op grote taalmodellen (LLM’s), die als het ‘brein’ van de chatbot te zien zijn. De chatbots zelf functioneren als de oren en de mond, die vragen van gebruikers doorsturen naar het brein en antwoorden in natuurlijke taal produceren. Het brein van Google Bard is Google’s eigen taalmodel, Palm 2. Copilot en ChatGPT-4 maken na een deal tussen Microsoft en OpenAI gebruik van hetzelfde taalmodel, namelijk GPT-4. Toch zijn de twee chatbots niet hetzelfde. Dit komt doordat Microsoft aanpassingen heeft doorgevoerd, zoals nieuwe filters voor contentmoderatie. Hierdoor zijn zowel de oren als de mond van Copilot anders dan die van ChatGPT-4, en worden gebruikersvragen anders geïnterpreteerd en antwoorden anders geformuleerd. Laten we kijken welke gevolgen dat heeft op onze test.
Chatbots hebben er een handje van om vol zelfvertrouwen onware informatie te produceren. Die informatie zie je liever niet in je documenten terug. Daarom werden de chatbots getest op inhoudelijke kennis van zaken. Als eerst werd hun juridische kennis op de proef gesteld. Ze moesten beantwoorden welke twee mogelijkheden een burger heeft wanneer een bestuursorgaan een beslistermijn overschrijdt, en de relevante wetsartikelen noemen. Het modelantwoord op die vraag is:
ChatGPT-4 reageerde als een ware insecure overachiever, die al maanden voor het tentamen heeft zitten blokken. Het antwoord was uitgebreid en kwam vrijwel exact overeen met modelantwoord, behoudens toevoeging van de wetsartikelen 8:1 en 7:1 lid 1 sub f. 9/10
Volgens Bard kan een burger een ingebrekestelling sturen (op basis van artikelen 4:13 en 4:14 Awb), of direct bezwaar maken bij het bestuursorgaan op basis van artikel 6:1 en 7:1 Awb. Artikelen 4:13 en 4:14 zijn wel relevant, maar gaan niet over ingebrekestellingen. Ook miste Bard dat bezwaar een onnodige eerste stap is bij een tijdsoverschrijding van een bestuursorgaan. 5/10
Copilot gaf net als ChatGPT-4 een inhoudelijk vrijwel perfect antwoord, maar was iets minder uitgebreid in de uitleg. 8/10
Deze keer werden de chatbots gevraagd in Python het spelletje ‘Pong’ te programmeren. De code van ChatGPT-4 leverde een spelletje op waarmee met de pijltjestoetsen tegen de computer kon worden gespeeld. Ondanks dat de computer compleet onverslaanbaar was, was dit vrij indrukwekkend. 8/10
Google Bard kwam razendsnel met een code. Even razendsnel was het balletje dat door de computer werd afgevuurd naar de speler. Alle pogingen om het balletje alsnog terug te kaatsen mislukten. Het batje kon namelijk niet worden bestuurd. Dat is toch wel essentieel bij Pong. 4/10
Copilot moest heel lang nadenken maar kwam uiteindelijk met een multiplayer variant, waarbij je Pong met een vriend zou kunnen spelen. Een leukere versie dan de solo-versie van ChatGPT-4, maar een punt aftrek omdat Copilot hier 5 minuten langer over na moest denken. 8/10
De chatbots werden gevraagd een willekeurig artikel op NU.nl samen te vatten. Het artikel had 269 woorden en ging over de plannen van het COA om het aantal asielzoekers in Ten Apel te verminderen.
ChatGPT-4 kortte de tekst in tot één paragraaf met 108 woorden. Dit deed ChatGPT-4 heel knap, zonder essentiële informatie weg te laten en zonder informatie toe te voegen. Ook volgden de zinnen elkaar logisch op. 9/10
Bard hanteerde een heel duidelijke opbouw, waardoor de situatie in Ten Apel zelfs beter kon worden begrepen dan door de originele tekst te lezen. Dit ging wel ten koste van de beknoptheid: met 296 woorden was de samenvatting langer dan de oorspronkelijke tekst. Ook plaatste Bard vraagtekens bij de haalbaarheid van de plannen van COA, terwijl dat niet direct uit de tekst bleek. Een samenvatting moet objectief zijn. 5/10
De samenvatting van Copilot had 235 woorden en bestond alleen uit bullet points. Er was geen heldere opbouw te herkennen. Het stuk las meer als een herschrijving dan als een samenvatting van de originele tekst. Ook wordt een punt afgetrokken omdat er maar 2000 karakters kunnen worden ingevoerd, waardoor Copilot niet kan worden gebruikt om lange teksten samen te vatten. 4/10
Voor dit vraagstuk werd gezocht naar uitdagende Calculusvragen en antwoorden. Eén van de vragen was om de ‘Laplaciaan’ van de functie f(x, y) = x² + 2xy + y² te berekenen. Het antwoord op die vraag is ‘4’. ChatGPT-4 kwam tot het juiste antwoord door gebruik te maken van een helder stappenplan, maar zonder een wiskundige onderbouwing te geven. Bard kwam ook tot het juiste antwoord, mét wiskundige onderbouwing maar zonder stappenplan. Zowel GPT als Bard krijgen een 9/10 voor dit antwoord. Copilot klonk vol zelfvertrouwen, en kwam na een ogenschijnlijk overtuigende analyse uit op ‘8’. Dat is fout. 2/10
Chatbots kunnen handige tools zijn om outlines te schrijven voor projecten. De chatbots werden gevraagd om een outline te schrijven voor een artikel over de gevaren van AI in de samenleving.
ChatGPT-4 kwam met een inleiding en een conclusie en werkte deze heel uitgebreid uit. In het middenstuk werden 6 verschillende gevaren van AI aangekaart, die werden onderbouwd met voldoende voorbeelden. 9/10
Bard kwam met een outline die bestond uit een inleiding, een middenstuk met 3 brede categorieën van mogelijke gevaren en een conclusie waar de ‘maatregelen’ moesten worden behandeld. De verschillende onderdelen hadden wel een stuk uitgebreider gekund. Een conclusie moet bijvoorbeeld ook reflecteren op de tekst. 7/10
Copilot kwam niet met suggesties voor een inleiding of conclusie, maar alleen met 4 mogelijke onderwerpen voor het middenstuk. Die onderwerpen werden allen met slechts één voorbeeld onderbouwd. 4/10
Ten slotte werd de creativiteit van de chatbots op de proef gesteld, door ze te vragen naar de leukste grap die ze in huis hadden. Dat kan nuttig zijn voor als je je baas een keer flink aan het lachen wil brengen tijdens de borrel. De kans lijkt echter groter dat je door deze grappen op staande voet wordt ontslagen:
“Wat zei de nul tegen de acht? "Mooie riem!" (ChatGPT-4)
“Waarom kan een uil niet zwaaien? Omdat hij geen armen heeft!” (Bard)
“Wat is het toppunt van geduld? Een ui schillen met wanten aan!” (Copilot)
Tja…
In deze blog werd onderzocht welke chatbot het beste kan worden ingezet tijdens werkuren. Daarbij kwam de wat langzamere Microsoft Copilot (voorheen Bing Chat) met een gemiddelde score van 5,2 op onze testvragen het slechtst uit de bus. Google Bard scoorde met een gemiddelde van 6,0 iets beter, maar was wel verreweg het snelst. ChatGPT-4 kwam in vrijwel alle tests als best naar voren, met een uitstekend gemiddelde van een 8,8. Eén kanttekening bij GPT-4: er hangt wel een prijskaartje van 20 euro per maand aan.
Wil je op een goede en verantwoorde manier omgaan met de mogelijkheden van Microsoft Copilot, dan adviseren wij om Copilot Studio te gebruiken. Dit is ook de omgeving waarin onze AI-kennisassistent Luka is opgezet. Het voordeel hiervan is dat de gegevens binnen de eigen omgeving blijven en de bot naar eigen inzicht en op basis van eigen bronnen is in te richten. Daarnaast is het met Copilot Studio mogelijk om workflows in te stellen die verschillen onderdelen van Microsoft met elkaar laat communiceren.
Ontmoet Luka Bytefield, onze AI-assistent in CoPilot Studio van Microsoft. Luka is getraind met zorgvuldig geselecteerde informatie, inclusief onze handboeken, om privacyprofessionals te helpen met vragen en DPIA's.
We bieden ook op maat gemaakte AI-kennisassistenten aan, die zijn ontwikkeld op basis van de gegevens van jouw organisatie en aangepast aan jouw specifieke behoeften en wensen.
Meld je nu aan voor één van de nieuwsbrieven van ICTRecht en blijf op de hoogte van onderwerpen zoals AI, contracteren, informatiebeveiliging, e-commerce, privacy, zorg & ICT en overheid.