De ontwikkelingen op het gebied van artificiële intelligentie volgen elkaar snel op en zijn amper bij te houden. Iedere dag lezen we over nieuwe technieken en AI-systemen en hoe deze de wereld gaan veranderen. In deze editie van de AI-nieuwsblog gaan we in op een specifiek thema: de opkomst van multimodale AI-modellen.
Het is nu alweer een jaar geleden sinds OpenAI ChatGPT wereldkundig heeft gemaakt en de wereld op zijn kop heeft gezet. Het is geen misvatting om te zeggen dat ChatGPT het startschot is geweest van een AI-race tussen de tech giganten om het meest krachtige en meest capabele AI-model op de markt te zetten. Deze race is nu, na een jaar, nog steeds in volle gang en neemt steeds weer creatieve vormen aan.
Voor lange tijd werd door AI-experts gedacht dat de manier om AI-modellen slimmer te maken kon worden gedaan door de modellen simpelweg groter en complexer te maken. Een AI-model is in de basis een zogenoemd ‘neuraal netwerk’ wat op vergelijkbare wijze werkt als het menselijk brein. De neuronen vormen een complex netwerk waarin ingewikkelde patronen kunnen worden herkend. Gaat het om een AI-taalmodel, dan ziet het neurale netwerk de ingewikkelde patronen, ideeën en concepten die in de menselijke taal te vinden zijn. Is het een AI-beeldmodel, dan gaat het om de vormen, contouren en stijlen van afbeeldingen. Hoe groter het AI-model, hoe meer patronen het kan zien en dus hoe beter het AI-model wordt. Dat is in ieder geval de theorie.
En in zekere mate klopt deze theorie ook wel. Iets minder dan een half jaar na de publicatie van ChatGPT bracht OpenAI het nieuwe basismodel ‘GPT-4’ uit. Dit model was de opvolger van het onderliggende basismodel van ChatGPT en was vele malen groter – en daardoor slimmer – dan wat eraan voorafging. Het eerdere GPT-3.5 taalmodel bestond uit 175 miljard zogenoemde parameters, een meetlat van de hoeveelheid neuronen waaruit een AI-model bestaat. Het nieuwere GPT-4 model bestaat waarschijnlijk uit meer dan 1500 miljard parameters, dus een verveelvoudiging van meer dan 8 keer groter. Het nieuwere model was overduidelijk een heel stuk slimmer en capabeler dan diens voorganger en heeft lange tijd de kroon weten te behouden voor het meest krachtige AI-model.
Tegelijkertijd kleven er nadelen aan deze benadering. Hoe groter een AI-model, hoe krachtiger de hardware moet zijn waarop het AI-model draait. En hoe krachtiger de hardware, hoe meer kosten je kwijt bent aan de computercomponenten en de energie voor gebruik en koeling. Vanuit zowel het perspectief van economisch gebruik van middelen – maar ook vanuit duurzaamheid – is het besef ingedaald dat deze manier van opschalen op termijn niet rendabel kan zijn.
De makers van AI-modellen hebben dus nieuwe technieken nodig om hun modellen slimmer ter krijgen zonder dat dit erin resulteert dat het model aanzienlijk groter wordt qua omvang. De eerste oplossingen waar de makers mee kwamen waren vooral zeer technisch van aard, zoals de manier hoe de modellen aan de binnenkant werken. Een nieuwe ontwikkeling is dat de makers verschillende van hun AI-modellen zijn gaan samenvoegen of integreren. Er bestaan vele verschillende AI-modellen zoals taalmodellen (denk: ChatGPT), beeldmodellen (denk: MidJourney), audiomodellen, videomodellen en nog veel meer. Wat AI-makers zoals OpenAI, Google en Meta nu zijn gaan doen is deze modellen laten fuseren of met elkaar laten praten, zodat ze elkaars functionaliteit kunnen benutten.
Deze modellen worden multimodale modellen genoemd. Multimodaal omdat ze voor verschillende modaliteiten kunnen worden ingezet. Deze modellen hebben begrip over meer dan een enkel specifiek domein en kunnen de kennis van de één toepassen in de ander. Een mooi voorbeeld van deze kennisoverdracht is het AI-model CLIP. CLIP, wat staat voor Contrastive Language Image Pre-Training, is een model dat gemaakt is om afbeeldingen te omschrijven. Voedt het model een afbeelding en er komt een uitgebreide tekst uitrollen met wat er allemaal in de afbeelding staat. Het model kan de link leggen tussen enerzijds de visuele vorm die objecten aannemen in de afbeelding en anderzijds de menselijke taal die deze objecten omschrijft.
Wat CLIP en multimodale modellen zo bijzonder maakt is dat deze zelf de verbanden tussen geschreven tekst en visuele elementen kunnen ontdekken. Voor het trainen van het CLIP-model is er een grote dataset gevoed aan het model met afbeeldingen en omschrijvingen van die afbeeldingen. Daarnaast is het model ook gevoed met een grote hoeveelheid tekst die objecten en vormen omschrijven, maar zonder bijbehorende afbeeldingen. Doordat het model de intrinsieke relatie leert tussen omschrijving en vorm kan deze die kennis voortzetten met de rest van de tekst die het leert. Hierdoor leert het model objecten herkennen die het nog nooit heeft gezien.
Door AI-modellen te trainen met meer dan alleen tekst of meer dan alleen afbeeldingen krijgt het model een begrip van de realiteit waarin wij leven. Soms is er voor een denkproces meer nodig dan alleen geschreven tekst en abstracte concepten. Soms zijn er visuele of auditore kenmerken nodig om iets echt te kunnen begrijpen. Door modellen met deze modaliteiten te trainen worden ze slimmer zonder dat ze (aanzienlijk) groter worden in omvang.
De grote techbedrijven zijn vol gesprongen op de multimodaal-trein. De meest kenmerkende release van de afgelopen maanden was de publicatie van GPT-4 with Vision (ook wel bekend als: GPT-V). De naam zegt het al een beetje: dit is een update van het basismodel van ChatGPT dat extra training heeft gekregen om afbeeldingen te kunnen begrijpen. Het is nu mogelijk om afbeeldingen naar ChatGPT te uploaden en vragen te stellen over die afbeeldingen. Zo kan je een foto maken van een groep ingrediënten en vragen wat voor een recepten met die groep te maken zijn. Ook had ik laatst (natuurlijk met toestemming) een foto van een collega geüpload met de vraag hoe oud ChatGPT dacht dat die collega was. Daaruit kwam een vrij jonge leeftijd – waarschijnlijk vanwege zijn jeugdige gezicht – maar het was wel ronduit indrukwekkend.
OpenAI heeft ertoe gekozen om GPT-4 te voorzien van kennis van visuele elementen door deze kennis extra bij te trainen. Andere techbedrijven zijn met vergelijkbare stappen bezig, zoals Meta met hun LLaMa-taalmodel. Sommige techbedrijven kiezen echter voor een andere route. Google kiest bijvoorbeeld voor een meer integrale aanpak bij het maken van multimodale modellen door diens modellen vanaf het begin te trainen met meerdere soorten bronnen soorten bronnen. Google’s PaLM 2-model – welke de basis vormt voor de Google Bard-chatbot – is vanaf het begin getraind met meerdere bronnen. Nieuwere modellen volgen deze zelfde trend.
Zo heeft Google in de afgelopen maand hun nieuwe Gemini-modellen wereldkundig gemaakt. Deze modellen zijn in staat om te werken met tekst, computercode, audio, afbeeldingen en video. Het kan al deze bronnen verwerken en daar nieuwe content mee maken. Het model kan door ontwikkelaars worden ingezet om allerhande applicaties te maken waar deze databronnen samenkomen. Uit de eerste benchmarks blijkt dat het krachtigste Gemini Ultra-model in veel testen beter scoort dan GPT-4 van OpenAI, waarmee Google de performance-kroon overneemt voor het krachtigste AI-model.
Al met al is duidelijk dat de AI-race heel anders loopt dan men aanvankelijk dacht. De focus ligt niet langer op louter groot, groter en grootst; maar veel meer op slimme technieken om met minder meer te bereiken. Het laat vooral zien dat de innovatie nog steeds in volle gang is en we ook het komende jaar weer vele interessante toepassingen kunnen verwachten.
Bekijk onze opleiding, webinar of een van onze trainingen.
Meld je nu aan voor één van de nieuwsbrieven van ICTRecht en blijf op de hoogte van onderwerpen zoals AI, contracteren, informatiebeveiliging, e-commerce, privacy, zorg & ICT en overheid.