Volgens de oprichter van een van de toonaangevende AI-start-ups in het VK, zullen grote kunstmatige-intelligentiemodellen alleen maar “gekker” worden, tenzij er meer wordt gedaan om te controleren op welke informatie ze worden getraind.
Emad Mostaque, CEO van Stability AI, stelt dat de voortdurende training van grote taalmodellen zoals OpenAI’s GPT4 en Google’s LaMDA vrijwel het hele internet te onvoorspelbaar en potentieel gevaarlijk maakt.
“De laboratoria zeggen zelf dat dit een existentiële bedreiging voor de mensheid kan vormen”, zei Mostaque.
OpenAI-chef Sam Altman vertelde dinsdag aan het Amerikaanse Congres dat de De technologie kon “erg fout gaan” en vroeg om regulering.
Vandaag vertelde Sir Antony Seldon, rector van Epsom College, zondag aan Sophy Ridge van Sky News dat AI het zou kunnen zijn zou “hatelijk en gevaarlijk” kunnen zijn..
“Als mensen het doen [the models] Als we dat zeggen, moeten we er waarschijnlijk een open discussie over voeren”, voegde Mostaque eraan toe.
Maar AI-ontwikkelaars zoals Stability AI hebben misschien geen keus in zo’n discussie. Veel van de gegevens die werden gebruikt om hun krachtige tekst-naar-afbeelding AI-producten te trainen, werden ook van internet ‘geschraapt’.
Dat omvat miljoenen auteursrechtelijk beschermde afbeeldingen die hebben geleid tot juridische stappen tegen het bedrijf – evenals grote vragen over wie uiteindelijk de “eigenaar” is van de producten die beeld- of tekstgenererende AI-systemen creëren.
Zijn bedrijf hielp bij de ontwikkeling van Stable Diffusion, een van de toonaangevende tekst-naar-beeld-AI’s. Stability AI heeft zojuist een nieuw model gelanceerd, Deep Floyd genaamd, dat naar eigen zeggen de meest geavanceerde beeldgenererende AI tot nu toe is.
Een noodzakelijke stap om AI veilig te maken, is het verwijderen van illegale, gewelddadige en pornografische afbeeldingen uit de trainingsgegevens, legt Daria Bakshandaeva, senior onderzoeker bij Stability AI, uit.
Als de AI tijdens zijn training schadelijke of expliciete beelden ziet, kan hij deze in zijn output repliceren. Om dit te voorkomen, verwijderen de ontwikkelaars deze afbeeldingen uit de trainingsgegevens, zodat de AI zich niet kan “voorstellen” hoe ze eruit zouden zien.
Maar er waren nog steeds twee miljard afbeeldingen van online bronnen nodig om het te trainen. Stability AI zegt actief te werken aan nieuwe datasets om AI-modellen te trainen die de rechten van mensen op hun data respecteren.
Stability AI wordt in de VS aangeklaagd door fotobureau Getty Images voor het gebruik van 12 miljoen van zijn afbeeldingen als onderdeel van de dataset om zijn model te trainen. Stability AI antwoordde dat regels voor “redelijk gebruik” voor de afbeeldingen geen inbreuk op het auteursrecht betekenen.
Maar het gaat niet alleen om auteursrechten. Steeds meer gegevens die beschikbaar zijn op internet, of het nu gaat om afbeeldingen, tekst of computercodes, worden gegenereerd door AI.
“Als je naar coderen kijkt, is 50% van alle code die momenteel wordt gegenereerd door AI gegenereerd, wat een verbazingwekkende verandering is in iets meer dan een jaar of 18 maanden”, aldus de heer Mostaque.
En tekstgenererende AI’s genereren steeds meer online content, zelfs nieuwsberichten.
Het Amerikaanse bedrijf News Guard, dat online-inhoud controleert, vond onlangs 49 bijna uitsluitend door AI gegenereerde “nepnieuws”-websites op internet die worden gebruikt om door te klikken naar advertentie-inhoud.
“We blijven erg bezorgd over het vermogen van de gemiddelde internetgebruiker om informatie te vinden en te weten dat het juiste informatie is”, zegt Matt Skibinski, chief executive officer van NewsGuard.
AI’s lopen het risico het web te vervuilen met inhoud die opzettelijk misleidend en schadelijk is, of gewoon onzin. Het is niet zo dat mensen dit al jaren niet meer doen, het is alleen zo dat AI’s nu kunnen worden getraind op gegevens die van internet zijn gehaald en door andere AI’s zijn gemaakt.
Reden te meer om goed na te denken over welke data we gebruiken om nog krachtigere AI’s te trainen.
“Geef ze geen junkfood”, zei Mostaque. “We kunnen nu betere biologische buitenmodellen hebben. Anders worden ze alleen maar gekker.”
Een goede plek om te beginnen, zegt hij, is het ontwikkelen van AI’s die zijn getraind op gegevens, of het nu gaat om tekst, afbeeldingen of medische gegevens, die specifieker zijn voor de gebruikers waarvoor ze worden ontwikkeld. Momenteel worden de meeste AI’s ontwikkeld en getraind in Californië.
“Ik denk dat we onze eigen datasets of onze eigen modellen nodig hebben om de diversiteit van de mensheid weer te geven”, zei Mostaque.
“Ik denk dat dat ook veiliger zal zijn. Ik denk dat ze meer gericht zullen zijn op menselijke waarden dan een zeer beperkte dataset en een zeer beperkte set ervaringen die alleen beschikbaar zijn voor de rijkste mensen ter wereld.”