Generatieve kunstmatige intelligentie rekt het huidige auteursrecht op onvoorziene en ongemakkelijke manieren op. Het Amerikaanse Copyright Office heeft onlangs richtlijnen uitgegeven waarin staat dat de output van AI die afbeeldingen genereert niet auteursrechtelijk beschermd is, tenzij er menselijke creativiteit aan te pas is gekomen bij het genereren van de afbeeldingen. Maar dat laat veel vragen open: hoeveel creativiteit is er nodig en is het dezelfde creativiteit die een kunstenaar uitoefent met een penseel?
Een andere reeks gevallen gaat over tekst (meestal romans en romanschrijvers), waarbij sommigen aanvoeren dat het trainen van een model op auteursrechtelijk beschermd materiaal op zichzelf al een schending van het auteursrecht is, zelfs als het model deze teksten nooit reproduceert als onderdeel van zijn output. Maar het lezen van teksten maakt al deel uit van het menselijk leerproces zolang er geschreven taal bestaat. Hoewel we betalen om boeken te kopen, betalen we niet om ervan te leren.
Hoe kunnen we dit begrijpen?
Wat betekent het auteursrecht in het tijdperk van AI? Technoloog Jaron Lanier geeft één antwoord met zijn idee van data dignity, dat impliciet een onderscheid maakt tussen het trainen (of ‘doceren’) van een model en het genereren van output met behulp van een model. Het eerste zou een beschermde activiteit moeten zijn, stelt Lanier, terwijl de output inderdaad inbreuk kan maken op iemands auteursrecht.
Dit onderscheid is om verschillende redenen aantrekkelijk. In de eerste plaats beschermt het huidige auteursrecht ‘transformatief gebruik … dat iets nieuws toevoegt,’ en het is overduidelijk dat dit is wat AI-modellen doen. Bovendien is het niet zo dat grote taalmodellen (LLM’s) zoals ChatGPT de volledige tekst van bijvoorbeeld George R.R. Martins fantasyromans bevatten, waaruit ze vervolgens schaamteloos putten.
Het model is eerder een enorme verzameling parameters – gebaseerd op alle inhoud die tijdens de training is opgenomen – die de waarschijnlijkheid vertegenwoordigen dat het ene woord waarschijnlijk volgt op het andere woord. Als deze waarschijnlijkheidsmachines een Shakespeare-sonnet afleveren dat Shakespeare nooit heeft geschreven, dan is dat transformatief, zelfs als dat nieuwe sonnet in de verste verte niet goed is.
Een publiek goed waarbij iedereen baat heeft
Lanier ziet de creatie van een beter model als een publiek goed waarbij iedereen baat heeft – zelfs de auteurs wier werken worden gebruikt om het model te trainen. Dat maakt het transformatief en beschermwaardig. Maar er is een probleem met zijn concept van data dignity (dat hij volledig onderkent): het is onmogelijk om een zinvol onderscheid te maken tussen het ‘trainen’ van de huidige AI-modellen en het ‘genereren van output’ in de stijl van bijvoorbeeld romanschrijfster Jesmyn Ward.
AI-ontwikkelaars trainen modellen door ze kleine stukjes invoer te geven en ze te vragen het volgende woord miljarden keren te voorspellen, waarbij ze de parameters onderweg een beetje aanpassen om de voorspellingen te verbeteren. Maar hetzelfde proces wordt vervolgens gebruikt om output te genereren, en daarin schuilt het probleem vanuit auteursrechtelijk oogpunt.
Een model dat gevraagd wordt om te schrijven als Shakespeare kan beginnen met het woord ‘to,’ waardoor het iets waarschijnlijker wordt dat het zal volgen met het woord ‘be,’ en het daarna weer iets waarschijnlijker wordt dat het daaropvolgende woord ‘or’ zal zijn – enzovoorts. Toch blijft het onmogelijk om die uitvoer terug te koppelen naar de trainingsgegevens.
Waar kwam dat woord ‘or’ vandaan? Hoewel het toevallig het volgende woord is in de beroemde monoloog van Hamlet, kopieerde het model Hamlet niet. Het koos simpelweg ‘or’ uit de honderdduizenden woorden die het had kunnen kiezen, allemaal gebaseerd op statistieken. Dit is niet wat wij mensen zouden herkennen als creativiteit. Het model maximaliseert gewoon de waarschijnlijkheid dat wij mensen zijn output begrijpelijk vinden.
Maar hoe kunnen auteurs dan gecompenseerd worden voor hun werk, als dat passend is?
Hoewel het met de huidige generatieve AI-chatbots misschien niet mogelijk is om de herkomst van iets (‘provenance’) te achterhalen, is dat niet het einde van het verhaal. In het jaar sinds de release van ChatGPT hebben ontwikkelaars toepassingen gebouwd bovenop de bestaande basismodellen. Vele daarvan gebruiken retrieval-augmented generation (RAG) om een AI te ‘wijzen’ op inhoud die niet in de trainingsdata zit. Als je tekst moet genereren voor een productcatalogus, kun je de gegevens van je bedrijf uploaden en vervolgens naar het AI-model sturen met de instructies: ‘Gebruik in het antwoord alleen de gegevens die bij deze prompt horen.’
Hoewel RAG is bedacht als een manier om bedrijfseigen informatie te gebruiken zonder het arbeids- en rekenintensieve proces van een training te doorlopen, creëert het incidenteel ook een verband tussen het antwoord van het model en de documenten waaruit het antwoord is gemaakt. Dat betekent dat we nu ‘provenance’ hebben, wat ons veel dichter bij Laniers visie van data dignity brengt.
Als we de door een menselijke programmeur geschreven software voor het omrekenen van valuta publiceren in een boek, en ons taalmodel reproduceert dit als antwoord op een vraag, dan kunnen we dat toeschrijven aan de oorspronkelijke bron en de juiste royalty’s toekennen. Hetzelfde zou gelden voor een door AI gegenereerde roman, geschreven in de stijl van Wards (uitstekende) Sing, Unburied, Sing.
Google’s ‘AI-powered overview’-functie is een goed voorbeeld van wat we kunnen verwachten met RAG. Aangezien Google al de beste zoekmachine ter wereld heeft, zou zijn samenvattingssoftware in staat moeten zijn om te reageren op een vraag door een zoekopdracht uit te voeren en de topresultaten naar een LLM te sturen, teneinde het overzicht te genereren waar de gebruikers om vroegen. Het model zou de taal en grammatica leveren, maar het zou de inhoud afleiden uit de documenten in de prompt. Nogmaals, dit zou de ontbrekende ‘provenance’ opleveren.
De bewering van toonaangevende aanbieders van LLM’s niet accepteren
Nu we weten dat het mogelijk is om output te produceren die het auteursrecht respecteert en auteurs compenseert, moeten toezichthouders in actie komen om bedrijven verantwoordelijk te stellen als ze dit niet doen, net zoals deze bedrijven verantwoordelijk worden gehouden voor haatzaaien en andere vormen van ongepaste inhoud. We moeten de bewering van toonaangevende aanbieders van LLM’s dat dit technisch onmogelijk is, niet accepteren. In feite is het een van de vele zakelijke en ethische uitdagingen die ze zullen kunnen en moeten aangaan.
Bovendien biedt RAG op zijn minst een gedeeltelijke oplossing voor het huidige ‘hallucinatie’-probleem van AI. Als een toepassing (zoals Google Search) een model voorziet van de gegevens die nodig zijn om een antwoord te construeren, is de kans dat het iets totaal onwaars genereert veel kleiner dan wanneer het zich uitsluitend baseert op zijn trainingsgegevens. De output van een AI kan dus nauwkeuriger worden als het model wordt beperkt tot bronnen waarvan bekend is dat ze betrouwbaar zijn.
We beginnen nog maar net te zien wat er mogelijk is met deze benadering. RAG-toepassingen zullen ongetwijfeld gelaagder en complexer worden. Maar nu we de middelen hebben om de herkomst van iets te achterhalen, hebben techbedrijven niet langer een excuus om geen verantwoording af te hoeven leggen over auteursrechten.
De auteur Mike Loukides, Vice President of Content Strategy voor O’Reilly Media, Inc., is de auteur van System Performance Tuning (O’Reilly Media, Inc., 2002) en co-auteur van Unix Power Tools (O’Reilly Media, Inc., 2002) en Ethics and Data Science (O’Reilly Media, Inc., 2018).
Tim O’Reilly, oprichter en CEO van O’Reilly Media, Inc., is gasthoogleraar aan het University College London Institute for Innovation and Public Purpose en auteur van WTF? What’s the Future and Why It’s Up to Us (Harper Business, 2017).
©Project Syndicate, 2023
www.project-syndicate.org