Artikel ingezonden door Michiel A. Smit.
Memorization is geen zuivere koffie (en ook geen TDM): een eerste reactie op OpenAI v. GEMA
Artikel geschreven door: Michiel A. Smit [1]
Inleiding
De auteursrechtelijke strijd om het AI-model is ingeleid met een duidelijke nederlaag voor (Open)AI. In reactie op korte prompts toonde ChatGPT (van OpenAI) liedteksten van Duitse tekstdichters in de output, volgens GEMA was deze output inbreukmakend en bovendien symptomatisch voor een onderliggende verveelvoudiging in het AI-model zelf. De rechtbank in München geeft GEMA gelijk. In deze korte reactie concentreer ik me op de interne kopie in het model en op tekst- en datamining (TDM). Doel is om hiermee enige helderheid te scheppen omdat de uitspraak – gelet op de complexiteit – gemakkelijk tot misverstanden en verhaspelingen leidt.[2]
Zuivere training versus memorization.
Auteursrechtelijk bezien zijn er twee belangrijke en verschillende vragen aan de ‘inbreukmakende’ zijde van generatieve AI. De ene heeft betrekking op 1) ‘zuivere’ training en de andere op 2) permanente kopieën in een AI-model, ook wel ‘memorization’. Conceptueel en juridisch worden deze vragen van elkaar gescheiden – zoals ook in rechtszaken gebeurt - zelfs al zijn deze technisch gezien tijdens het eigenlijke trainen mogelijk slecht uit elkaar te houden.
1) ‘Zuivere’ training / TDM:
Is het trainen op werken toegestaan, ook als dit niet tot vervolgkopieën in het model (‘memorisatie’) of in de output (‘ophoesten’) leidt? Het hangt er in de VS nogal van af welke rechter je aantreft. De Amerikaanse rechter in Anthropic/Bartz stelt dat trainen - zolang er rechtmatig toegang is verkregen tot data - in beginsel fair use is, en dus is toegestaan. Cruciaal daarbij is dat deze rechter lijkt te geloven in de metafoor dat AI leert (hij vat dit dus niet metaforisch maar letterlijk op). Het trainen van AI zou niet anders zijn dan een mens dat leert schrijven, en dus zou ook dit toegestaan moeten zijn. In een aparte zaak over hetzelfde onderwerp - Meta/Kadrey - oordeelt een andere rechter echter heel verschillend over AI-training. Hij verwerpt de leermetafoor stellig en oordeelt dat het trainen van een GenAI-model onvergelijkbaar is met lerende mensen; in de meeste gevallen zou het dan ook niet zijn toegestaan vanwege het schadelijke substituerende effect.
In Europa hebben we een ander juridisch kader en is nu in twee Duitse zaken[3] bevestigd dat trainen op werken - voor zover voldaan is aan de TDM-exceptie! - is toegestaan. De uitspraak in OpenAI/GEMA bevestigt juist dat trainen omwille van GenAI wél is toegestaan zolang het niet in een permanente kopie in het model resulteert. Deze ‘schone’ training wordt dan gerechtvaardigd door de TDM-exceptie. In deze situatie wordt slechts onbeschermde informatie uit de werken gedestilleerd die vervolgens mogelijk in parameters van het model wordt vastgelegd. Het auteursrechtelijk beschermde werk als zodanig wordt daarentegen niet opgeslagen in het model – ook niet op een latente wijze - en daarom is dit toegestaan onder deze exceptie. Dit zuivere trainen (TDM) moet mogelijk zijn omwille van innovatie is de achterliggende gedachte (mits voldaan aan de TDM-exceptie dus).
* Voor de volledigheid: ook dit ‘zuivere’ trainen is volgens sommige juristen geen zuivere koffie. Zij stellen dat ook deze wijze van trainen voor generatieve AI – zonder vervolgkopieën - heel iets anders is dan TDM en dat de TDM-uitzondering hier dus niet voor is bedoeld. De AI Act en eerste uitspraken in Duitsland wijzen er desalniettemin duidelijk op dat de TDM-exceptie hier wel degelijk op van toepassing is.
2) Memorization: kopieën in het AI-model.
De tweede kwestie ziet op de vraag of de training door GenAI-modellen wel altijd zuiver is of dat dit in sommige gevallen toch resulteert in een gecomprimeerde en verborgen - maar toch aanwezige - verveelvoudiging in het getrainde AI model. Dit debat wordt veelal gevoerd in metaforische (antropomorfe) termen: ‘memoriseren’ / ‘herinneren’ ‘neurale netwerken’? Ik gebruik deze specifieke metafoor zelf weinig omdat het makkelijk tot misverstanden kan leiden (het is heel wat anders dan menselijke herinnering). In mijn nieuwste artikel - geschreven afgelopen zomer, publicatie december a.s. - spreek ik in plaats daarvan van moederkopieën of interne verveelvoudigingen in het model.
De Duitse uitspraak in OpenAI/GEMA verraste mij dan ook niet. Al in het begin van de vorige eeuw werd duidelijk dat het reproductierecht techniekneutraal is en functioneel moet worden geïnterpreteerd. Dit betekent dat het werk voor de mens niet rechtstreeks waarneembaar hoeft te zijn in de kopie zelf. Wanneer het op enige wijze stabiel is vastgelegd in een voorwerp en met een hulpmiddel uiteindelijk waarneembaar kan worden gemaakt, is er sprake van een verveelvoudiging.[4] Dat geldt voor langspeelplaten, dvd’s, bestanden op een usb-stick of in een cloud, en dus vermoedelijk ook voor AI-modellen.
De rechter in München is nu de eerste die inderdaad oordeelt dat een model als drager kan fungeren van een auteursrechtelijk beschermd werk. De waarschijnlijkheidsverdelingen/patronen in de getrainde gewichten (parameters) kunnen als resultaat van de training zo sterk en precies zijn aangelegd dat het als een moederkopie (mijn woorden) is te beschouwen die n.a.v. een prompt tot een dochterkopie kan leiden in de output.[5] Op dat moment wordt het werk direct waarneembaar voor de prompteur (gebruiker) en is volgens de Duitse rechter tevens sprake van openbaarmaking.
OpenAI bepleitte dat een AI-model naar zijn technische aard helemaal geen kopieën van werken kan opslaan en stelde dat de inbreukmakende output het gevolg moest zijn van ‘provocerende’ prompts van de prompteur. De rechter verwierp dit en sloot eveneens uit dat het puur toevallig is dat de auteursrechtelijk beschermde trekken desgewenst uit het model kunnen verschijnen. Er is sprake van een causaal verband tussen de output en het AI-model.
Belangrijk is verder dat de TDM-exceptie hier volgens de Duitse rechter niet op van toepassing is. Het is immers geen zuivere training / TDM zoals hierboven beschreven! In plaats daarvan wordt er een kopie gemaakt die latent is opgeslagen in het AI-model. Oftewel: er is niet alleen onbeschermde informatie gewonnen maar er zijn beschermde trekken overgenomen en permanent vastgelegd. Daarmee valt het buiten de reikwijdte van de TDM-exceptie: ‘memorization’ is geen TDM, het is gewoon verveelvoudigen. Ook als GEMA dus géén TDMvoorbehoud had gemaakt - wat wel het geval was - dan nóg was deze 'memorization' niet toegestaan.
Tegenover de uitspraak in München staat overigens de Engelse uitspraak in Getty Images v. Stability AI, die slechts een week ouder is. Hier oordeelde de rechter dat het AI-model géén ‘copy’ is of bevat. Het is echter zeer de vraag of deze uitspraak bredere betekenis heeft voor de EU omdat het Engels recht is en met name ook omdat het een ‘uitgeklede’ zaak betrof. Verschillende argumenten werden door eisers uiteindelijk ingetrokken hetgeen te maken heeft met internationaal privaatrechtelijke afwegingen en een parallelle zaak in de VS. In de VS zijn overigens de meeste ‘memorization’ zaken aanhangig maar is er nog geen beoordeeld.
Toekomst
Het memorization-vraagstuk is van groot belang voor zowel rechthebbenden als AI-bedrijven omdat het uiteindelijk draait om de fundamentele vraag of het getrainde AI-model zich binnen of buiten het auteursrechtelijke bereik begeeft.
Immers lijkt memorization op dit moment bij de meeste grote GenAI-modellen voor te komen.[6] Bovendien is het - bij mijn weten - zeer moeilijk of zelfs onmogelijk om specifieke inbreukmakende data – of de ‘uitwerking’ daarvan - uit het getrainde model te verwijderen (zogeheten ‘disgorgement’). Als de GEMA/OpenAI-benadering heersend wordt en AI-bedrijven lukt het niet om memorization te voorkomen of ongedaan te maken, dan zullen zij voor deze verveelvoudigingen in het model in beginsel toestemming moeten krijgen van de auteurs. Dat zal waarschijnlijk niet tot dramatische gevolgen leiden - zoals de vernietiging van het AI-model, gevorderd door NYT tegen OpenAI - maar wel tot licentiedeals (en transactiekosten).
Maar: zover is het zeker nog niet. Deze eerste uitspraak in München is een belangrijk signaal maar het is slechts een lagere rechtbank (weliswaar gespecialiseerd in IE). De bredere vraag of verveelvoudigingen inderdaad aanwezig kunnen zijn in een model is nog niet definitief beslecht, en zelfs als OpenAI in hoger beroep nog zou winnen is daarmee niet alles gezegd.[7] Het reproductierecht is Europees geharmoniseerd waardoor het HvJ EU het laatste woord heeft. In reactie op de prejudiciële vragen in Like Company zou het Hof deze vraag naar mijn inzien kunnen beantwoorden.[8]
Belangrijk is tot slot om op te merken dat als er niet van kopieën in een model kan worden gesproken - terwijl deze er ‘functioneel’ wel zijn – dit grote gevolgen kan hebben. Maar dan voor de menselijke scheppers en rechthebbenden. Ik bespreek dit uitgebreid in mijn artikel dat in december verschijnt in de IER. Daarin analyseer ik onder meer: historische parallellen, de argumenten waarom wel of geen sprake zou kunnen zijn van kopieën in een model, retoriek en terminologie (antropomorfismen o.a.), juridische implicaties van een verveelvoudiging in het model (waaronder bewijsrecht) en de verhouding tot de TDM-exceptie.
[1] M.A. Smit is promovendus aan de Universiteit Leiden.
[2] Voor een wetenschappelijke bijdrage over de interne kopie in een AI-model inclusief uitvoerige verwijzingen verwijs ik naar mijn artikel dat volgende maand in de IER wordt gepubliceerd, zie dus: IER 2025/6.
[3] Kneschke/LAION en OpenAI/GEMA.
[4] Over dit alles: zie mijn artikel dat verschijnt in IER 2025/6.
[5] In dit concrete geval bewerkingen om precies te zijn.
[6] Alhoewel het waarschijnlijk om een klein percentage van de trainingsdata gaat dat wordt ‘gememoriseerd’.
[7] Het feitelijke bewijs van GEMA is niet zo overweldigend als in andere memorization zaken, bijv. in de VS zoals NYT tegen OpenAI.
[8] Ondanks het feit dat het daar vermoedelijk om RAG ging. Juist omdat de verwijzende rechter zelf niet lijkt te beseffen wat het verschil is tussen puur parametrisch- en RAG-gegenereerde output, acht ik het wenselijk dat het HvJ beide kwesties in dit ene arrest verheldert.