Training generativer KI-Modelle und die Tücken des Urheberrechts

17.10.2024

Training generativer KI-Modelle und die Tücken des Urheberrechts

Von Prof. Dr. Sebastian Stober und Prof. Dr. Tim W. Dornis

Generative KI-Systeme und die ihnen zugrundeliegenden KI-Modelle, wie etwa ChatGPT, DALL-E oder Stable Diffusion, können auf Anweisung der Nutzer kreative Inhalte und Erzeugnisse erschaffen. Zu diesen Leistungen sind diese Modelle technisch autonom in der Lage. Sie benötigen keine menschliche Steuerung und in der Regel – außer einem knappen prompt – keinen zusätzlichen Input. Diese Fähigkeit zur autonomen Kreativität ist darauf zurückzuführen, dass generative KI-Modelle „gelernt“ haben, wie ein Text formuliert, ein Bild nach Textbeschreibung generiert oder Musik komponiert werden kann.

It’s the data!

Diese Lernvorgänge – das sogenannte KI Training – erfordern den Einsatz großer Datenmengen. Ein erheblicher Teil dieser Datenbestände ist urheberrechtlich geschützt, insbesondere wenn es sich um literarische Texte sowie Bild- oder Musikwerke handelt. In den meisten Fällen werden die Trainingsdaten nicht einzeln gesammelt und lizenziert, sondern aus im Internet frei zugänglichen Datenbeständen gespeist.

Urheberrechtsverletzungen!

Der Konflikt derartiger algorithmischer Lernvorgänge mit dem Urheberrecht ist mit den Händen zu greifen: Vor allem während der Trainingsprozesse kommt es zu Vervielfältigungen der Trainingsdaten und damit zu Verwertungshandlungen im Sinne des Urheberrechts. Es überrascht daher nicht, dass vor allem in den USA und in Großbritannien eine Vielzahl gerichtlicher Auseinandersetzungen über Rechtsverletzungen bei Training und Einsatz  generativer KI-Modelle anhängig sind.

Die Studie: A (really) more technological approach …

Die rechtliche Einordnung der Nutzung urheberrechtlich geschützter Werke und Leistungen bei KI-Trainingsvorgängen kann nicht ohne solide technische Grundlage erfolgen. Dennoch fehlt es bislang an Versuchen einer dezidiert technologisch- orientierten Erklärung und Begründung juristischer Aspekte. Zentral für einen derartigen neuen Ansatz ist zunächst die Beschreibung und Analyse der technischen Prozesse, die dem Training generativer KI Modelle zugrunde liegen. Wie sich dabei zeigen lässt, unterscheidet sich das Training generativer KI-Modelle grundlegend vom sogenannten Text und Data Mining (TDM).

In der juristischen Beurteilung folgt daraus in erster Linie, dass die TDM-Schranke des europäischen und deutschen Rechts (Art. 3 DSM-RL und § 44b UrhG) nicht anwendbar ist. Praktisch sämtliche Handlungen während des KI-Trainings, insbesondere die Sammlung und Aufbereitung der Trainingsdaten sowie deren Speicherung, aber auch die Adaption der Parameter beim Training künstlicher neuronaler Netzwerke sind daher grundsätzlich als Urheberrechtsverletzungen einzuordnen. Für die Durchsetzung der aus urheberrechtsverletzenden Trainingshandlungen für die Rechteinhaber resultierenden Ansprüche stellen sich überdies Fragen nach dem anwendbaren Recht und nach der internationalen Zuständigkeit deutscher Gerichte. Auch hier lassen sich bei einer technologisch-orientierten Betrachtung bislang wenig beachtete, dennoch entscheidende Aspekte hervorheben, so insbesondere die Tatsache, dass die KI-Modelle die Trainingsdaten in ihren Parametern „repräsentieren“ und damit in kompakter Form vervielfältigen. Für die Rechtsdurchsetzung erweist sich dies als durchaus relevant, ist das Angebot von KI-Dienstleistungen wie z.B. ChatGPT auf der OpenAI-Webseite dann doch als öffentliche Zugänglichmachung und damit Rechtsverletzung in Europa einzuordnen. Von der häufig erläuterten Ungreifbarkeit des KI-Trainings im Ausland und dem drohenden forum shopping der KI-Entwickler durch Verlagerung ihrer Aktivitäten ins nicht-EU-Ausland kann folglich nicht ohne weiteres ausgegangen werden. Schließlich eröffnet eine technologisch-orientierte Betrachtung der juristischen Fragen auch den weiteren Blick auf in der gegenwärtigen Diskussion wie es scheint zunehmend verfestigte Narrative, die einer kritischen Betrachtung unterzogen werden.


Prof. Dr. Sebastian Stober ist Professor für künstliche Intelligenz an der Otto-von- Guericke-Universität Magdeburg. In seiner aktuellen Forschung untersucht und entwickelt er generative Modelle für Musik und Sprache sowie Methoden, mit denen besser nachvollzogen werden kann, was eine künstliche Intelligenz gelernt hat und wie sie konkrete Probleme löst. Dabei verbindet er die Themen künstliche Intelligenz und maschinelles Lernen mit den Neurowissenschaften und Musik Information Retrieval. Er ist weiterhin Gründungsmitglied der International Society for Music Information Retrieval und Co-Organisator mehrerer internationaler Workshops.

Prof. Dr. Tim W. Dornis, J.S.M. (Stanford), ist Inhaber des Lehrstuhls für Bürgerliches Recht und Gewerblichen Rechtsschutz an der Leibniz Universität Hannover (LUH) sowie Global Professor of Law an der NYU School of Law (New York). Im Zentrum der Forschung am Lehrstuhl steht das Recht der Immaterialgüter. Besonderes Gewicht liegt auf Fragen der Digitalisierung, vor allem der Regulierung künstlicher Intelligenz.

Prof. Stober und Prof. Dornis haben gemeinsam die interdisziplinäre Studie „Urheberrecht und Training generativer KI Modelle. Technologische und juristische Grundlagen“ verfasst, die aktuell im Nomos Verlag in der Reihe „Recht und Digitalisierung“ erschienen ist und als Open Access-Publikation unter: https://doi.org/10.5771/9783748949558 abrufbar ist.