Urheberrecht und das Training von KI

Entscheidung des LG Hamburg zur Reichweite urheberrechtlicher Schranken in erstem deutschen „KI-Verfahren“

Spätestens seit OpenAI im November 2022 sein Sprachmodell GPT-3.5 erstmals kostenfrei verfügbar machte, sind Anwendungen sogenannter künstlicher Intelligenz („KI“) in den Fokus der breiten Öffentlichkeit gerückt. Im Bereich generativer KI hängt der Erfolg derartiger Modelle nicht nur von den ihnen zugrundeliegenden Algorithmen ab, sondern insbesondere auch den Trainingsdaten, die verwendet worden sind, um das Modell gewissermaßen zu „erziehen“: Während des Trainings analysiert und vergleicht das KI-Modell die bereitgestellten Daten, um Muster und Zusammenhänge zu erkennen und auf Anfragen hin passende und augenscheinlich kreative Ergebnisse zu liefern.

Die Genauigkeit generativer KI-Modelle hängt damit maßgeblich von der Qualität und Quantität der Trainingsdaten ab. Diese stammen je nach Anwendungsbereich aus unterschiedlichsten Quellen, etwa Maschinen- oder Unternehmensdaten. Insbesondere für KI-Modelle mit allgemeinem Verwendungszweck ist eine der effektivsten Methoden zur Datensammlung das sogenannte Web- Scraping. Dabei greifen automatisierte Programme auf frei im Internet zugängliche Inhalte zu und vervielfältigen diese, um Datensammlungen zu erstellen.

Dr. Benedikt Flöter | Partner | YPOG Berlin
Charlotte Petrasch | LLM (Dublin) | Associate | YPOG Berlin |  www.ypog.law

„Die Genauigkeit generativer KI-Modelle hängt maßgeblich von der Qualität und Quantität der Trainingsdaten ab“

Oftmals betrifft dieses Web-Scraping auch urheberrechtlich geschützte Werke, deren Vervielfältigung grundsätzlich nach § 16 UrhG erlaubnispflichtig ist. Aufgrund der Menge an Daten und Rechtsinhabern ist es faktisch oft nicht möglich, Einwilligungen der Urheber einzuholen. Gleichwohl sieht das Urheberrecht gewisse gesetzliche Schrankenregelungen vor. Im Kontext des KI-Trainings zentral sind die Schrankenregelungen des § 44b und § 60d UrhG, beruhend auf Art. 3, 4 der „Digital Single Market“- Richtlinie ((EU) 2019/790): Diese gestatten Vervielfältigungen von digitalen urheberrechtlich geschützten Werken zu Zwecken des Text- und Data-Mining (TDM). TDM ist die automatisierte Analyse von Werken, um aus diesen Werken Informationen über Muster, Trends und Korrelationen zu gewinnen. § 60d UrhG beschränkt dies auf wissenschaftliche Zwecke, während § 44b UrhG grundsätzlich auch kommerzielle Anwendungen erlaubt. Mit den genauen Voraussetzungen beider Schrankenregelungen im Zusammenhang des KI-Trainings setzt sich das Urteil des LG Hamburg vom 27. September 2024 auseinander (Az. 310 O 227/23).

SACHVERHALT

Im Zentrum des Rechtsstreits stand die Nutzung einer urheberrechtlich geschützten Fotografie eines Fotografen. Diese war ursprünglich mit seiner Genehmigung auf einer Website abrufbar. Die Nutzungsbedingungen dieser Website enthielten einen englischsprachigen Hinweis, der das Scraping der Webseiteninhalte ausdrücklich untersagte. Der beklagte Verein, der im Bereich der KIEntwicklung aktiv ist, griff zur Erstellung eines KI-Trainingsdatensatzes gleichwohl mittels Web-Scrapings auf die Fotografie zu: Nach einem Download, das heißt, einer Vervielfältigung des Originals, analysierte eine Software den visuellen Inhalt der Abbildung und glich diesen mit der begleitenden Textbeschreibung ab. Anschließend extrahierte der Beklagte die URL-Adresse des Fotos aus dessen Metadaten und nahm diese in einen Datensatz auf, den er im Internet für das KI-Training durch Dritte zugänglich machte. Der Kläger beantragte unter anderem, die Vervielfältigung seines Werkes zur Erstellung von Datensätzen zu unterlassen.

ENTSCHEIDUNG

Das Gericht wies die Klage ab und stellte fest, dass die Vervielfältigung der Fotografie durch die Beklagte zum Zweck des TDM für wissenschaftliche Zwecke nach § 60d UrhG gedeckt war.

Das Gericht betonte zunächst die Notwendigkeit, zwischen den verschiedenen Nutzungshandlungen der betroffenen Werke zu differenzieren: die Analyse der visuellen Inhalte der Bilder und der Erstellung des Datensatzes (Schritt 1), das Training eines KI-Modells mit dem Datensatz (Schritt 2) und die Nutzung des trainierten Modells selbst (Schritt 3). Eine Entscheidung traf das Gericht nur zu Schritt 1 – ein dogmatisch korrektes Vorgehen. Gleichwohl offenbart sich hier, dass der zugrundeliegende Sachverhalt der Entscheidung nur begrenzt geeignet ist, Rechtssicherheit für KI-Entwickler herbeizuführen.

Zum Vorliegen des TDM führte das Gericht an, dass das Verhalten der Beklagten spezifisch auf die Analyse der Bild-Text-Korrelation und Erstellung eines Datensatzes abgezielt habe. Diese Vorbereitungshandlung sei von der TDM-Schranke erfasst, die die Verwertungsmöglichkeiten des Urhebers nicht beeinträchtige. Ein späterer Zweck eines etwaigen KI-Trainings (Schritt 2) sei zum Zeitpunkt des Scrapings nicht hinreichend absehbar und insofern außer Acht zu lassen. Zur Begründung führte das Gericht Art. 53 Abs. 1 lit. c KI-Verordnung ((EU) 2024/1689) an, wonach Anbieter bestimmter KI-Modelle Strategien zum Umgang mit TDM-Rechtevorbehalten vorzusehen haben.

Zur Beurteilung der wissenschaftlichen Zwecke des TDM wählte das Gericht einen funktionalen Ansatz: Maßgeblich sei wiederum die Erstellung des Datensatzes im Rahmen einer Forschungstätigkeit zu nichtkommer ziellen Zwecken, unabhängig von späteren kommerziellen Nutzungen durch Dritte – eine Auslegung, die die Stellung gemeinnütziger Institutionen bei der Entwicklung und Verbreitung von KI-Datensätzen stärkt. Über die Schranke des § 44b UrhG zu kommerziellen Zwecken musste das Gericht daher nicht mehr entscheiden. Angesichts der strukturellen Unterschiede zwischen den Schranken ist es daher zu begrüßen, dass sich das LG Hamburg obiter dictum auch zur Reichweite des § 44b UrhG äußerte. Im Unterschied zu § 60d UrhG können Rechteinhaber das TDM gemäß § 44b UrhG durch einen Nutzungsvorbehalt ausschließen. § 44b Abs. 2 Satz 3 UrhG fordert insofern die „Maschinenlesbarkeit“ eines solchen Nutzungsvorbehalts. Anerkannt ist die Verankerung eines solchen Vorbehalts mittels einer Datei im robots.txt-Format im Stammverzeichnis von Websites.

Das LG Hamburg betonte darüber hinaus die Pflicht der Web-Scraper, auch Vorbehalte in natürlicher Sprache zu beachten. Art. 53 Abs. 1 lit. c KI-Verordnung, der KI-Anbieter zu Strategien zur Ermittlung von Nutzungsvorbehalten „auch durch modernste Technologien“ verpflichte, sei so zu verstehen, dass Nutzer ggf. sprachfähige KI-Systeme einzusetzen hätten – und nach Ansicht des Gerichts offenbar auch grundsätzlich über die technologischen Möglichkeiten verfügen würden –, um Vorbehalte in natürlicher Sprache aufzufinden.

„Der Weg zu einem Vorbehaltsstandard abseits technischer Umsetzungen stellt eine zentrale Herausforderung dar“

Eine solche Auslegung kommt Rechteinhabern zugute. Fraglich bleibt, inwieweit sie tatsächlich geeignet ist, für Rechtssicherheit zu sorgen. Denn gerade die Anforderungen an „natürliche Sprache“ sind schwer zu begrenzen. Das Verständnis des LG Hamburg wirft diverse Anschlussfragen auf: Ist der Nutzungsvorbehalt an bestimmter Stelle zu verankern – etwa im Impressum – oder sind beliebige Subpages einer Website zu berücksichtigen? Welche Sprachen sind zu akzeptieren? Zu wessen Lasten geht unklare, auslegungsbedürftige Sprache? Diese Aspekte zeigen: Der Weg zu einem Vorbehaltsstandard abseits technischer Umsetzungen stellt eine zentrale Herausforderung dar.

BEWERTUNG UND AUSBLICK

Ob urheberrechtlich geschützte Werke ohne Zustimmung für das Training von KI-Modellen genutzt werden dürfen, wird aktuell intensiv diskutiert. Vor diesem Hintergrund war das Urteil des LG Hamburg mit Spannung erwartet worden. Wer sich eindeutige Antworten erhoffte, wurde womöglich enttäuscht. Denn tatsächlich setzte sich die Entscheidung schwerpunktmäßig nur mit dem Training vorgelagerten Nutzungshandlungen auseinander. Die isolierte Betrachtung der technischen Schritte zwischen Erstellung des Datensatzes, dessen Nutzung zu Trainingszwecken und Verwertung zeigt die begrenzte Verallgemeinerbarkeit der Entscheidung. Zwar ist die Analyse der Bild-Text-Korrelation mittels TDM von dem Schrankenvorbehalt gedeckt; ob der auf dieser Analyse beruhende Datensatz sowie ein mit diesem Satz trainiertes Modell aber ihrerseits durch die Zwecke des TDM gedeckt sein können, muss im Einzelfall betrachtet werden. Dennoch liefert das LG Hamburg wichtige Impulse für die aktuellen Debatten. Die technologieoffenen Begründungsansätze des Gerichts sind grundsätzlich zu begrüßen. Durch eine großzügige Auslegung der TDMSchranken stärkt das LG Hamburg einerseits die Position von Non-Profit-Einrichtungen, während ihre Ansicht zur Maschinenlesbarkeit von Nutzungsvorbehalten Urhebern zugutekommt. Im Interesse der Rechtssicherheit sollten jedoch eindeutige Standards gelten.

Der Kläger hat gegen die Entscheidung bereits Berufung eingelegt. Insofern wird sich im nächsten Schritt das OLG Hamburg – sowie möglicherweise BGH und EuGH – mit den dargelegten Fragen befassen. Angesichts der rasanten Entwicklungen im KI-Bereich ist offen, wie relevant die aktuellen Rechtsfragen zum Zeitpunkt höchstrichterlicher Klärung noch sein werden. Womöglich werden verschiedene KI-Anbieter online verfügbare Daten bis dahin bereits vollständig zum KI-Training genutzt und so vollendete Tatsachen geschaffen haben. Freilich bleibt in diesen Fällen stets der reaktive Weg der gerichtlichen Klärung. Insofern wird auch das erst kürzlich angekündigte Verfahren der GEMA gegen die ChatGPTAnbieterin OpenAI aufgrund der lizenzfreien Nutzung von Liedtexten mit Spannung zu erwarten sein.

Heft 01/02 | 2025 | 74. Jahrgang