Urheberrecht und das Training von KI
Entscheidung des LG Hamburg zur Reichweite urheberrechtlicher Schranken in erstem deutschen „KI-Verfahren“
Spätestens seit OpenAI im November 2022 sein Sprachmodell GPT-3.5 erstmals kostenfrei verfügbar machte, sind Anwendungen sogenannter künstlicher Intelligenz („KI“) in den Fokus der breiten Öffentlichkeit gerückt. Im Bereich generativer KI hängt der Erfolg derartiger Modelle nicht nur von den ihnen zugrundeliegenden Algorithmen ab, sondern insbesondere auch den Trainingsdaten, die verwendet worden sind, um das Modell gewissermaßen zu „erziehen“: Während des Trainings analysiert und vergleicht das KI-Modell die bereitgestellten Daten, um Muster und Zusammenhänge zu erkennen und auf Anfragen hin passende und augenscheinlich kreative Ergebnisse zu liefern.
Die Genauigkeit generativer KI-Modelle hängt damit maßgeblich von der Qualität und Quantität der Trainingsdaten ab. Diese stammen je nach Anwendungsbereich aus unterschiedlichsten Quellen, etwa Maschinen- oder Unternehmensdaten. Insbesondere für KI-Modelle mit allgemeinem Verwendungszweck ist eine der effektivsten Methoden zur Datensammlung das sogenannte Web- Scraping. Dabei greifen automatisierte Programme auf frei im Internet zugängliche Inhalte zu und vervielfältigen diese, um Datensammlungen zu erstellen.


Dr. Benedikt Flöter | Partner | YPOG Berlin
Charlotte Petrasch | LLM (Dublin) | Associate | YPOG Berlin | www.ypog.law