DSGVO und LLMs: Datenschutzkonformer Einsatz von Large Language Models

Der Einsatz von Large Language Models in Unternehmen wirft fundamentale datenschutzrechtliche Fragen auf. Von der Rechtsgrundlage über automatisierte Entscheidungen bis zur Datenschutzfolgenabschätzung — dieser Praxisleitfaden zeigt IT-Leitern, wie sie LLMs DSGVO-konform einsetzen.

Die datenschutzrechtliche Herausforderung

Large Language Models verarbeiten personenbezogene Daten in mehrfacher Hinsicht: im Training, in den Eingabeaufforderungen (Prompts), in den generierten Antworten und durch die Speicherung von Konversationsverläufen. Jede dieser Phasen unterliegt der DSGVO.^[1]

Die Datenschutzkonferenz (DSK) hat im Mai 2024 eine wegweisende Orientierungshilfe veröffentlicht, die erstmals einen strukturierten Rahmen für die datenschutzrechtliche Bewertung von KI-Systemen bietet. Das zentrale Ergebnis: Der Einsatz von LLMs ist DSGVO-konform möglich — aber nur unter Einhaltung spezifischer Voraussetzungen.^[2]

Für IT-Leiter bedeutet das: Ohne eine saubere datenschutzrechtliche Grundlage riskieren Sie nicht nur Bussgelder von bis zu 20 Millionen Euro oder 4 Prozent des weltweiten Jahresumsatzes, sondern auch Vertrauensverlust bei Kunden und Mitarbeitern.

Die Herausforderung liegt in der Komplexität: LLMs sind keine klassischen Datenverarbeitungssysteme. Ihre probabilistische Natur, die Undurchsichtigkeit der Trainingsdaten und die Möglichkeit, personenbezogene Daten aus dem Training zu reproduzieren, erfordern neue Bewertungsansätze.

Datenströme verstehen: Wo personenbezogene Daten fliessen

Abbildung 1: Datenströme zeigen, wo personenbezogene Informationen beim LLM-Einsatz die Organisation verlassen können.

Der erste Schritt zur DSGVO-Konformität ist das vollständige Verständnis der Datenflüsse in Ihrem LLM-Setup.

Eingabedaten (Prompts): Mitarbeiter geben möglicherweise Kundennamen, E-Mail-Adressen, Vertragsdaten oder andere personenbezogene Daten in Prompts ein. Bei API-Anbietern wie OpenAI oder Anthropic verlassen diese Daten Ihre Infrastruktur.

Trainingsdaten: Wenn Sie Fine-Tuning nutzen, werden die Trainingsdaten Teil des Modells. Die Löschung einzelner Datenpunkte ist nachträglich praktisch unmöglich — ein fundamentales Problem für das Recht auf Löschung nach Art. 17 DSGVO.

Ausgabedaten: LLMs können personenbezogene Daten generieren, die aus dem Training stammen oder aus dem Prompt-Kontext abgeleitet werden. Dies betrifft insbesondere Art. 22 DSGVO (automatisierte Einzelentscheidungen).

Protokolldaten: API-Anbieter speichern typischerweise Prompts und Antworten für 30 Tage zu Missbrauchsprävention — was eine Auftragsverarbeitung nach Art. 28 DSGVO begründet.^[3]

Rechtsgrundlagen nach Art. 6 DSGVO

Abbildung 2: Die Rechtsgrundlage entscheidet, welche LLM-Nutzung zulässig und dokumentierbar ist.

Die Wahl der Rechtsgrundlage ist die zentrale Weichenstellung. Die DSK-Orientierungshilfe identifiziert mehrere mögliche Rechtsgrundlagen:^[2]

Berechtigtes Interesse (Art. 6 Abs. 1 lit. f): Die praxisrelevanteste Grundlage für die meisten Unternehmens-Use-Cases. Erfordert eine dokumentierte Interessenabwägung, die zeigt, dass die Interessen des Verantwortlichen die Interessen der Betroffenen überwiegen. Entscheidend: Technische und organisatorische Massnahmen zur Risikominimierung (Pseudonymisierung, Zugriffskontrollen, Opt-out-Möglichkeiten).

Einwilligung (Art. 6 Abs. 1 lit. a): Möglich, aber praktisch schwierig — insbesondere bei Daten, die aus dem Training stammen. Die Einwilligung muss freiwillig, spezifisch, informiert und unmissverständlich sein.

Vertragserfüllung (Art. 6 Abs. 1 lit. b): Wenn der LLM-Einsatz unmittelbar der Erfüllung eines Vertrags mit der betroffenen Person dient — etwa ein KI-gestützter Kundenservice.

Die NOYB-Beschwerden gegen OpenAI haben gezeigt, dass Aufsichtsbehörden die Rechtsgrundlage streng prüfen. Die italienische Garante hat ChatGPT 2023 vorübergehend gesperrt, weil keine ausreichende Rechtsgrundlage nachgewiesen werden konnte.^[5]

„Die DSGVO verbietet den Einsatz von KI nicht. Sie verlangt aber, dass Unternehmen wissen, was mit personenbezogenen Daten geschieht — und das ist bei Large Language Models eine besondere Herausforderung."

— Prof. Ulrich Kelber, ehemaliger Bundesbeauftragter für den Datenschutz und die Informationsfreiheit (BfDI)

Datenschutzfolgenabschätzung: Pflicht, nicht Kür

Abbildung 3: Eine DSFA macht Risiken sichtbar, bevor LLM-Anwendungen produktiv personenbezogene Daten verarbeiten.

Art. 35 DSGVO verpflichtet zur Durchführung einer Datenschutzfolgenabschätzung (DSFA), wenn eine Datenverarbeitung voraussichtlich ein hohes Risiko für die Rechte und Freiheiten natürlicher Personen birgt. Der Einsatz von LLMs erfüllt dieses Kriterium in den meisten Fällen.^[1]

Eine DSFA für LLM-Einsatz sollte mindestens umfassen:

Systematische Beschreibung der Verarbeitungsvorgänge: Welche Daten fliessen wohin? Welche Modelle werden genutzt? Wo werden Daten gespeichert?

Bewertung der Notwendigkeit und Verhältnismässigkeit: Ist der LLM-Einsatz für den Zweck erforderlich, oder gibt es datenschutzfreundlichere Alternativen?

Bewertung der Risiken für die Rechte der Betroffenen: Halluzinationen, Reproduktion von Trainingsdaten, Diskriminierungsrisiken, mangelnde Transparenz.

Massnahmen zur Risikominimierung: Technische Schutzmassnahmen (Anonymisierung, On-Premise-Hosting, Output-Filter) und organisatorische Massnahmen (Schulungen, Richtlinien, Monitoring).

Die DSK empfiehlt, die DSFA als lebendes Dokument zu behandeln und bei wesentlichen Änderungen zu aktualisieren.^[2]

Handlungsempfehlungen für IT-Leiter

Datenflussanalyse erstellen: Dokumentieren Sie lückenlos, welche personenbezogenen Daten in welcher Phase der LLM-Nutzung verarbeitet werden — von Prompt bis Protokollierung.
Rechtsgrundlage festlegen und dokumentieren: Führen Sie für jeden LLM-Use-Case eine Interessenabwägung durch und dokumentieren Sie diese revisionssicher.
DSFA durchführen: Erstellen Sie eine Datenschutzfolgenabschätzung gemäss Art. 35 DSGVO, bevor Sie LLMs produktiv einsetzen. Nutzen Sie das Standard-Datenschutzmodell (SDM) als Methodikrahmen.
Auftragsverarbeitungsverträge abschliessen: Stellen Sie sicher, dass mit allen LLM-Anbietern AVVs nach Art. 28 DSGVO geschlossen sind — einschliesslich Regelungen zu Datenlokalisation und Löschfristen.
Technische Schutzmassnahmen implementieren: Pseudonymisierung vor der Prompt-Übergabe, Content-Filter für Ausgaben, On-Premise-Alternativen für sensible Use-Cases evaluieren.
Mitarbeiter schulen: Sensibilisieren Sie alle LLM-Nutzer für den Umgang mit personenbezogenen Daten in Prompts — „kein Name, keine Adresse, keine Kundennummer" als Grundregel.

Quellen und Referenzen

Europäisches Parlament und Rat: „Verordnung (EU) 2016/679 — Datenschutz-Grundverordnung (DSGVO)", Amtsblatt der Europäischen Union, 2016.
Datenschutzkonferenz (DSK): „Orientierungshilfe der Datenschutzaufsichtsbehörden zu KI und Datenschutz", DSK, Mai 2024.
European Data Protection Board (EDPB): „Opinion on data protection and AI", EDPB, Dezember 2024.
Bitkom Research: „Datenschutz und KI in deutschen Unternehmen — Umfrage 2024", Bitkom e.V., 2024.
NOYB — European Center for Digital Rights: „Complaint against OpenAI regarding ChatGPT", NOYB, 2023. https://noyb.eu
Garante per la protezione dei dati personali: „Provvedimento del 30 marzo 2023 — ChatGPT", Garante, 2023.
Der Bundesbeauftragte für den Datenschutz und die Informationsfreiheit (BfDI): „Positionspapier zu Large Language Models und Datenschutz", BfDI, 2024.
Artikel-29-Datenschutzgruppe / EDPB: „Guidelines on Automated individual decision-making and Profiling (Art. 22 GDPR)", WP251rev.01, 2018.

Die datenschutzrechtliche Herausforderung

Datenströme verstehen: Wo personenbezogene Daten fliessen

Rechtsgrundlagen nach Art. 6 DSGVO

Datenschutzfolgenabschätzung: Pflicht, nicht Kür

Handlungsempfehlungen für IT-Leiter

Quellen und Referenzen

Weitere Artikel

DORA-Compliance: Was der Digital Operational Resilience Act für IT-Leiter bedeutet

AI Act Compliance: Was IT-Leiter jetzt umsetzen müssen

AI Agents im Unternehmen: Autonome Workflows jenseits von Chatbots