Erklärbare KI

Asset-Herausgeber

Erklärbare KI

Dass undurchsichtige Algorithmen zunehmend Empfehlungen für menschliche Entscheider:innen aussprechen oder die Entscheidungen gleich selbst treffen, weckt bei vielen Unbehagen: Wie kann man sicher sein, dass algorithmische Entscheidungen den eigenen Vorstellungen von Fairness und Angemessenheit entsprechen, wenn ihre Entscheidungswege unklar bleiben und sie als Black Box erscheinen? Es gibt also gute Gründe für die Forschung, dass die Entscheidungswege künstlicher Intelligenz (KI) erklärbar werden müssen. Was macht also eine gute Erklärung aus? Und welche technischen Verfahren existieren bereits?

Algorithmen auf die Finger schauen

Wenn von Algorithmen als Black Box die Rede ist, dann sind damit zumeist neuronale Netze gemeint. Deren Lern- und Ergebnisfindungsprozess ist für Menschen kaum nachvollziehbar (siehe Neuronale Netze). Gleichzeitig sind neuronale Netze für zahlreiche Aufgabenstellungen wie etwa Sprach-, Text- und Bilderkennung jedoch die leistungsstärkste KI-Methode. Daraus entsteht ein Dilemma: Die derzeit leistungsfähigsten Algorithmen lassen sich kaum für kritische Anwendungsfälle mit großer Tragweite nutzen, weil weder der Algorithmus selbst noch ein Mensch das Ergebnis nachvollziehbar - und damit erst gezielt hinterfragbar - erläutern kann. Während der Einsatz solcher Black-Box-Algorithmen also beispielsweise bei der unkritischen und leicht revidierbaren Sortierung von Paketen unproblematisch erscheint, gestaltet sich dies etwa bei der Bewilligung eines Kredits deutlich schwieriger. Ein Einsatz von KI-Systemen in solchen Anwendungsfeldern sollte an das Vertrauen geknüpft sein, dass Entscheidungen und Empfehlungen in Einklang mit gesellschaftlichen Erwartungen stehen, um so die nötige Akzeptanz sicher zu stellen.

Für Vertrauen und Akzeptanz kann es förderlich sein, dass automatisierte Entscheidungssysteme nicht bloß ein eindimensionales Ergebnis generieren, sondern Nutzer:innen eine Erklärung anbieten, wie dieses Ergebnis zustande kam. Im Fall einer Kreditvergabe reicht also kein simples »Kredit bewilligt« oder »Kredit verweigert«, das System sollte die Entscheidung auch begründen können (siehe Denkende Maschinen). Solche integrierten Erklärungen bieten zudem Ansatzpunkte für die Bewertung, ob ein System tatsächlich die gewünschten Ergebnisse produziert.

Begriffliche Verortung

Netzwerkartige Verortung des Themenfeldes

Gesellschaftliche und wissenschaftliche Verortung des Begriffs

Was heißt »erklärbar«?

Erklärbare KI-Systeme liefern eine Beschreibung der Ergebnisfindung, die für Menschen interpretierbar ist. Das heißt, die Gründe für eine Entscheidung lassen sich explizit beschreiben und können den Adressat:innen eines Systems verständlich vermittelt werden. Erklärbarkeit ist dabei nicht mit Transparenz gleichzusetzen: Zum einen können auch Erklärungen generiert werden, ohne das Innenleben eines Algorithmus nachzuzeichnen, zum anderen kann ein transparentes System zu komplex sein, um es mit vertretbarem Aufwand nachvollziehen zu können.

Eine gute Erklärung macht aus, dass sie stets die Antwort auf eine Frage nach dem »Warum?« gibt und dabei den Adressat:innen so gerecht, dass sie die Gründe verstehen können. Denn ein und dieselbe Erklärung ruft bei verschiedenen Personen unterschiedliche Reaktionen hervor. Entsprechend verschieden sind die Bedarfe von Nutzergruppen. Während das Entwicklungsteam eines KI-Systems Ergebniserklärungen nutzen möchte, um dessen Leistungsfähigkeit als Ganzes zu optimieren, wollen Bankkund:innen bei negativer Kreditentscheidung vermutlich bloß wissen, an welchen Faktoren dies gelegen hat und was sie ändern können, um den Kredit zu erhalten. In welcher Form und Detailtiefe eine Erklärung den größten Nutzen bringt, hängt folglich davon ab, an welche Zielgruppe sie sich richtet.

Eine technische Herausforderung

Will man Black-Box-Algorithmen vermeiden, dann lassen sich lernende Systeme programmieren, die bis zu einem gewissen Komplexitätsgrad inhärent transparent und interpretierbar sind. Entscheidungsbäume stellen hier eine Möglichkeit dar, erweisen sich für unstrukturierten Aufgabenstellungen allerdings als kaum umsetzbar. In den vergangenen Jahren wurden deshalb verschiedene Methoden entwickelt, die darauf abzielen, Algorithmen ex post interpretierbar zu machen – also nachdem diese trainiert wurden.
Die Ex-post-Erklärungen können dabei verschiedene Formen annehmen. So kann quantifiziert werden, wie stark einzelne Faktoren eine Entscheidung beeinflussen.

Bei Bilderkennungsalgorithmen kann beispielsweise eine Heat Map die Stellen eines Bildes hervorheben, die besonders relevant für dessen Klassifizierung waren. Einige dieser Methoden sind zudem unabhängig vom eingesetzten KI-System. Solche Erklärungen bilden die intransparenten Entscheidungsmechanismen der zu erklärenden Algorithmen nur näherungsweise ab. Dies bietet Entwickler:innen mehr Flexibilität, da sie ungeachtet der Erklärbarkeit die leistungsfähigsten Modelle und Methoden für ihre Problemstellung auswählen können, führt zugleich aber auch zu einer Entkoppelung von Entscheidung und Begründung.

Erklärbare KI in der Praxis

Eine der verbreitetsten Methoden dieser Art ist beispielsweise LIME (local interpretable model-agnostic explanations). Die Idee hinter LIME ist, eine einzelne Vorhersage eines Black-Box-Algorithmus mithilfe eines zweiten, transparenten Modells zu imitieren: So wird beispielsweise ein Entscheidungsbaum programmiert oder ein lineares Regressionsmodell aufgestellt, um den Output des komplexeren Algorithmus möglichst gut zu reproduzieren. Anschließend nutzt man dieses interpretierbare Modell, um festzustellen, welche Merkmale den größten Einfluss auf die Vorhersage hatten. Das Verfahren ähnelt dabei menschlichen Erklärungen, die zumeist lediglich stark vereinfachte Rekonstruktionen weitgehend unbewusst und intuitiv stattfindender Entscheidungsprozesse sind.

Darüber hinaus werden inzwischen speziell für neuronale Netze entwickelte Erklärungsmethoden erprobt. Zu den bekanntesten Methoden zählt layer-wise relevance propagation (LRP), die vor allem in der Bilderkennung Anwendung findet. Hier wird ein neuronales Netz umgedreht: Nach einer Vorhersage wird errechnet, welche Pixel des verwendeten Bildes in besonderem Maße zur Aktivierung von Neuronen geführt haben. Auf dieser Basis wird ein Wärmebild erstellt, welches für die Vorhersage wesentliche Regionen des Bildes hervorhebt (siehe Abbildung).

Erklärung eines Bilderkennungsalgorithmus mit LRP (Quelle: Fraunhofer HHI)

Verständlichere Erklärungen anhand von Beispielen

Eine weitere Möglichkeit, algorithmische Entscheidungen und Empfehlungen nachzuvollziehen, ist die Generierung von Beispielen. Beispielhafte Erklärungen machen sich die Tendenz des Menschen zu kontrastierendem Denken zunutze: Wenn es darum geht, ein Ereignis oder einen Zustand zu erklären, greifen wir häufig auf Gegenbeispiele zurück, um kausale Zusammenhänge zu veranschaulichen und wesentliche Unterschiede zwischen den Fällen zu isolieren. Auf diese Weise lässt sich die Komplexität von Erklärungen reduzieren, da ein kausaler Mechanismus so nicht in Gänze vermittelt werden muss, sondern lediglich die für Nutzer:innen kritischen Aspekte.

So kann etwa ein nicht in den Daten enthaltenes Beispiel generiert werden, welches die kleinstmögliche Änderung der Inputs beschreibt, die zu einem vorher definierten (erwünschten) Output führt – etwa, dass ein aktuell überzogenes Kreditkartenlimit ausgeglichen werden muss. Ein wesentlicher Nachteil solcher Erklärungen ist, dass alternative Erklärungen potenziell zurückgehalten werden, da ein einzelnes Gegenbeispiel stets nur eine einzelne Alternative aufzeigen kann. So könnte unter den Tisch fallen, dass ein verweigerter Kredit nicht nur auf das überzogene Kreditkartenlimit zurückzuführen ist, sondern auch bei einem um X Prozent höheren Einkommen bewilligt werden könnte.

Themenkonjunkturen

Wissenschaftliche Publikationen und Patentanmeldungen

Vertrauen in KI als Ziel

Eine optimale Methode, um die Ergebnisse maschineller Lernprozesse zu erklären, gibt es zum gegenwärtigen Zeitpunkt nicht. Vielmehr muss bei der Wahl der Methode stets berücksichtigt werden, welchen Zweck Erklärungen erfüllen sollen, an welche Zielgruppe sie sich richten und ob die gewählte Methode etwa mit regulatorischen Anforderungen in Einklang zu bringen ist. Letztere gilt es für kritische Anwendungsfelder zu entwickeln, um so Vertrauen für den zunehmenden Einsatz von KI-Systemen zu schaffen und Ergebnisse im Einklang mit gesellschaftlichen Anforderungen zu fördern.
Zentrales Problem ist dabei, dass es sich bei Entscheidung und Erklärung um unterschiedliche Prozesse handelt. Der Bruch zwischen diesen Prozessen kann technisch überbrückt, aber auch ausgenutzt werden. Damit Vertrauen in KI-Systeme nicht zur Illusion wird, sind klare Anforderungen an die Nutzerzentrierung und Integrität solcher Systeme nötig.

Kontrollmechanismen sollten verhindern, dass Organisationen mangelhafte oder irreführende Erklärungen nutzen, um bloß den Anschein von Regelkonformität zu erwecken oder Nutzer:innen gar bewusst zu täuschen. Genauso wie erklärbare KI zum Assessment von Systemen beitragen kann, braucht es also ein Assessment der Erklärung solcher Systeme. Zugleich ist zu berücksichtigen, dass derartige Anforderungen in betroffenen Märkten auch einen Eingriff in den Wettbewerb darstellen. Das Risiko unverhältnismäßiger Mehraufwände zulasten kleinerer Marktteilnehmer und die daraus folgenden Marktverzerrungen sollten also für jedes Anwendungsfeld mit bedacht werden.

Folgenabschätzung

Möglichkeiten

Höhere Akzeptanz automatisierter Entscheidungssysteme und Künstlicher Intelligenz
Neue Wege zur Bewertung der Fairness algorithmischer Entscheidungen
Nutzbarmachung leistungsfähiger Black-Box-Algorithmen in kritischen Anwendungsfeldern
Neue Möglichkeiten zur Prüfung und Fehlerbehebung in der Entwicklung
Aufzeigen möglicher Handlungsoptionen für Nutzer:innen

Wagnisse

Informationsverlust durch Reduzierung der Komplexität von Erklärungen
Unzureichende Approximation von Black-Box-Algorithmen durch modellunabhängige Erklärungen
Fehlender Mehrwert durch nicht auf die Zielgruppe zugeschnittene Erklärungen
Unzureichende Erklärungen als Feigenblatt
Effektivitätseinbußen bei Verwendung von transparenten Algorithmen
Benachteiligung kleinerer Unternehmen durch regulatorische Anforderungen

Handlungsräume

Anwendungsfelder identifizieren

Politik und Gesellschaft müssen Anwendungsfelder identifizieren, in denen Erklärungen algorithmischer Entscheidungen und Empfehlungen aufgrund ihrer Tragweite besonders sinnvoll sein können.

Standards ausarbeiten

Um die Automatisierung von Aufgaben in der öffentlichen Verwaltung (siehe Autonome Verwaltungsverfahren) zu erleichtern und Erklärbarkeit zu fördern, sollten Standards für erklärbare KI in der Verwaltung definiert werden.

Implementierung fördern

Eine hohe Akzeptanz von KI-Systemen kann deren großflächigen Einsatz begünstigen. Damit Erklärbarkeit zum Wettbewerbsvorteil werden kann, sollte ihre Implementierung und Weiterentwicklung forciert werden.