Wie man heimlich Sprach-KIs aushebelt

Wie man heimlich Sprach-KIs aushebelt

Spektrum der Wissenschaft
Spektrum der Wissenschaft
Heidelberg, am 09.03.2020
Bilder: Thomas Kunz

Aktuelle Sprach-KIs verstehen kurze Texte erstaunlich gut. Doch eine neue Software führt sie aufs Glatteis, indem sie Sätze für uns unmerklich umschreibt.

Selbst die derzeit besten Sprach-KIs lassen sich offenbar in die Irre führen, einfach indem man in einem Satz ein oder zwei Wörter durch gleichbedeutende austauscht. Ein menschlicher Leser würde diese Manipulation nicht bemerken. Der Computer hingegen interpretiert den Satz plötzlich ganz anders als zuvor.

Ein solcher «Angriff» auf das KI-System funktioniert auch dann, wenn man nichts über die innere Funktionsweise der sprachverarbeitenden Software weiß. Darum könnte er theoretisch von Hackern ausgenutzt werden, um eine KI lahmzulegen. Als ähnlich angreifbar erwies sich bereits die Bildverarbeitung: Eine mit dem bloßen Auge nicht wahrnehmbare Manipulation einzelner Pixel führt dazu, dass der Computer das Bild plötzlich völlig falsch analysiert.

Wie man die Textverarbeitung aushebelt, beschreiben Forscher um Di Jin vom Computer Science and Artificial Intelligence Laboratory (CSAIL) des MIT in einem Beitrag auf «arXiv». Sie programmierten eine Software darauf, zunächst diejenigen Wörter im Satz zu identifizieren, die für die Interpretation am wichtigsten sind. Dazu fütterten sie den Satz wieder und wieder derselben KI, ließen aber immer einzelne Wörter aus. Die Bestandteile, bei denen sich das ausgegebene Ergebnis am stärksten änderte, wurden im nächsten Schritt durch Synonyme ersetzt. Dabei probierte der Computer alle möglichen Alternativkandidaten durch, bis er einen fand, der die ursprüngliche KI zum Stolpern brachte.

Die Forscher testeten ihr Verfahren an mehreren aktuellen Sprach-KIs, darunter das von Google entwickelte System BERT: Dies revolutionierte im Jahr 2018 das Feld und bildet seitdem die Basis zahlreicher experimenteller Programme für maschinelle Sprachverarbeitung. Die TextFooler genannte und frei verfügbare Software bietet allerdings auch die Chance, die nächste Generation von Sprach-KIs zu verbessern – das Lernverfahren müsste dazu um einen Schritt erweitert werden, der die Empfindlichkeit gegenüber einer solchen Attacke mit Synonymen verringert.

Spektrum der Wissenschaft

Wir sind Partner von Spektrum der Wissenschaft und möchten dir fundierte Informationen besser zugänglich machen. Folge Spektrum der Wissenschaft, falls dir die Artikel gefallen.

Originalartikel auf Spektrum.de, Photo by Brian Kostiuk

26 Personen gefällt dieser Artikel


Spektrum der Wissenschaft
Spektrum der Wissenschaft

Wissenschaft aus erster Hand, Heidelberg

Experten aus Wissenschaft und Forschung berichten über die aktuellen Erkenntnisse ihrer Fachgebiete – kompetent, authentisch und verständlich.

Diese Beiträge könnten dich auch interessieren