Data Poisoning – die Integrität eines KI-Modells untergraben. (Bild: freepik.com (standret))
In immer mehr Bereichen der Druckindustrie, sei es bei Zulieferern oder auch den produzierenden Unternehmen, werden Arbeitsprozesse KI-gestützt verbessert oder gar revolutioniert. Eine große Datenbasis ist dabei stets der zentrale Punkt, um das jeweilige KI-Modell dahingehend zu trainieren. Was aber, wenn man sich der Integrität dieser Daten nicht mehr sicher sein kann?
Anzeige
Michael Schüle, Fachredakteur Deutscher Drucker, print.de & Grafische Palette.
Big Data – stets die KI-Grundlage
Wie von Zauberhand freigestellte Bilder mit nur einem Mausklick, monatliche Absatzprognosen für Ihre Top-10-Kunden in Sekundenschnelle oder erstaunliche Verbesserungen in der Produktionstechnik aufgrund einer ausgiebigen, systemübergreifenden Prozessdatenanalyse: Immer mehr KI-Modelle sorgen dafür, dass wir das riesige Potenzial von Big Data nutzen, um Arbeitsprozesse zu verschlanken, zu vereinfachen oder sogar völlig neu zu denken. Meist sind die Ergebnisse faszinierend – und es wird immer klarer erkennbar, was in Zusammenhang mit Künstlicher Intelligenz gemeint ist, wenn man von der künftigen „Macht der Daten“ spricht.
Doch wie so oft im Leben ist es auch hier nur ein schmaler Grat, der die „Macht“ von der „Ohnmacht“ trennt. Mit Data Poisoning gibt es bereits ein ernsthaftes Bedrohungsszenario für die Sicherheit von KI-Systemen. Wie das IT-Fachportal BigData-Insider jüngst mitteilte, ist Data Poisoning keine einfache Datenmanipulation, sondern zielt ganz bewusst darauf ab, die Integrität eines Machine-Learning-Modells zu untergraben. Entweder schon in der Trainingsphase (durch gezielte Verfälschung der Trainingsdaten für den Algorithmus) oder bei bereits im Einsatz befindlichen KI-Modellen durch bewusst gefälschte Interaktionsdaten (beispielsweise bei Chatbot-basierten Empfehlungssystemen im E-Commerce). Und die Liste möglicher Data-Poisoning-Methoden ist schon erstaunlich lang: Label Flipping, Noise, FGSM (Fast Gradient Sign Method), Backdoors etc. Mit klassischen Cybersicherheitsmaßnahmen allein ist dieser Bedrohung dann nicht mehr Herr zu werden, es bedarf spezialisierter Techniken wie etwa Data Sanitization – und für den Schutz von KI-Modellen ganz generell der engen Zusammenarbeit von Entwicklern, Forschern und Sicherheitsexperten.
Wir, die Drucker, verfügen hier natürlich nicht über das notwendige Spezialwissen, sollten aber zumindest über die Grundlagen der Gefährdung Bescheid wissen. So wie uns allen heutzutage klar ist, dass man bestimmte E-Mail-Links aus Sicherheitsgründen nicht einfach anklicken darf. Und wir sollten unsere eigenen Unternehmensdaten bestmöglich sichern, vor Cyberzugriff schützen und die Herkunft externer Datenpools, die wir ggf. zusätzlich für das Training eines KI-Modells nutzen wollen, kennen. Das wird künftig das Sicherheits-Minimum sein.
Sie wollen mehr über Noise, FGSM, Label Flipping oder Data Sanitization wissen? Der Autor des BigData-Insider, Rolf Schulz, erklärt die Data-Poisoning-Gefahren und Gegenmaßnahmen in diesem Video.