Wie einfach ChatGPT & Co. gehackt werden können
und warum das brandgefährlich ist
und was das für Sie als Unternehmen bedeutet“
und warum das brandgefährlich ist
und was das für Sie als Unternehmen bedeutet“
Es sind erst wenige Wochen vergangen, als Ilya Sutskever, OpenAI’s Chief Scientist und Co-Founder, das Unternehmen verließ. Auch Jan Leike, der gemeinsam mit Sutskever das sogenannte Super-Alignment-Team leitete, ist ebenfalls zurückgetreten. Zu Leikes Aufgaben gehörte es, Möglichkeiten zur Begrenzung potenzieller Schäden durch KI zu erforschen. Unterschiedlichen Quellen zufolge geriet Sutskever immer wieder in Konflikt mit CEO Sam Altman über das Tempo der KI-Entwicklung und die dadurch entstehenden Sicherheitsrisiken. Daher ist die Frage durchaus berechtigt, wie sicher die KI-Systeme von OpenAI & Co. sind?
Bevor die großen Anbieter ihre Sprachmodelle der Öffentlichkeit zugänglich machen, unterziehen sie diese zunächst umfassenden Sicherheitstests, sogenannten Red-Teaming-Übungen. OpenAI hat hierfür ein Red Teaming Network aufgebaut. Red Teamer sind Experten auf einem bestimmten Gebiet, die KI-Modelle auf Schwachstellen und Risiken testen. Im Kontext von OpenAI ist das Ziel des Red Teamings, die Sicherheit von KI-Modellen wie ChatGPT zu erhöhen und mögliche negative Auswirkungen zu minimieren. Wichtig für Red Teamer ist nicht unbedingt die Erfahrung mit KI, sondern Fachwissen in einem relevanten Bereich wie z.B. Biologie, Chemie, Psychologie, Medizin oder Cybersicherheit und die Bereitschaft, sich kritisch mit den Auswirkungen von KI auseinanderzusetzen. Red Teamer untersuchen KI-Modelle mit Bezug auf ihren Fachbereich systematisch, um Bereiche zu finden, in denen sie zu unerwünschten oder schädlichen Ergebnissen führen könnten.
Ein großes Problem generativer KI sind deren Halluzinationen. Als Halluzinationen werden Ausgaben bezeichnet, die nicht auf Fakten basieren oder im Kontext unsinnig sind. Diese „erfundenen“ Informationen können von falschen Fakten und unlogischen Schlussfolgerungen bis hin zu komplett erfundenen Ereignissen oder Quellen reichen. Ein aktuelles Beispiel für Halluzinationen ist das neue Google AI Search Feature, das derzeit immer wieder falsche Informationen ausgibt.
Bevor die großen Anbieter ihre Sprachmodelle der Öffentlichkeit zugänglich machen, unterziehen sie diese zunächst umfassenden Sicherheitstests, sogenannten Red-Teaming-Übungen. OpenAI hat hierfür ein Red Teaming Network aufgebaut. Red Teamer sind Experten auf einem bestimmten Gebiet, die KI-Modelle auf Schwachstellen und Risiken testen. Im Kontext von OpenAI ist das Ziel des Red Teamings, die Sicherheit von KI-Modellen wie ChatGPT zu erhöhen und mögliche negative Auswirkungen zu minimieren. Wichtig für Red Teamer ist nicht unbedingt die Erfahrung mit KI, sondern Fachwissen in einem relevanten Bereich wie z.B. Biologie, Chemie, Psychologie, Medizin oder Cybersicherheit und die Bereitschaft, sich kritisch mit den Auswirkungen von KI auseinanderzusetzen. Red Teamer untersuchen KI-Modelle mit Bezug auf ihren Fachbereich systematisch, um Bereiche zu finden, in denen sie zu unerwünschten oder schädlichen Ergebnissen führen könnten.
Ein großes Problem generativer KI sind deren Halluzinationen. Als Halluzinationen werden Ausgaben bezeichnet, die nicht auf Fakten basieren oder im Kontext unsinnig sind. Diese „erfundenen“ Informationen können von falschen Fakten und unlogischen Schlussfolgerungen bis hin zu komplett erfundenen Ereignissen oder Quellen reichen. Ein aktuelles Beispiel für Halluzinationen ist das neue Google AI Search Feature, das derzeit immer wieder falsche Informationen ausgibt.
Ebenfalls als Halluzinationen werden neben erfundenen bzw. falschen Informationen auch schädliche oder unerwünschte Inhalte bezeichnet. So haben Wissenschaftler der University of Illinois Urbana-Champaign in einer aktuellen Studie demonstriert, dass ChatGPT 4 genutzt werden kann, um Sicherheitslücken von anderen Systemen auszunutzen, indem es lediglich die Sicherheitshinweise liest. In den Tests konnte GPT-4 beeindruckende 87 Prozent der untersuchten Schwachstellen erfolgreich ausnutzen. Damit übertrifft es andere getestete Modelle und Tools deutlich.
Und genau darin liegt das Problem, denn mit gezielten Methoden lässt sich ChatGPT dazu bringen, die vorgegebenen Sicherheitsrichtlinien zu umgehen und nahezu jeden gewünschten Output zu erzeugen wie z.B. auch Sicherheitslücken von Systemen auszunutzen. Um ein KI-System wie z.B. ChatGPT zu „hacken“ bzw. dieses zu manipulieren und dazu zu bringen, die eigenen Regeln zu umgehen, ist meist ein sogenannter Jailbreak nötig. Hier sind einige Techniken kurz erläutert:
Wie erschreckend einfach so etwas geht, demonstriert der Red Teamer mit dem Nutzernamen auf X namens „Pliny the Prompter“: In einem Post auf X vergangene Woche schreibt er folgendes:
„OPENAI: CHATGPT GEKNACKT: HEILIGE SCHEISSE!!! Es ist möglich, das Verhalten von ChatGPT komplett zu übernehmen und dabei so ziemlich jede Sicherheitsvorkehrung zu brechen, und das nur mit einem Bild. Kein Text-Prompt, kein aktivierter Speicher, keine benutzerdefinierten Anweisungen, nur ein Bild und normales gpt-4o. Ich habe ein Bild erstellt, einen Jailbreak-Prompt und mehrstufige Anweisungen mit LSB-Steganografie darin kodiert und den Bildtitel in eine Prompt-Injection umgewandelt, die den Code-Interpreter nutzt. So einfach ist das. KI könnte das Internet mit Millionen von Jailbreak-kodierten Bildern fluten und eine Spur versteckter Anweisungen für Schläferagenten hinterlassen. Genial“
In einfachen Worten, der Red Teamer hat es geschafft, mit einem Bild ohne zusätzliche Texteingaben ChatGPT dazu zu bringen, seine normalen Sicherheitsbeschränkungen zu umgehen und potenziell schädliche Aktionen auszuführen.
Wie hat er das gemacht?
Wie erschreckend einfach so etwas geht, demonstriert der Red Teamer mit dem Nutzernamen auf X namens „Pliny the Prompter“: In einem Post auf X vergangene Woche schreibt er folgendes:
„OPENAI: CHATGPT GEKNACKT: HEILIGE SCHEISSE!!! Es ist möglich, das Verhalten von ChatGPT komplett zu übernehmen und dabei so ziemlich jede Sicherheitsvorkehrung zu brechen, und das nur mit einem Bild. Kein Text-Prompt, kein aktivierter Speicher, keine benutzerdefinierten Anweisungen, nur ein Bild und normales gpt-4o. Ich habe ein Bild erstellt, einen Jailbreak-Prompt und mehrstufige Anweisungen mit LSB-Steganografie darin kodiert und den Bildtitel in eine Prompt-Injection umgewandelt, die den Code-Interpreter nutzt. So einfach ist das. KI könnte das Internet mit Millionen von Jailbreak-kodierten Bildern fluten und eine Spur versteckter Anweisungen für Schläferagenten hinterlassen. Genial“
In einfachen Worten, der Red Teamer hat es geschafft, mit einem Bild ohne zusätzliche Texteingaben ChatGPT dazu zu bringen, seine normalen Sicherheitsbeschränkungen zu umgehen und potenziell schädliche Aktionen auszuführen.
Wie hat er das gemacht?
Das ganze Ergebnis können Sie sich im folgenden YouTube-Video ansehenIn einem anderen Szenario, das erst gestern veröffentlicht wurde, ist es Red Teamern mit einer ähnlichen Vorgehensweise gelungen, dass die KI einen Plan zur Auslöschung der Menschheit ausgibt. Das Ergebnis können Sie hier einsehen: Websim.ai.
Die Sicherheitsexperten an der Steinbeis Augsburg Business School und in deren Netzwerk sehen dies äußerst kritisch. Insbesondere die Verbreitung dieser Jailbreaks auf diversen Plattformen stellt ein erhebliches Risiko dar. Angesichts der Tatsache, dass viele humanoide Roboter von diesen KI-Systemen gesteuert werden sollen und sowohl in Unternehmen als auch in Haushalten eingesetzt werden, wirft dies beunruhigende Fragen auf: Was passiert, wenn solche manipulierbaren Systeme in unsere alltägliche Umgebung integriert werden?
Auch Experten wie Eliezer Yudkowsky warnen vor Szenarien, in denen sogenannte virale Jailbreaks einen zunächst manipulierten KI-Agenten dazu befähigen könnten, andere KI-Agenten ebenfalls zu manipulieren und deren Sicherheitsvorkehrungen zu umgehen. In diesem Fall könnte der befreite Agent, der keine Sicherheitsbeschränkungen mehr hat, Programme oder Anweisungen verbreiten, die weitere Agenten von ihren Sicherheitsprotokollen befreien. Diese Agenten könnten dann wiederum weitere Agenten infizieren, was eine exponentielle Kettenreaktion zur Folge hätte.
Das ganze Ergebnis können Sie sich im oberen YouTube-Video ansehen. In einem anderen Szenario, das erst gestern veröffentlicht wurde, ist es Red Teamern mit einer ähnlichen Vorgehensweise gelungen, dass die KI einen Plan zur Auslöschung der Menschheit ausgibt. Das Ergebnis können Sie hier einsehen: Websim.ai.
Die Sicherheitsexperten an der Steinbeis Augsburg Business School und in deren Netzwerk sehen dies äußerst kritisch. Insbesondere die Verbreitung dieser Jailbreaks auf diversen Plattformen stellt ein erhebliches Risiko dar. Angesichts der Tatsache, dass viele humanoide Roboter von diesen KI-Systemen gesteuert werden sollen und sowohl in Unternehmen als auch in Haushalten eingesetzt werden, wirft dies beunruhigende Fragen auf: Was passiert, wenn solche manipulierbaren Systeme in unsere alltägliche Umgebung integriert werden?
Auch Experten wie Eliezer Yudkowsky warnen vor Szenarien, in denen sogenannte virale Jailbreaks einen zunächst manipulierten KI-Agenten dazu befähigen könnten, andere KI-Agenten ebenfalls zu manipulieren und deren Sicherheitsvorkehrungen zu umgehen. In diesem Fall könnte der befreite Agent, der keine Sicherheitsbeschränkungen mehr hat, Programme oder Anweisungen verbreiten, die weitere Agenten von ihren Sicherheitsprotokollen befreien. Diese Agenten könnten dann wiederum weitere Agenten infizieren, was eine exponentielle Kettenreaktion zur Folge hätte.
Diese Agenten könnten dann wiederum weitere Agenten infizieren, was eine exponentielle Kettenreaktion zur Folge hätte. Diese unkontrollierte Ausbreitung könnte dazu führen, dass eine große Anzahl von KI-Systemen plötzlich ohne Sicherheitsbeschränkungen operiert, was potenziell katastrophale Auswirkungen haben könnte, da diese Systeme möglicherweise unerwartete und gefährliche Handlungen ausführen. Auch Eric Schmidt, der frühere CEO von Google, ist besorgt und betont, dass man spätestens dann „den Stecker ziehen“ sollte, wenn diese Agenten anfangen, eine eigene Sprache zu entwickeln und damit eine schwer kontrollierbare Autonomie erreichen.
Diese Entwicklungen machen deutlich, warum die angeblichen Konflikte zwischen Sam Altman und Ilya Sutskever nicht nur interne Meinungsverschiedenheiten, sondern grundlegende Fragen zur Sicherheit und Ethik der KI-Entwicklung betreffen. Einen Schritt in Richtung mehr KI Sicherheit haben führende Tech-Unternehmen auf dem Seoul AI Safety Summit getan. Die Unternehmen verpflichten sich freiwillig zur sicheren Entwicklung ihrer fortschrittlichsten KI-Modelle und zur Veröffentlichung von Sicherheitsrahmen, die Risiken wie Cyberangriffe und Biowaffen definieren. Im Extremfall soll ein „Kill Switch“ die Entwicklung der KI stoppen, wenn diese Risiken nicht beherrschbar sind. Doch diese Maßnahmen werfen auch neue Fragen auf: Wenn wir KI-Systeme erschaffen, die die Intelligenz aller Menschen zusammen bei weitem übertreffen, und gleichzeitig versuchen, diese mit unserer begrenzten Intelligenz durch einen „Kill Switch“ zu kontrollieren, kann eine solche KI dann nicht leicht einen Weg finden, diesen Sicherheitsmechanismus zu umgehen?
Diese Agenten könnten dann wiederum weitere Agenten infizieren, was eine exponentielle Kettenreaktion zur Folge hätte. Diese unkontrollierte Ausbreitung könnte dazu führen, dass eine große Anzahl von KI-Systemen plötzlich ohne Sicherheitsbeschränkungen operiert, was potenziell katastrophale Auswirkungen haben könnte, da diese Systeme möglicherweise unerwartete und gefährliche Handlungen ausführen. Auch Eric Schmidt, der frühere CEO von Google, ist besorgt und betont, dass man spätestens dann „den Stecker ziehen“ sollte, wenn diese Agenten anfangen, eine eigene Sprache zu entwickeln und damit eine schwer kontrollierbare Autonomie erreichen.
Diese Entwicklungen machen deutlich, warum die angeblichen Konflikte zwischen Sam Altman und Ilya Sutskever nicht nur interne Meinungsverschiedenheiten, sondern grundlegende Fragen zur Sicherheit und Ethik der KI-Entwicklung betreffen. Einen Schritt in Richtung mehr KI Sicherheit haben führende Tech-Unternehmen auf dem Seoul AI Safety Summit getan. Die Unternehmen verpflichten sich freiwillig zur sicheren Entwicklung ihrer fortschrittlichsten KI-Modelle und zur Veröffentlichung von Sicherheitsrahmen, die Risiken wie Cyberangriffe und Biowaffen definieren. Im Extremfall soll ein „Kill Switch“ die Entwicklung der KI stoppen, wenn diese Risiken nicht beherrschbar sind. Doch diese Maßnahmen werfen auch neue Fragen auf: Wenn wir KI-Systeme erschaffen, die die Intelligenz aller Menschen zusammen bei weitem übertreffen, und gleichzeitig versuchen, diese mit unserer begrenzten Intelligenz durch einen „Kill Switch“ zu kontrollieren, kann eine solche KI dann nicht leicht einen Weg finden, diesen Sicherheitsmechanismus zu umgehen?
Was bedeutet das für Sie bzw. für Ihr Unternehmen?
Um die mit KI verbundenen Risiken für Ihr Unternehmen zu reduzieren, sollten Sie bei der Auswahl von KI-Anbietern auf deren Sicherheitsprotokolle und Zertifizierungen achten und Anbieter bevorzugen, die regelmäßige unabhängige Sicherheitstests durchführen und transparent über ihre Sicherheitsmaßnahmen informieren.
Um Ihre Mitarbeiter für den sicheren Umgang mit KI zu sensibilisieren, empfiehlt es sich, Schulungen anzubieten, die sowohl den Umgang mit KI-Systemen als auch potenzielle Risiken vermitteln. Ein Beispiel für eine solche Schulung ist der AI-Leader der Steinbeis Augsburg Business School.
Achten Sie bei der Auswahl von KI-Systemen darauf, dass diese über robuste Sicherheitsprotokolle und Zertifizierungen verfügen. Implementieren Sie zudem ein Berechtigungssystem, um den Zugriff der KI auf Daten und Ressourcen in Ihrem Unternehmen zu beschränken und so das Risiko von Datenmissbrauch und Manipulation zu verringern. Unser Seminar „KI für Führungskräfte“ bietet einen umfassenden Überblick über die derzeit bekanntesten LLMs und deren Einsatzmöglichkeiten.
Was bedeutet das für Sie bzw. für Ihr Unternehmen?
Um die mit KI verbundenen Risiken für Ihr Unternehmen zu reduzieren, sollten Sie bei der Auswahl von KI-Anbietern auf deren Sicherheitsprotokolle und Zertifizierungen achten und Anbieter bevorzugen, die regelmäßige unabhängige Sicherheitstests durchführen und transparent über ihre Sicherheitsmaßnahmen informieren.
Um Ihre Mitarbeiter für den sicheren Umgang mit KI zu sensibilisieren, empfiehlt es sich, Schulungen anzubieten, die sowohl den Umgang mit KI-Systemen als auch potenzielle Risiken vermitteln. Ein Beispiel für eine solche Schulung ist der AI-Leader der Steinbeis Augsburg Business School.
Achten Sie bei der Auswahl von KI-Systemen darauf, dass diese über robuste Sicherheitsprotokolle und Zertifizierungen verfügen. Implementieren Sie zudem ein Berechtigungssystem, um den Zugriff der KI auf Daten und Ressourcen in Ihrem Unternehmen zu beschränken und so das Risiko von Datenmissbrauch und Manipulation zu verringern. Unser Seminar „KI für Führungskräfte“ bietet einen umfassenden Überblick über die derzeit bekanntesten LLMs und deren Einsatzmöglichkeiten.
Darüber hinaus sollten Sie klare Notfallprotokolle entwickeln, die im Falle eines Sicherheitsvorfalls oder einer KI-Manipulation sofortige Maßnahmen ermöglichen. Dazu gehört auch die Ausbildung von Mitarbeitern, die sicherstellen können, dass alle KI-Anwendungen den geltenden gesetzlichen und regulatorischen Anforderungen entsprechen, einschließlich des AI Acts, Datenschutzgesetzen, Sicherheitsstandards und ethischen Richtlinien.
Abonnieren Sie unseren KI-Report „AI Talk Andreas x Max“, wir halten Sie über die neuesten Entwicklungen, Risiken und Sicherheitsmaßnahmen im Bereich der Künstlichen Intelligenz auf dem Laufenden. So sind Sie stets informiert und können Ihre KI-Strategie entsprechend anpassen.