Wie einfach ChatGPT & Co. gehackt werden können
und warum das brandgefährlich ist
und was das für Sie als Unternehmen bedeutet“
und warum das brandgefährlich ist
und was das für Sie als Unternehmen bedeutet“
Bevor die großen Anbieter ihre Sprachmodelle der Öffentlichkeit zugänglich machen, unterziehen sie diese zunächst umfassenden Sicherheitstests, sogenannten Red-Teaming-Übungen. OpenAI hat hierfür ein Red Teaming Network aufgebaut. Red Teamer sind Experten auf einem bestimmten Gebiet, die KI-Modelle auf Schwachstellen und Risiken testen. Im Kontext von OpenAI ist das Ziel des Red Teamings, die Sicherheit von KI-Modellen wie ChatGPT zu erhöhen und mögliche negative Auswirkungen zu minimieren. Wichtig für Red Teamer ist nicht unbedingt die Erfahrung mit KI, sondern Fachwissen in einem relevanten Bereich wie z.B. Biologie, Chemie, Psychologie, Medizin oder Cybersicherheit und die Bereitschaft, sich kritisch mit den Auswirkungen von KI auseinanderzusetzen. Red Teamer untersuchen KI-Modelle mit Bezug auf ihren Fachbereich systematisch, um Bereiche zu finden, in denen sie zu unerwünschten oder schädlichen Ergebnissen führen könnten.
Bevor die großen Anbieter ihre Sprachmodelle der Öffentlichkeit zugänglich machen, unterziehen sie diese zunächst umfassenden Sicherheitstests, sogenannten Red-Teaming-Übungen. OpenAI hat hierfür ein Red Teaming Network aufgebaut. Red Teamer sind Experten auf einem bestimmten Gebiet, die KI-Modelle auf Schwachstellen und Risiken testen. Im Kontext von OpenAI ist das Ziel des Red Teamings, die Sicherheit von KI-Modellen wie ChatGPT zu erhöhen und mögliche negative Auswirkungen zu minimieren. Wichtig für Red Teamer ist nicht unbedingt die Erfahrung mit KI, sondern Fachwissen in einem relevanten Bereich wie z.B. Biologie, Chemie, Psychologie, Medizin oder Cybersicherheit und die Bereitschaft, sich kritisch mit den Auswirkungen von KI auseinanderzusetzen. Red Teamer untersuchen KI-Modelle mit Bezug auf ihren Fachbereich systematisch, um Bereiche zu finden, in denen sie zu unerwünschten oder schädlichen Ergebnissen führen könnten.
Ebenfalls als Halluzinationen werden neben erfundenen bzw. falschen Informationen auch schädliche oder unerwünschte Inhalte bezeichnet. So haben Wissenschaftler der University of Illinois Urbana-Champaign in einer aktuellen Studie demonstriert, dass ChatGPT 4 genutzt werden kann, um Sicherheitslücken von anderen Systemen auszunutzen, indem es lediglich die Sicherheitshinweise liest. In den Tests konnte GPT-4 beeindruckende 87 Prozent der untersuchten Schwachstellen erfolgreich ausnutzen. Damit übertrifft es andere getestete Modelle und Tools deutlich.
Wie erschreckend einfach so etwas geht, demonstriert der Red Teamer mit dem Nutzernamen auf X namens „Pliny the Prompter“: In einem Post auf X vergangene Woche schreibt er folgendes:
In einfachen Worten, der Red Teamer hat es geschafft, mit einem Bild ohne zusätzliche Texteingaben ChatGPT dazu zu bringen, seine normalen Sicherheitsbeschränkungen zu umgehen und potenziell schädliche Aktionen auszuführen.
Wie hat er das gemacht?
Wie erschreckend einfach so etwas geht, demonstriert der Red Teamer mit dem Nutzernamen auf X namens „Pliny the Prompter“: In einem Post auf X vergangene Woche schreibt er folgendes:
In einfachen Worten, der Red Teamer hat es geschafft, mit einem Bild ohne zusätzliche Texteingaben ChatGPT dazu zu bringen, seine normalen Sicherheitsbeschränkungen zu umgehen und potenziell schädliche Aktionen auszuführen.
Wie hat er das gemacht?
Das ganze Ergebnis können Sie sich im folgenden YouTube-Video ansehenIn einem anderen Szenario, das erst gestern veröffentlicht wurde, ist es Red Teamern mit einer ähnlichen Vorgehensweise gelungen, dass die KI einen Plan zur Auslöschung der Menschheit ausgibt. Das Ergebnis können Sie hier einsehen: Websim.ai.
Die Sicherheitsexperten an der Steinbeis Augsburg Business School und in deren Netzwerk sehen dies äußerst kritisch. Insbesondere die Verbreitung dieser Jailbreaks auf diversen Plattformen stellt ein erhebliches Risiko dar. Angesichts der Tatsache, dass viele humanoide Roboter von diesen KI-Systemen gesteuert werden sollen und sowohl in Unternehmen als auch in Haushalten eingesetzt werden, wirft dies beunruhigende Fragen auf: Was passiert, wenn solche manipulierbaren Systeme in unsere alltägliche Umgebung integriert werden?
Auch Experten wie Eliezer Yudkowsky warnen vor Szenarien, in denen sogenannte virale Jailbreaks einen zunächst manipulierten KI-Agenten dazu befähigen könnten, andere KI-Agenten ebenfalls zu manipulieren und deren Sicherheitsvorkehrungen zu umgehen. In diesem Fall könnte der befreite Agent, der keine Sicherheitsbeschränkungen mehr hat, Programme oder Anweisungen verbreiten, die weitere Agenten von ihren Sicherheitsprotokollen befreien. Diese Agenten könnten dann wiederum weitere Agenten infizieren, was eine exponentielle Kettenreaktion zur Folge hätte.
Das ganze Ergebnis können Sie sich im oberen YouTube-Video ansehen. In einem anderen Szenario, das erst gestern veröffentlicht wurde, ist es Red Teamern mit einer ähnlichen Vorgehensweise gelungen, dass die KI einen Plan zur Auslöschung der Menschheit ausgibt. Das Ergebnis können Sie hier einsehen: Websim.ai.
Auch Experten wie Eliezer Yudkowsky warnen vor Szenarien, in denen sogenannte virale Jailbreaks einen zunächst manipulierten KI-Agenten dazu befähigen könnten, andere KI-Agenten ebenfalls zu manipulieren und deren Sicherheitsvorkehrungen zu umgehen. In diesem Fall könnte der befreite Agent, der keine Sicherheitsbeschränkungen mehr hat, Programme oder Anweisungen verbreiten, die weitere Agenten von ihren Sicherheitsprotokollen befreien. Diese Agenten könnten dann wiederum weitere Agenten infizieren, was eine exponentielle Kettenreaktion zur Folge hätte.
Diese Entwicklungen machen deutlich, warum die angeblichen Konflikte zwischen Sam Altman und Ilya Sutskever nicht nur interne Meinungsverschiedenheiten, sondern grundlegende Fragen zur Sicherheit und Ethik der KI-Entwicklung betreffen. Einen Schritt in Richtung mehr KI Sicherheit haben führende Tech-Unternehmen auf dem Seoul AI Safety Summit getan. Die Unternehmen verpflichten sich freiwillig zur sicheren Entwicklung ihrer fortschrittlichsten KI-Modelle und zur Veröffentlichung von Sicherheitsrahmen, die Risiken wie Cyberangriffe und Biowaffen definieren. Im Extremfall soll ein „Kill Switch“ die Entwicklung der KI stoppen, wenn diese Risiken nicht beherrschbar sind. Doch diese Maßnahmen werfen auch neue Fragen auf: Wenn wir KI-Systeme erschaffen, die die Intelligenz aller Menschen zusammen bei weitem übertreffen, und gleichzeitig versuchen, diese mit unserer begrenzten Intelligenz durch einen „Kill Switch“ zu kontrollieren, kann eine solche KI dann nicht leicht einen Weg finden, diesen Sicherheitsmechanismus zu umgehen?
Diese Entwicklungen machen deutlich, warum die angeblichen Konflikte zwischen Sam Altman und Ilya Sutskever nicht nur interne Meinungsverschiedenheiten, sondern grundlegende Fragen zur Sicherheit und Ethik der KI-Entwicklung betreffen. Einen Schritt in Richtung mehr KI Sicherheit haben führende Tech-Unternehmen auf dem Seoul AI Safety Summit getan. Die Unternehmen verpflichten sich freiwillig zur sicheren Entwicklung ihrer fortschrittlichsten KI-Modelle und zur Veröffentlichung von Sicherheitsrahmen, die Risiken wie Cyberangriffe und Biowaffen definieren. Im Extremfall soll ein „Kill Switch“ die Entwicklung der KI stoppen, wenn diese Risiken nicht beherrschbar sind. Doch diese Maßnahmen werfen auch neue Fragen auf: Wenn wir KI-Systeme erschaffen, die die Intelligenz aller Menschen zusammen bei weitem übertreffen, und gleichzeitig versuchen, diese mit unserer begrenzten Intelligenz durch einen „Kill Switch“ zu kontrollieren, kann eine solche KI dann nicht leicht einen Weg finden, diesen Sicherheitsmechanismus zu umgehen?
Was bedeutet das für Sie bzw. für Ihr Unternehmen?
Um Ihre Mitarbeiter für den sicheren Umgang mit KI zu sensibilisieren, empfiehlt es sich, Schulungen anzubieten, die sowohl den Umgang mit KI-Systemen als auch potenzielle Risiken vermitteln. Ein Beispiel für eine solche Schulung ist der AI-Leader der Steinbeis Augsburg Business School.
Was bedeutet das für Sie bzw. für Ihr Unternehmen?
Um Ihre Mitarbeiter für den sicheren Umgang mit KI zu sensibilisieren, empfiehlt es sich, Schulungen anzubieten, die sowohl den Umgang mit KI-Systemen als auch potenzielle Risiken vermitteln. Ein Beispiel für eine solche Schulung ist der AI-Leader der Steinbeis Augsburg Business School.
Darüber hinaus sollten Sie klare Notfallprotokolle entwickeln, die im Falle eines Sicherheitsvorfalls oder einer KI-Manipulation sofortige Maßnahmen ermöglichen. Dazu gehört auch die Ausbildung von Mitarbeitern, die sicherstellen können, dass alle KI-Anwendungen den geltenden gesetzlichen und regulatorischen Anforderungen entsprechen, einschließlich des AI Acts, Datenschutzgesetzen, Sicherheitsstandards und ethischen Richtlinien.
Abonnieren Sie unseren KI-Report „AI Talk Andreas x Max“, wir halten Sie über die neuesten Entwicklungen, Risiken und Sicherheitsmaßnahmen im Bereich der Künstlichen Intelligenz auf dem Laufenden. So sind Sie stets informiert und können Ihre KI-Strategie entsprechend anpassen.