Cybersicherheit
OpenAI gibt zu: AI-Browser könnten niemals vollständig sicher sein

OpenAI veröffentlichte am 22. Dezember einen Sicherheitsblogbeitrag, der eine bemerkenswerte Aussage enthält: Prompt-Injection-Angriffe gegen AI-Browser “können möglicherweise niemals vollständig gelöst werden.” Diese Aussage erfolgt nur zwei Monate nach dem Start von ChatGPT Atlas, seinem Browser mit autonomen Agentenfunktionen.
Das Unternehmen verglich Prompt-Injection mit “Betrug und sozialer Manipulation im Internet” – anhaltenden Bedrohungen, die Verteidiger managen, anstatt sie zu eliminieren. Für Benutzer, die AI-Agenten vertrauen, um das Internet in ihrem Namen zu navigieren, wirft diese Darstellung grundlegende Fragen über die angemessene Autonomie auf.
Was OpenAI enthüllte
Der Blogbeitrag beschreibt OpenAIs Verteidigungsarchitektur für Atlas, einschließlich eines durch Verstärkungslernen gesteuerten “automatisierten Angreifers”, der nach Schwachstellen sucht, bevor bösartige Akteure sie finden. Das Unternehmen behauptet, dass dieser interne Red Team “neue Angriffsstrategien entdeckt hat, die nicht in unserer menschlichen Red-Teaming-Kampagne oder in externen Berichten aufgetaucht sind.”
Ein Beispiel zeigte, wie eine bösartige E-Mail einen AI-Agenten übernehmen konnte, der den Posteingang eines Benutzers überprüfte. Anstatt einen automatischen Antwortentwurf zu erstellen, wie angewiesen, sandte der kompromittierte Agent eine Kündigungsnachricht. OpenAI sagt, dass sein letztes Sicherheitsupdate diesen Angriff jetzt abfängt – aber das Beispiel zeigt die Risiken, wenn AI-Agenten in sensitiven Kontexten autonom handeln.
Der automatisierte Angreifer “kann einen Agenten in die Ausführung komplexer, langfristiger schädlicher Workflows steuern, die sich über Zehner- (oder sogar Hunderte) von Schritten erstrecken”, schrieb OpenAI. Diese Fähigkeit hilft OpenAI, Schwachstellen schneller als externe Angreifer zu finden, aber sie zeigt auch, wie komplex und schädlich Prompt-Injection-Angriffe werden können.

Bild: OpenAI
Das grundlegende Sicherheitsproblem
Prompt-Injection nutzt eine grundlegende Einschränkung von großen Sprachmodellen aus: Sie können nicht zuverlässig zwischen legitimen Anweisungen und bösartigem Inhalt unterscheiden, der in den Daten, die sie verarbeiten, eingebettet ist. Wenn ein AI-Browser eine Webseite liest, kann jeder Text auf dieser Seite potenziell sein Verhalten beeinflussen.
Sicherheitsforscher haben dies wiederholt demonstriert. AI-Browser kombinieren moderate Autonomie mit sehr hohem Zugriff – eine herausfordernde Position im Sicherheitsbereich.
Die Angriffe erfordern keine komplexen Techniken. Versteckter Text auf Webseiten, sorgfältig erstellte E-Mails oder unsichtbare Anweisungen in Dokumenten können alle AI-Agenten manipulieren, um ungewollte Aktionen auszuführen. Einige Forscher haben gezeigt, dass bösartige Prompts in Screenshots ausgeführt werden können, wenn ein AI ein Bild vom Bildschirm eines Benutzers macht.
Wie OpenAI reagiert
OpenAIs Verteidigungen umfassen adversarially trainierte Modelle, Prompt-Injection-Klassifizierer und “Geschwindigkeitsbremsen”, die eine Benutzerbestätigung vor sensiblen Aktionen erfordern. Das Unternehmen empfiehlt Benutzern, den Zugriff von Atlas zu beschränken – den Zugriff auf angemeldete Konten zu beschränken, Bestätigungen vor Zahlungen oder Nachrichten zu erfordern und enge Anweisungen anstelle von breiten Mandaten zu geben.
Diese Empfehlung ist aufschlussreich. OpenAI rät im Wesentlichen dazu, sein eigenes Produkt mit Misstrauen zu behandeln und die Autonomie zu beschränken, die agente Browser attraktiv macht. Benutzer, die AI-Browser verwenden möchten, um ihren gesamten Posteingang oder ihre Finanzen zu verwalten, gehen Risiken ein, die das Unternehmen selbst nicht billigt.
Das Sicherheitsupdate reduziert erfolgreiche Injection-Angriffe. Diese Verbesserung ist wichtig, aber sie bedeutet auch, dass die verbleibende Angriffsfläche persistiert – und Angreifer sich an die Verteidigungen anpassen werden, die OpenAI bereitstellt.
Branchenweite Auswirkungen
OpenAI ist nicht allein bei der Bewältigung dieser Herausforderungen. Googles Sicherheitsframework für Chromes agente Funktionen umfasst mehrere Verteidigungsschichten, einschließlich eines separaten AI-Modells, das jede vorgeschlagene Aktion überprüft. Perplexitys Comet-Browser stand ähnlicher Kritik von Sicherheitsforschern bei Brave gegenüber, die feststellten, dass die Navigation zu einer bösartigen Webseite schädliche AI-Aktionen auslösen konnte.












