Am 17. Juli 2025 stellte OpenAI einen neuen Assistenten vor, der weit über die bisherige Chat‑Funktion hinausgeht: Der ChatGPT Agent nutzt eine virtuelle Maschine, die ein visuelles und ein textbasiertes Browsing sowie ein Terminal bereitstellt. Er kann eigene Dateien erstellen (beispielsweise PowerPoint‑Präsentationen und Excel‑Tabellen), durchs Web navigieren, und Online‑Formulare ausfüllen. Ein Agent im Kontext der Künstlichen Intelligenz bezeichnet ein System, das selbstständig Werkzeuge bedienen und Entscheidungen treffen kann. Der ChatGPT Agentenmodus bildet damit eine Brücke zwischen Forschung, Planung und tatsächlichem Handeln.

Was steckt hinter dem ChatGPT Agent?

Die zugrunde liegende Architektur kombiniert zwei frühere Module von OpenAI: Operator, der Webseiten anklicken und durchscrollen kann, und Deep Research, das umfangreiche Recherchen durchführt und Informationen zusammenfasst. Diese Zusammenführung ermöglicht es dem Agenten, zwischen einem visuellen Browser und einem textbasierten Browser zu wechseln und dadurch effizienter zu arbeiten. Funktionen wie Code‑Ausführung im Terminal, API‑Anbindung und Dateigenerierung schaffen einen einheitlichen Arbeitsablauf.

Wichtige Funktionen des ChatGPT Agentenmodus

Virtueller Browser und Textbrowser

Der ChatGPT Agent verfügt über zwei Browser‑Varianten. Der visuelle Browser emuliert menschliche Interaktion: Er scrollt, klickt und füllt Formulare aus. Der textbasierte Browser hingegen extrahiert zügig Inhalte und eignet sich für lange Dokumente oder schnelle Recherche. Das System wählt automatisch den passenden Modus, sodass Aufgaben wie Online‑Shopping, wissenschaftliche Recherche oder Datenextraktion effizient erledigt werden können.

Datei‑ und Präsentationsgenerierung

Der Agentenmodus kann eigenständig Dokumente erzeugen, darunter Excel‑Tabellen, Checklisten und PowerPoint‑Präsentationen. So kann er eigenständig Excel-Daten analysieren und basieren darauf Dokumente erstellen. 

Terminal für Code und Datenanalyse

Der integrierte Terminalzugang ermöglicht das Schreiben und Ausführen von Skripten, das Analysieren großer Datensätze und das Erstellen komplexer Finanzmodelle. Die Agent‑Funktion kann also mehr als nur recherchieren: Sie generiert Tabellen, wertet Daten aus und erstellt im selben Workflow eine Präsentation.

API‑Connectoren

Ein weiteres Kernelement sind die „Connectoren“. Der ChatGPT Agent kann sich mit Diensten wie Gmail, Google Drive oder GitHub verbinden, um relevante Daten aus E‑Mails, Kalendern oder Code‑Repositories abzurufen. Dabei bittet das System stets um Zustimmung, bevor es sensible Aktionen wie das Senden von E‑Mails oder das Speichern von Dateien durchführt. OpenAI nennt diese Kombination aus Browser, Terminal und API‑Integration eine „unified agentic system“.

Zuverlässigkeit: Erfolgsquote und Kinderkrankheiten

Die Ergebnisse erster Tests zeigen nicht nur beeindruckende Benchmarks, sondern auch deutliche Grenzen. Laut unabhängigen Tests von ZDNet lag die Erfolgsquote im Juli 2025 bei nur rund 12,5 %, der Agent schaffte also nur etwa jede achte Aufgabe zuverlässig. Nutzerberichte bemängeln, dass Aufgaben teils abgebrochen werden oder Arbeitsschritte durcheinandergeraten. Die Analyse von GovInfoSecurity hebt hervor, dass der Agent vor allem bei klar definierten, strukturierten Aufgaben funktioniert, bei offenen oder mehrdeutigen Aufgaben jedoch schnell überfordert ist.

Diese Kinderkrankheiten sollten beim Einsatz berücksichtigt werden. Es handelt sich noch um eine Beta‑Version, die zwar enorme Möglichkeiten bietet, aber derzeit nur unter bestimmten Bedingungen stabil arbeitet. Wer den Agenten produktiv nutzen will, sollte seine Ergebnisse daher stets überwachen, und wo nötig, eingreifen.

Leistungsdaten und Benchmarks

ChatGPT Agent wurde auf mehrere wissenschaftliche Benchmarks getestet, um seine Fähigkeiten in unterschiedlichen Bereichen zu messen. Die wichtigsten Ergebnisse im Überblick:

  • Humanity’s Last Exam (HLE) – Ein anspruchsvoller Test mit 2 500 Fragen aus diversen Disziplinen wie Mathematik, Naturwissenschaften, Informatik und Geisteswissenschaften. Hier erreicht der Agent mit 41,6 %, deutlich mehr als ältere GPT‑Modelle. Die hohe Zahl unterstreicht, wie gut das Modell komplexe Fragen bearbeiten kann.

  • FrontierMath – Dieser Benchmark enthält mehrere Hundert bislang unveröffentlichte Mathematikprobleme, die Experten meist erst nach stundenlangem Tüfteln lösen. Mit 27,4 % Genauigkeit schneidet der Agent wesentlich besser ab als frühere Modelle; übliche Sprachmodelle lösen weniger als 2 % dieser Aufgaben.

Verfügbarkeit und Zugang

Seit dem 25. Juli 2025 ist der ChatGPT Agent nun auch in Deutschland, Österreich und der Schweiz verfügbar. Zum Start wurde der KI-Agent für zahlende Kunden der Pro‑, Plus‑ und Team‑Abos freigeschaltet. Pro‑Abonnenten dürfen monatlich rund 400 Agent‑Anfragen stellen, während Plus‑ und Team‑Nutzer 40 Anfragen erhalten. Eine Ausweitung auf Enterprise‑ und Bildungsabonnements ist geplant; ein kostenloser Zugang wurde jedoch nicht angekündigt. 

Anwendungen im Unternehmenskontext

Durch die Kombination aus Recherche, Analyse und Ausführung eröffnen sich vielfältige Einsatzfelder:

  • Strategische Planung: Der ChatGPT Agent ermöglicht komplexe Wettbewerbsanalysen, Marktstudien und Trendberichte. Er kann mehrere Quellen zusammenfassen und visuell ansprechend aufbereiten, sodass Entscheidungsprozesse beschleunigt werden.
  • Marketing: Konkurrenzanalysen, Identifikation von Content-Lücken, Erstellung kompletter Content- und Social-Media-Pläne, automatisierte E-Mail-Sequenzen, Kampagnen-Briefs, Pitch-Decks und Landingpage-Entwürfe sowie Durchführung von SEO-Audits und Maßnahmenplanung.
  • Berichtswesen: Der Agent kann Marktforschungen durchführen, Wettbewerbsanalysen erstellen und daraus Präsentationen generieren.
  • Datenanalyse: Durch das Terminal und die Fähigkeit, große Datensätze zu verarbeiten, erstellt der ChatGPT Agent Finanzmodelle, aktualisiert Tabellen und analysiert Spreadsheets.
  • Administrative Aufgaben: Der Agent kann Reisen buchen, Kalender verwalten, E‑Mails durchsuchen, Termine koordinieren und Dokumente zusammenstellen. Mit API‑Connectoren findet er Kalendereinträge, fasst E‑Mails zusammen und erstellt aus Notizen einen Meeting‑Leitfaden.

Anwendungen im privaten Alltag

Auch im Alltag kann der ChatGPT Agent unterstützen. Der Agent kann Einkaufslisten zusammenstellen, Urlaube planen oder einen Wochenplan mit Menü und Einkaufsliste erstellen. Er übernimmt also Aufgaben, die bisher viel Zeit beanspruchten, wie das Finden des passenden Restaurants für ein Date, das Planen eines Familienurlaubs oder das Einkaufen nach bestimmten Kriterien. Wichtig ist dabei, dass Nutzer jederzeit eingreifen und den Prozess steuern können.

Sicherheit, Datenschutz und Kontrolle

Da der ChatGPT Agent reale Aktionen ausführt, legen viele Expertinnen und Experten besonderen Wert auf Sicherheitsmechanismen. Das System erfordert eine manuelle Bestätigung, bevor es sensitive Schritte durchführt, etwa das Senden einer E‑Mail oder das Absenden eines Formulars. Der Watch Mode sorgt dafür, dass Nutzer bestimmte kritische Vorgänge überwachen können. Außerdem existiert eine „Takeover Mode“, in dem der Benutzer den Browser übernimmt, um vertrauliche Daten wie Passwörter einzugeben.

Fachleute warnen jedoch davor, dem Agenten ohne Bedacht weitreichende Berechtigungen zu erteilen: Da er E‑Mails, Kalender und andere vertrauliche Quellen lesen kann, steigt das Risiko von Datenschutzverletzungen. OpenAI hat Sicherheitsmechanismen und Echtzeit‑Überwachung eingebaut, doch diese Schutzmaßnahmen werden derzeit noch als unausgereift betrachtet. Zudem ist die Speicherfunktion (Memory) vorübergehend deaktiviert, um Missbrauch zu verhindern.

Optimierung für AI‑Browser

Mit dem ChatGPT Agent beginnt ein neues Zeitalter für das Web: Anstatt nur zu lesen, interagiert die KI aktiv mit Webseiten. Das bedeutet, dass Website‑Betreiber ihre Seiten mithilfe von GEO (Generative Engine Optimization) künftig auch für AI‑Agenten optimieren müssen. Klare Strukturen, gut erreichbare Schaltflächen und logisch aufgebaute Formulare erleichtern dem Agenten die Navigation. Strukturierte Daten (etwa in Form von schema.org‑Markups) helfen der KI, Inhalte korrekt zu interpretieren und Aktionen gezielt auszuführen. Unternehmen sollten daher nicht nur für menschliche Nutzer oder Suchmaschinen optimieren, sondern auch sicherstellen, dass AI‑Agenten ihre Webseiten verstehen und bedienen können.

Wie du den ChatGPT Agent aktivieren und nutzen kannst

  1. Unterhalb des Chatfensters auf “Tools” klicken oder /agent ins Textfeld eingeben.
  2. Den “Agentenmodus” auswählen.
    Das Bild zeigt einen Screenshot aus der Benutzeroberfläche von ChatGPT in dunklem Design. Oben steht der Text „Stelle irgendeine Frage“. Direkt darunter ist ein horizontal angeordneter schwarzer Balken mit einem hellgrauen Pluszeichen links. Daneben befindet sich ein dunkelgrauer Button mit dem weißen Icon zweier verschränkter Schieberegler und dem Text „Tools“. Dieser „Tools“-Button ist mit einem kräftig pinken Rahmen hervorgehoben. Von oben links zeigt ein dicker pinker Pfeil direkt auf diesen Button. Unterhalb davon öffnet sich ein weiteres Menü, ebenfalls grau unterlegt, mit der Option „Agentenmodus“. Links davon ist ein Symbol zu sehen, das wie ein Mauszeiger wirkt, der auf ein Rechteck mit Punkten klickt – das Symbol für den Agentenmodus. Rechts neben dem Text steht ein kleines abgerundetes Label mit dem Hinweis „NEU“, ebenfalls in grauer Schrift. Auch dieser Bereich ist mit einem pinken Rahmen markiert. Die Bildsprache vermittelt klar: So kann der Nutzer in der ChatGPT-Oberfläche über den „Tools“-Button den „Agentenmodus“ aktivieren.
  3. Bei Bedarf Onlinesuche deaktivieren oder Verbindungen zu Drittapps einrichten.
    Dieser Screenshot zeigt den aktiven Agentenmodus in ChatGPT – erkennbar an einem grauen Eingabefeld mit dem Text „Beschreibe eine Aufgabe“. Direkt darunter befindet sich ein dunkler Balken, auf dem ein blaues Icon mit dem Text „Agent x“ zu sehen ist. Links daneben steht erneut ein Pluszeichen, rechts daneben ein Button mit einem Weltkugel-Symbol und dem Schriftzug „Quellen“ – dieser Button ist mit einem pinken Rahmen markiert, und ein pinker Pfeil zeigt deutlich darauf. Darunter klappt ein Menü auf mit drei auswählbaren Optionen, die jeweils grau hinterlegt sind: Ganz oben steht „Internetsuche“ mit einem blauen Kippschalter rechts, der anzeigt, dass die Funktion derzeit aktiv ist. Darunter „GitHub“ mit einem grauen Textlink „Verbinden“ daneben. Schließlich folgt die Option „Mehr verbinden“ mit einem verbundenen Punkte-Symbol links. Auch dieser Menübereich ist vollständig mit einem pinken Rahmen markiert. Das Bild macht deutlich: Hier kann der Nutzer steuern, welche externen Datenquellen und Drittanbieter-Integrationen der ChatGPT Agent verwenden darf – etwa durch Aktivierung der Internetsuche oder durch Verbinden mit GitHub.
  4. Aufgabe definieren: Je detaillierter die initiale Eingabe, desto besser kann der Agent den Kontext verstehen und ausführen.
  5. Aufsicht übernehmen: Kontrolliere die Schritte des Agenten im Vorschaufenster. Du kannst den Ablauf jederzeit unterbrechen, korrigieren oder anpassen.

Best Practices für die Nutzung

  • Detaillierte Aufgabenbeschreibung: Geben Sie Kontext, Erwartungen und gewünschte Ergebnisse an, um Fehlinterpretationen zu minimieren.

  • Laufende Kontrolle: Begleiten Sie den Agenten während der Ausführung und nutzen Sie den Watch Mode bei sensiblen Vorgängen.

  • Sensible Daten schützen: Verwenden Sie den Takeover Mode, um Passwörter oder Zahlungsinformationen einzugeben; deaktivieren Sie Connectoren, wenn Sie sie nicht brauchen.

  • Prompts optimieren: Formulieren Sie Anfragen klar und strukturiert, nutzen Sie semantische Hinweise und geben Sie Reihenfolgen vor.

  • Regelmäßige Updates beachten: Da der ChatGPT Agent ständig verbessert wird, lohnt sich der Blick in OpenAI‑Release‑Notes, um neue Funktionen zu entdecken.

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Ut elit tellus, luctus nec ullamcorper mattis, pulvinar dapibus leo.

Vergleich mit anderen Agenten und Modellen

Viele Tech‑Unternehmen experimentieren mit agentischen Systemen. Microsoft, Salesforce und Oracle investieren Milliarden in solche Assistenten. Allerdings haben frühe Agenten oft Schwierigkeiten, komplexe Aufgaben zuverlässig abzuschließen. OpenAI hebt hervor, dass der ChatGPT Agent leistungsfähiger ist als frühere Angebote und dank besserer Benchmarks neue Standards setzt. Ein wesentlicher Unterschied zu reinen Chat‑Modellen besteht darin, dass der Agent direkt handelt. Während eine herkömmliche KI wie GPT‑4o Inhalte generiert, recherchiert der Agent, führt die notwendigen Schritte aus und liefert fertige Ergebnisse. Diese Integration verschiedener Werkzeuge macht ihn zu einem Vorreiter für die Zukunft der KI‑Assistenz.

Zukunftsperspektiven

Die Einführung des ChatGPT Agent ist erst der Anfang. In Zukunft wird OpenAI nach eigener Aussage weitere Funktionen integrieren, die über das aktuelle Toolset hinausgehen. Ein Schwerpunkt wird die Rückkehr einer echten Gedächtnisfunktion sein: Die Memory‑Funktion wurde aus Sicherheitsgründen vorerst deaktiviert, OpenAI erwägt jedoch, sie in einer kontrollierten Form wieder zu aktivieren. In einem Fachartikel über Agenten betont das Entwicklerteam, dass eine integrierte Langzeit‑Memory es dem Agenten erlauben würde, vergangene Gespräche, Präferenzen und Kontext über Sessions hinweg zu behalten, er könnte sich an Dokumentennamen, Arbeitszeiten oder bevorzugte Formate erinnern und daraus personalisierte Empfehlungen ableiten.

Offenbar plant OpenAI zudem, standardisierte Protokolle wie das „Model Connection Protocol“ (MCP) einzuführen, sodass Drittanbieter eigene Tools und Dienste anbinden können. Damit könnte der ChatGPT Agent künftig als stets präsenter digitaler Begleiter fungieren, der E‑Mails, Kalender und spezialisierte Apps über eine einheitliche Schnittstelle bedient. Solche Erweiterungen werden laut Entwicklern aber nur dann ausgerollt, wenn Sicherheitsmechanismen weiter verbessert werden

Fazit

Der ChatGPT Agent ist weit mehr als ein Chatbot. Als virtueller Mitarbeiter verbindet er Recherche, Planung und Ausführung in einem Workflow. Durch Funktionen wie visuelles Browsing, Terminalzugang, API‑Connectoren und Datei‑Generierung automatisiert er komplexe Aufgaben, vor Markt-Recherche bis zur Urlaubsplanung. Gleichzeitig sorgen Überwachungsmodi, Sicherheitsmechanismen und Benutzerkontrollen dafür, dass Sie stets die Kontrolle behalten. Für Unternehmen bietet der Agent Chancen zur Effizienzsteigerung und zur Neugestaltung von Arbeitsprozessen. Im privaten Bereich schafft er Freiräume, indem er Routineaufgaben übernimmt. Trotz offener Fragen zu Sicherheit, Verfügbarkeit und Zuverlässigkeit ist der Start des ChatGPT Agent ein revolutionärer Schritt, der das Potenzial hat, unsere Interaktion mit der digitalen Welt nachhaltig zu verändern.

Eine Antwort hinterlassen

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert