Der Unterschied zwischen einem Chatbot und einem Agenten ist die Handlungsfähigkeit: Ein Agent endet nicht bei einer Antwort, sondern bei einer Zustandsänderung – einer gesendeten E-Mail, einem aktualisierten Datensatz, einem bearbeiteten Lead. Das ist ein enormer Wert, aber auch eine Verantwortung. Handlungsfähigkeit ohne Grenzen ist ein Risiko, daher entwerfen wir die Grenzen gemeinsam mit der Handlungsfähigkeit.
Drei Säulen der Agentensicherheit
#- Allow-Liste der Tools – Der Agent hat einen Katalog zugelassener Tools (z. B. Navigation, Suche, Reservierung), keinen beliebigen Systemzugriff. Was nicht auf der Liste steht, führt er nicht aus.
- Human-Gate – Irreversible Aktionen (Versand, Zahlung, Datenänderung) erfordern einen serverseitigen Bestätigungstoken, signiert mit HMAC. Die bloße Entscheidung des Modells reicht nicht – es braucht ein „Ja“ des Menschen, wo es kein Zurück gibt.
- Vollständiges Log – Jeder Schritt (Gedanke → Tool → Ergebnis) wird protokolliert, sodass sich im Nachhinein nachvollziehen lässt, was und warum der Agent getan hat. Ohne Spur keine Verantwortung.
Worin unterscheidet sich das Risiko eines Agenten von dem eines Chatbots
#| Kriterium | Chatbot | Agent |
|---|---|---|
| Was er tut | gibt Text aus | verändert Zustand |
| Folge eines Fehlers | falsche Antwort | falsche Aktion |
| Benötigte Barrieren | Output-Guardrails | + Allow-Liste + Human-Gate |
| Spur | Gespräch | Log jedes Schritts |
| Aufsicht | Antwortprüfung | Aktionsbestätigungen |
Deshalb werden Agenten nicht „auf gut Glück“ eingesetzt. Die Grenze zwischen Gespräch und Ausführung beschreiben wir auch im Beitrag Agent vs. Chatbot.
Schrittweise Lockerung der Aufsicht
#Wir beginnen nicht mit voller Autonomie. Der Agent startet mit einem engen Human-Gate (fast alles muss bestätigt werden), und je mehr Vertrauensbeweise vorliegen – das Log ist sauber, die Entscheidungen treffend – desto mehr lockern wir die Gates auf bewährten Pfaden. Derselbe Ansatz wie beim Prompt Injection: Sicherheit ist eingebaut, nicht nachgerüstet.
Live ausprobieren
#Den Agenten starten wir in einer sicheren Sandbox mit transparenter Spur (Playground: PII maskiert, keine Retention). Bitte das Modell, die Schritte einer Aufgabe zu skizzieren:
FAQ
#Ist ein KI-Agent sicher, wenn er selbstständig handelt?
#Er ist sicher, wenn er klare Grenzen hat: eine Allow-Liste der Tools, ein Human-Gate für irreversible Aktionen und ein Log jedes Schritts. Handlungsfähigkeit ohne diese Barrieren ist ein Risiko, daher entwerfen wir sie von Anfang an. Der Agent handelt autonom in einem engen, klar definierten Rahmen – nicht „einfach so“.
Was ist ein Human-Gate?
#Ein Punkt, an dem eine irreversible Aktion (Versand, Zahlung, Datenänderung) eine menschliche Bestätigung erfordert – technisch ein serverseitiger Token, signiert mit HMAC, nicht nur die Modellentscheidung. Selbst wenn der Agent „meint“, etwas tun zu müssen, passiert es nicht ohne grünes Licht.
Wo fängt man mit Agenten an?
#Bei einem engen, wiederholbaren Prozess mit strenger Aufsicht – fast alles muss bestätigt werden, das Log ist vollständig. Wenn die Vertrauensbeweise wachsen, lockert man die Gates auf bewährten Pfaden. So gibt man KI schrittweise Handlungsfähigkeit – sicher.