Für x-root Software GmbH · April 2026

Agentic AI in der
Softwareentwicklung

Von Autocomplete zu autonomen Agenten —
was das für die tägliche Arbeit bedeutet.

Yann

Agenda

Inhalt dieser Session

1

Was ist ein Agent?
Definition und Autonomie-Spektrum

2

AI-native IDEs
Cursor, Claude Code & Co. im Vergleich

3

Token-Modelle
Packages, BYOK — Vor- und Nachteile

4

Orchestrierung
Multi-Agent oder modulare Skills? Pro & Contra

5

Harness Engineering
Kontext, Constraints, GC — plus probabilistisch vs. deterministisch

6

Kontext & Doku Layer
Rules, Skills, ADRs, Retros

7

Rekursives Context Engineering
Wie Agenten sich selbst optimieren

8

Meta: Wie entstand diese Präsentation?
Live-Beispiel Agentic Workflow

Was ist ein Agent?

Das Autonomie-Spektrum

Autonomie-Spektrum: Autocomplete → Copilot → Agentic AI

Autocomplete
Schlägt das nächste Token vor. Kein Zustand, kein Kontext über Zeilen hinaus.

Copilot / Chat
Reagiert auf Anweisungen. Einzelner Turn. Du gibst an, er führt aus.

Agentic AI
Plant eigenständig, nutzt Tools, iteriert — mehrere Schritte ohne Eingriff.

AI-native IDEs

Welche Umgebungen gibt es?

Tool	Typ	Modelle	Long-Running Agents	Besonderheit

Cursor	IDE	GPT-4.1, o3, o4-mini, Claude Sonnet 4.5, Gemini 2.5 Pro, …	✓ Agenten-Modus	Model-Wahl, Rules/Skills, Teams
Claude Code	CLI	Claude Opus 4.5, Sonnet 4.5	✓ Nativ	Terminal-first, CLAUDE.md
Windsurf	IDE	GPT-4.1, o3, o4-mini, Claude Sonnet 4.5, …	✓ Cascade-Agent	IDE-Integration, Codebase-Reasoning
GitHub Copilot Workspace	Web/IDE	GPT-4.1, o3, o4-mini, Claude Sonnet 4.5	✓ Task-basiert	Issue → Plan → PR
Devin / SWE-Agent	Autonom	Proprietär / offen	✓ Vollständig	Vollautonome SWE-Agenten
Augment Code	IDE Plugin	Eigenes Modell	✓ Agenten-Modus	Enterprise, große Codebases
Gemini Code Assist	IDE Plugin	Gemini 2.5 Pro	✓ Agenten-Modus	Workspace, IDX, Free Tier
OpenAI Codex CLI	CLI	GPT-4.1, o3, o4-mini	✓ Agenten-Modus	AGENTS.md, lokal ausführbar

Kern-Unterschied: Alle erlauben Chat — nur Agenten-fähige Tools führen eigenständig mehrstufige Aufgaben durch, nutzen Terminal, lesen/schreiben Dateien, laufen ohne kontinuierlichen User-Input.

Long-Running Agents

Was unterscheidet sie von Chat?

Chat / Copilot

→ Einzelner Prompt, einzelne Antwort
→ Du gibst jeden Schritt vor
→ Kein persistenter Zustand
→ Keine Tool-Nutzung (oder sehr begrenzt)
→ Fertig nach einer Antwort

Long-Running Agent

→ Plant eigenständig und führt aus
→ Nutzt Tools: Terminal, Dateien, Browser, APIs
→ Iteriert: Fehler erkennen → korrigieren
→ Delegiert an Sub-Agenten
→ Läuft Minuten bis Stunden

Praktisch für euch: Ein Agent kann eine GitHub-Issue nehmen, den Code verstehen, Tests schreiben, die Implementierung umsetzen, CI-Fehler debuggen und einen PR öffnen — ohne dass ihr zwischendurch eingreifen müsst.

Token-Modelle

Packages kaufen oder eigene API-Keys mitbringen?

Cursor (Package)

✓ Viele Modelle wählbar (GPT-4.1, o3, o4-mini, Claude Sonnet 4.5, Gemini 2.5 Pro)
✓ Einfach: Pro-Plan inkl. Token-Budget
✓ Team-Features, Regeln, Skills
✓ BYOK alternativ möglich
✗ Tokens laufen aus (Fast Request Limit)
✗ Kosten können skalieren

Claude Code (Max-Plan)

✓ Anthropic-Modelle tief integriert
✓ Claude Opus 4.5 und Sonnet 4.5 nativ
✓ Terminal-first, CLAUDE.md-System
✓ Max-Plan: $100/Mo, großzügige Limits
✗ Primär auf Anthropic festgelegt
✗ CLI, kein vollwertiges IDE-Erlebnis

BYOK (Bring Your Own Key)

✓ Volle Kostentransparenz
✓ Kein Vendor-Lock-in
✓ Neuste Modelle sofort verfügbar
✗ Abrechnungsrisiko bei unkontrollierter Nutzung
✗ Key-Management-Aufwand
✗ Keine gebündelten Team-Features

Empfehlung für Einstieg: Cursor Pro oder Claude Max-Plan — sofort produktiv, überschaubare Kosten, BYOK als Option wenn ihr Kontrolle wollt.

Agentenorchestrierung

Das Team-Lead-Muster

Team Lead: Orchestriert, delegiert, konsolidiert — macht KEINEN operativen Code selbst.

Parallelisierung: Unabhängige Aufgaben laufen gleichzeitig in separaten Agenten-Threads.

Rollen: BackendEng, FrontendEng, Architect, QA, SecurityExpert — jeder hat seinen Fokus.

Orchestrierung

Team-Orchestrierung in der Praxis: Pro und Contra

Vorteile

✓ Klare Zuständigkeiten — Review ist nie gleich Implementierung
✓ Parallelisierung: unabhängige Aufgaben laufen gleichzeitig
✓ Governance eingebaut (AgileCoach als Watchdog, SecurityExpert, QA)
✓ Skaliert bei großen Projekten mit vielen Moving Parts

Nachteile & Learnings

✗ Hoher Overhead — Delegation-Zeremonie, Kontextwechsel zwischen Agenten
✗ Jeder Sub-Agent braucht eigenen Kontext → Token-Kosten multiplizieren sich
✗ Für kleine/mittlere Tasks Over-Engineering
✗ Rollenexplosion: 9 Rollen definiert, selten mehr als 2–3 gleichzeitig gebraucht
✗ Governance-Rules (alwaysApply) belasten jeden Turn — auch wenn kein Team gebraucht wird

Konsequenz: Team-Orchestrierung jetzt on-demand — nur noch wenn explizit angefordert. Für den Alltag genügt ein fähiger Agent mit dem richtigen Kontext.

Build Skills, not Agents

Anthropics Leitspruch vs. Multi-Agent-Orchester

Der Skills-Ansatz

Ein fähiger Agent + modulare Skills statt starrer Rollenverteilung
Skills = wiederverwendbare, komponierbare Fähigkeiten (SKILL.md)
Agent lädt, was er braucht — on demand, kein alwaysApply-Overhead
Skills evolvieren unabhängig vom Agenten — keine Rollenregeln nötig
Weniger Overhead, gleiche (oder bessere) Qualität

Multi-Agent-Orchester

Team von 9 Rollen, hoher Zeremonie-Aufwand

Stark bei komplexer Parallelisierung in Grossprojekten

Skill-basierter Agent

Ein Agent + Skills-Bibliothek, minimal Overhead

Anthropic-Empfehlung — stark bei Solo/Kleinteam-Arbeit

In der Praxis: Skills als Default — Team-Orchestrierung als Spezialfall für komplexe Parallelisierung, wenn sie wirklich gebraucht wird.

Harness Engineering

Das Harness: Agenten in geordneten Bahnen

1 — Context Engineering

Wissensbasis im Codebase: Rules, Skills, ADRs, Retros, Co-Evolution. Was der Agent wissen muss — maschinenlesbar, versioniert.

2 — Architektonische Constraints

Deterministische Linter, Strukturtests, Design-Tokens als SSoT. Nicht nur das LLM prüft — auch der Build prüft.

3 — Garbage Collection

Periodische Agenten suchen Inkonsistenzen, Drift und Constraint-Verletzungen. Entropie wird aktiv bekämpft — nicht erst bei nächstem Bug.

Warum "Harness"?

Agenten sind mächtig, aber ohne Führung unzuverlässig
Ein Harness gibt dem Agenten den Rahmen, nicht die Freiheit zu entscheiden, was Architektur ist
"Garbage in, garbage out": Harness = systematisch guten Input sicherstellen
Iterativ: Wenn der Agent kämpft → Harness verbessern, nicht Modell wechseln
OpenAIs Codex-Team: "5 Monate, 1 Mio. Zeilen Code — kein manuell getippter Code"

Quelle: Fowler/Thoughtworks & OpenAI Codex-Team — martinfowler.com/articles/exploring-gen-ai/harness-engineering.html

Probabilistisch vs. Deterministisch

Zwei Prinzipien — ein Harness verbindet sie

Probabilistisch

LLM-Seite

Gleiche Eingabe → potenziell andere Ausgabe
Stärke: Kreative Lösungen, Kontext-Sensitivität, Sprachverstehen
Schwäche: Nicht reproduzierbar, schwer testbar, Halluzination-Risiko
Einsatz: Planung, Code-Generierung, Interpretation, Reasoning

Deterministisch

Workflow-Seite

Gleiche Eingabe → immer gleiche Ausgabe
Stärke: 100 % reproduzierbar, automatisch testbar, auditierbar
Schwäche: Unflexibel bei unvorhergesehenen Inputs
Einsatz: Validierung, Routing, State Management, Retry-Logik, Tests

Das Harness kombiniert beides: LLM entscheidet — deterministischer Rahmen kontrolliert, validiert und korrigiert. Keins allein ist ausreichend.

Workflow-Engines

Deterministischer Rahmen um probabilistische Schritte

Tool	Typ	Einsatz	Determinismus	Besonderheit

LangGraph	Graph-Engine	LLM-Agenten-Flows	Hoch (Graph-Routing)	Cycles, State, bedingte Kanten
Temporal	Durable Execution	Long-running Workflows	Sehr hoch (Replay)	Fehlertoleranz, History-Replay
Prefect / Airflow	Pipeline	Batch, Data-Engineering	Hoch	Scheduling, Retries, Monitoring
CrewAI / AutoGen	Multi-Agent	Rollen, Coding, Research	Mittel	Abstraktion hoch, Microsoft-Ökosystem
n8n / Zapier	Low-Code	Integrationen, Trigger	Hoch	Visuell, kein Code nötig
Dify / Flowise	LLM-Pipeline	RAG, Chatbots	Mittel	No-Code, LLM-first, visuelle Flows

Faustregel: Je höher die Fehlerkosten, desto mehr deterministischen Rahmen braucht ihr. Temporal für Business-kritische Flows — LangGraph für flexible Agenten-Pipelines.

Kontext-Layer

Was steckt in `.cursor/`?

Rules: alwaysApply (jeder Turn) oder Glob-triggered (nur bei relevanten Dateien). Token-Budget bewusst einsetzen.

Skills: On-Demand geladen. Domänen-Wissen als Checklisten — Agent liest sie wenn nötig, nicht immer.

context/-Konvention: maschinenlesbarer Zustand (Ledgers, Register) getrennt von menschlicher Doku in docs/.
context-compression: mehrstufige Pipeline bei knappem Kontext-Budget; prompt-cache-stability: stabile Prompt-Struktur für bessere Cache-Hits.
output-discipline: Modi wie standard / compact / minimal — Token-Budget pro Session-Typ.

Kontext-Layer · Claude Code

Und in `CLAUDE.md` / `.claude/`?

CLAUDE.md & .claude/: CLAUDE.md wird bei jedem Turn gelesen (Projekt-Gedächtnis); .claude/ hält Skills und Commands pro Projekt.

Skills & Commands: On-Demand geladen (Skill-Beschreibung matcht Task); Slash-Commands als wiederverwendbare Playbooks.

MCP-Server: Tools und Datenquellen pro Projekt via .mcp.json — Browser, Filesystem, projekt-eigene APIs.
Hooks: .claude/hooks/ — Pre-/PostToolUse, SessionStart, Stop — Guardrails und Automationen am selben Ort wie Rules.
Gleiche Idee wie Cursor: persistenter Projekt-Kontext plus on-demand geladenes Domänen-Wissen; der Agent trägt Kontext über Sessions, nicht der Mensch.

Doku Layer

Warum Dokumente Agenten besser machen

ADRs — Architecture Decision Records

→ "Warum haben wir das so gebaut?"
→ Agent trifft keine veralteten Entscheidungen erneut
→ Kontext für neue Team-Mitglieder (menschlich + KI)

ADR-013: Co-Evolution
ADR-018: Drei-Schichten-Architektur
ADR-020: CI-Strategie

Retros — Was wurde gelernt?

→ Append-only Log nach jeder Session
→ "Was lief gut / schlecht / welche Maßnahmen?"
→ Fließt in Session-Learnings → verbessert Rules

Co-Evolution

→ Doku ist Co-Produkt jeder Änderung
→ Doku wächst kontinuierlich mit dem Code
→ Agent pflegt Doku automatisch mit

Open Loops

→ Operatives Backlog: offene Punkte sessions-übergreifend
→ Verknüpfung zu Strategie (/evolve, Priorisierung)
→ Ergänzt ADRs und Retros um die laufende Arbeit

Praktisch: Ein Agent der ADRs kennt, wiederholt keine alten Fehler. Ein Agent der Retros und Open Loops liest, wendet Lerneffekte und Backlog-Priorität an — ohne dass der Entwickler es erklären muss.

Kontext & Doku Layer

Das Zusammenspiel: bidirektional & automatisch

Kontext-Layer und Doku Layer im Zusammenspiel

Kontext → Doku: Rules erzwingen Co-Evolution-Checkliste. Agent pflegt ADRs, Retros, Vault automatisch mit.

Doku → Kontext: ADRs und Retros fließen als Skills und Session-Learnings zurück in den Kontext-Layer.

Rekursives Context Engineering

Agenten optimieren ihren eigenen Kontext

Rekursiver Optimierungskreislauf des Kontext-Layers

Schlüsselidee: Audit-Skills laufen periodisch via CI (Cron) oder on-demand. Sie analysieren den Kontext-Layer, finden Token-Verschwendung, Overlap und tote Configs — und erzeugen Verbesserungs-PRs.

LLM Recovery Ladder: gestufte Wiederherstellung nach Modell- oder Tool-Fehlern (Fallback-Kette).
agent-peer-review-gate: zweiter Agent im frischen Kontext prüft die Ausgabe des ersten (Quality Gate).

Harness Engineering

Das Harness im Überblick — und was euch das angeht

Was ihr gerade gesehen habt — ist bereits ein Harness

1

Context Engineering

Rules, Skills, ADRs, Retros, Co-Evolution, Session-Learnings

2

Architektonische Constraints

Design Tokens als SSoT, Cross-Impact-Manifest, Terminologie-Guards, Hooks

3

Garbage Collection

Audit-Skills, CI-Cron (doc-health), Freshness-Checks, Drift-Erkennung

4

Strategische Steuerung

Strategist KB → Evolution-Graph (ROI) → /evolve-all → Execution & Commit

chacha ist ein Harness. Iterativ gewachsen — Folie für Folie.

Fowlers Fragen an euch

Was ist euer Harness heute? Pre-Commit-Hook? Custom Linter?
Welche architektonischen Constraints wollt ihr erzwingen?
Könnten Service-Templates zu Harness-Templates werden?
Welche eurer Apps würdet ihr gerne rückwirkend harnessen?

Einstieg: Wer heute mit Rules + ADRs anfängt, hat schon ein Minimal-Harness — ohne 5 Monate Aufwand.

Live-Beispiel

chacha: ein echter Agentic-AI-Workflow

Der Kreislauf in der Praxis

1 Rule doc-co-evolution.mdc läuft bei jeder Session

2 Agent macht ADR → schreibt Entscheidung nach docs/decisions/

3 Retro in docs/audits/: Was lief gut/schlecht?

4 Erkenntnisse → .cursor/session-learnings.md

5 Nächste Session startet mit besserem Kontext → bessere Ergebnisse

6 /evolve-all: Graph-ROI priorisiert → Grind bis die Queue leer ist → Commit

Metrik-Typen & Transparenz (chacha)

Token-Einsparung: Glob-Rules vs. alwaysApply (Messgröße: Tokens/Turn)
ADR-Anzahl und Retro-Anzahl als laufende Bestandsmetriken (wachsen mit dem Projekt)
Open-Loops-Register: operative Backlog-Tiefe (OL-IDs, Status)
CI-Cron plus Grind-Kommandos: doc-health, Freshness, /evolve-all
Token Analytics Dashboard: Kosten- und Nutzungstransparenz pro Modell/Session
Metrik-Drift: Abgleich Vault-Index vs. Ist-Dokumentation (Alarm bei Divergenz)

Für euch relevant ist weniger das Produkt chacha — und vielmehr die Art der Arbeit, die dabei möglich wird.

Diese Präsentation: selbst mit Agentic AI erstellt

Der Workflow

Team Lead (Cursor) → liest Plan, delegiert parallel an 3 Agenten

↓

Agent A
Design System CSS

Agent B
Kontext/Doku Layer

Agent C
SVG-Diagramme

↓

Agent D → HTML-Präsentation mit allen 21 Folien

↓

Review-Agent → Qualitätssicherung

Paradigmen die dabei galten

Delegation Team Lead = nur Orchestrierung, null eigener Code
Kontext Design Tokens, SVG-Skills, Stil-Rules als Steuerung
Parallelisierung 3 unabhängige Agenten gleichzeitig
Co-Evolution Doku-Layer (ADRs) parallel zur Präsentation erstellt
Werkzeug-Nutzung SVG-Generator aus chacha wiederverwendet

Die Präsentation ist ihr eigenes bestes Beispiel: In ~1h von Idee bis fertigem Output — mit Agenten als Co-Autoren.

Takeaways

Was mitzunehmen ist

01 Agenten wirken als autonome Mitarbeiter: planen, führen mehrstufige Aufgaben aus, nutzen Tools, halten Kontext über viele Schritte.
02 Context Engineering ist die Kerndisziplin — nicht Prompt Engineering.
03 ADRs und Retros lohnen sich: sie machen Agenten produktiver.
04 Der Kontext-Layer optimiert sich selbst — Agenten verbessern ihre eigenen Rules.
05 Cursor Pro oder Claude Max: Einfach anfangen, nicht perfektionieren.

Fragen?

Agentic AI in derSoftwareentwicklung

Inhalt dieser Session

Das Autonomie-Spektrum

Welche Umgebungen gibt es?

Was unterscheidet sie von Chat?

Chat / Copilot

Long-Running Agent

Packages kaufen oder eigene API-Keys mitbringen?

Cursor (Package)

Claude Code (Max-Plan)

BYOK (Bring Your Own Key)

Das Team-Lead-Muster

Team-Orchestrierung in der Praxis: Pro und Contra

Vorteile

Nachteile & Learnings

Anthropics Leitspruch vs. Multi-Agent-Orchester

Das Harness: Agenten in geordneten Bahnen

Zwei Prinzipien — ein Harness verbindet sie

Probabilistisch

Deterministisch

Deterministischer Rahmen um probabilistische Schritte

Was steckt in .cursor/?

Und in CLAUDE.md / .claude/?

Warum Dokumente Agenten besser machen

ADRs — Architecture Decision Records

Retros — Was wurde gelernt?

Co-Evolution

Open Loops

Das Zusammenspiel: bidirektional & automatisch

Agenten optimieren ihren eigenen Kontext

Das Harness im Überblick — und was euch das angeht

chacha: ein echter Agentic-AI-Workflow

Diese Präsentation: selbst mit Agentic AI erstellt

Was mitzunehmen ist

Agentic AI in der
Softwareentwicklung

Was steckt in `.cursor/`?

Und in `CLAUDE.md` / `.claude/`?