Von Autocomplete zu autonomen Agenten —
was das für die tägliche Arbeit bedeutet.
Autocomplete
Schlägt das nächste Token vor. Kein Zustand, kein Kontext über Zeilen hinaus.
Copilot / Chat
Reagiert auf Anweisungen. Einzelner Turn. Du gibst an, er führt aus.
Agentic AI
Plant eigenständig, nutzt Tools, iteriert — mehrere Schritte ohne Eingriff.
| Tool | Typ | Modelle | Long-Running Agents | Besonderheit |
|---|---|---|---|---|
| Cursor | IDE | GPT-4.1, o3, o4-mini, Claude Sonnet 4.5, Gemini 2.5 Pro, … | ✓ Agenten-Modus | Model-Wahl, Rules/Skills, Teams |
| Claude Code | CLI | Claude Opus 4.5, Sonnet 4.5 | ✓ Nativ | Terminal-first, CLAUDE.md |
| Windsurf | IDE | GPT-4.1, o3, o4-mini, Claude Sonnet 4.5, … | ✓ Cascade-Agent | IDE-Integration, Codebase-Reasoning |
| GitHub Copilot Workspace | Web/IDE | GPT-4.1, o3, o4-mini, Claude Sonnet 4.5 | ✓ Task-basiert | Issue → Plan → PR |
| Devin / SWE-Agent | Autonom | Proprietär / offen | ✓ Vollständig | Vollautonome SWE-Agenten |
| Augment Code | IDE Plugin | Eigenes Modell | ✓ Agenten-Modus | Enterprise, große Codebases |
| Gemini Code Assist | IDE Plugin | Gemini 2.5 Pro | ✓ Agenten-Modus | Workspace, IDX, Free Tier |
| OpenAI Codex CLI | CLI | GPT-4.1, o3, o4-mini | ✓ Agenten-Modus | AGENTS.md, lokal ausführbar |
Kern-Unterschied: Alle erlauben Chat — nur Agenten-fähige Tools führen eigenständig mehrstufige Aufgaben durch, nutzen Terminal, lesen/schreiben Dateien, laufen ohne kontinuierlichen User-Input.
Praktisch für euch: Ein Agent kann eine GitHub-Issue nehmen, den Code verstehen, Tests schreiben, die Implementierung umsetzen, CI-Fehler debuggen und einen PR öffnen — ohne dass ihr zwischendurch eingreifen müsst.
Empfehlung für Einstieg: Cursor Pro oder Claude Max-Plan — sofort produktiv, überschaubare Kosten, BYOK als Option wenn ihr Kontrolle wollt.
Team Lead: Orchestriert, delegiert, konsolidiert — macht KEINEN operativen Code selbst.
Parallelisierung: Unabhängige Aufgaben laufen gleichzeitig in separaten Agenten-Threads.
Rollen: BackendEng, FrontendEng, Architect, QA, SecurityExpert — jeder hat seinen Fokus.
alwaysApply) belasten jeden Turn — auch wenn kein Team gebraucht wird
Konsequenz: Team-Orchestrierung jetzt on-demand — nur noch wenn explizit angefordert. Für den Alltag genügt ein fähiger Agent mit dem richtigen Kontext.
Der Skills-Ansatz
SKILL.md)
alwaysApply-Overhead
Multi-Agent-Orchester
Team von 9 Rollen, hoher Zeremonie-Aufwand
Stark bei komplexer Parallelisierung in Grossprojekten
Skill-basierter Agent
Ein Agent + Skills-Bibliothek, minimal Overhead
Anthropic-Empfehlung — stark bei Solo/Kleinteam-Arbeit
In der Praxis: Skills als Default — Team-Orchestrierung als Spezialfall für komplexe Parallelisierung, wenn sie wirklich gebraucht wird.
1 — Context Engineering
Wissensbasis im Codebase: Rules, Skills, ADRs, Retros, Co-Evolution. Was der Agent wissen muss — maschinenlesbar, versioniert.
2 — Architektonische Constraints
Deterministische Linter, Strukturtests, Design-Tokens als SSoT. Nicht nur das LLM prüft — auch der Build prüft.
3 — Garbage Collection
Periodische Agenten suchen Inkonsistenzen, Drift und Constraint-Verletzungen. Entropie wird aktiv bekämpft — nicht erst bei nächstem Bug.
Warum "Harness"?
Quelle: Fowler/Thoughtworks & OpenAI Codex-Team — martinfowler.com/articles/exploring-gen-ai/harness-engineering.html
LLM-Seite
Workflow-Seite
Das Harness kombiniert beides: LLM entscheidet — deterministischer Rahmen kontrolliert, validiert und korrigiert. Keins allein ist ausreichend.
| Tool | Typ | Einsatz | Determinismus | Besonderheit |
|---|---|---|---|---|
| LangGraph | Graph-Engine | LLM-Agenten-Flows | Hoch (Graph-Routing) | Cycles, State, bedingte Kanten |
| Temporal | Durable Execution | Long-running Workflows | Sehr hoch (Replay) | Fehlertoleranz, History-Replay |
| Prefect / Airflow | Pipeline | Batch, Data-Engineering | Hoch | Scheduling, Retries, Monitoring |
| CrewAI / AutoGen | Multi-Agent | Rollen, Coding, Research | Mittel | Abstraktion hoch, Microsoft-Ökosystem |
| n8n / Zapier | Low-Code | Integrationen, Trigger | Hoch | Visuell, kein Code nötig |
| Dify / Flowise | LLM-Pipeline | RAG, Chatbots | Mittel | No-Code, LLM-first, visuelle Flows |
Faustregel: Je höher die Fehlerkosten, desto mehr deterministischen Rahmen braucht ihr. Temporal für Business-kritische Flows — LangGraph für flexible Agenten-Pipelines.
.cursor/?Rules: alwaysApply (jeder Turn) oder Glob-triggered (nur bei relevanten Dateien). Token-Budget bewusst einsetzen.
Skills: On-Demand geladen. Domänen-Wissen als Checklisten — Agent liest sie wenn nötig, nicht immer.
context/-Konvention: maschinenlesbarer Zustand (Ledgers, Register) getrennt von menschlicher Doku in docs/.CLAUDE.md / .claude/?CLAUDE.md & .claude/: CLAUDE.md wird bei jedem Turn gelesen (Projekt-Gedächtnis); .claude/ hält Skills und Commands pro Projekt.
Skills & Commands: On-Demand geladen (Skill-Beschreibung matcht Task); Slash-Commands als wiederverwendbare Playbooks.
.mcp.json — Browser, Filesystem, projekt-eigene APIs..claude/hooks/ — Pre-/PostToolUse, SessionStart, Stop — Guardrails und Automationen am selben Ort wie Rules./evolve, Priorisierung)Praktisch: Ein Agent der ADRs kennt, wiederholt keine alten Fehler. Ein Agent der Retros und Open Loops liest, wendet Lerneffekte und Backlog-Priorität an — ohne dass der Entwickler es erklären muss.
Kontext → Doku: Rules erzwingen Co-Evolution-Checkliste. Agent pflegt ADRs, Retros, Vault automatisch mit.
Doku → Kontext: ADRs und Retros fließen als Skills und Session-Learnings zurück in den Kontext-Layer.
Schlüsselidee: Audit-Skills laufen periodisch via CI (Cron) oder on-demand. Sie analysieren den Kontext-Layer, finden Token-Verschwendung, Overlap und tote Configs — und erzeugen Verbesserungs-PRs.
Was ihr gerade gesehen habt — ist bereits ein Harness
Context Engineering
Rules, Skills, ADRs, Retros, Co-Evolution, Session-Learnings
Architektonische Constraints
Design Tokens als SSoT, Cross-Impact-Manifest, Terminologie-Guards, Hooks
Garbage Collection
Audit-Skills, CI-Cron (doc-health), Freshness-Checks, Drift-Erkennung
Strategische Steuerung
Strategist KB → Evolution-Graph (ROI) → /evolve-all → Execution & Commit
chacha ist ein Harness. Iterativ gewachsen — Folie für Folie.
Fowlers Fragen an euch
Einstieg: Wer heute mit Rules + ADRs anfängt, hat schon ein Minimal-Harness — ohne 5 Monate Aufwand.
Der Kreislauf in der Praxis
doc-co-evolution.mdc läuft bei jeder Session
docs/decisions/
docs/audits/: Was lief gut/schlecht?
.cursor/session-learnings.md
/evolve-all: Graph-ROI priorisiert → Grind bis die Queue leer ist → Commit
Metrik-Typen & Transparenz (chacha)
/evolve-allFür euch relevant ist weniger das Produkt chacha — und vielmehr die Art der Arbeit, die dabei möglich wird.
Der Workflow
Paradigmen die dabei galten
Die Präsentation ist ihr eigenes bestes Beispiel: In ~1h von Idee bis fertigem Output — mit Agenten als Co-Autoren.