Für x-root Software GmbH

Von Code-Completion und Vibe Coding zum Harness Engineering

Das Klettern auf der Abstraktions-Pyramide

Ausgangslage

Der Prozess heute

Pipeline Anforderung bis Deploy mit Zeitanteilen

Scrum funktioniert. Die Pipeline ist klar. Trotzdem bleibt viel Zeit in Abstimmung und Warten — nicht im eigentlichen Coding.

Zeit grob: Koordination ~20 % · Warten ~15 % · Coding ~50 % · Review ~15 %

Ausgangslage

Was Editor-Assistenz leistet

Produkte wie GitHub Copilot liefern kontextbasierte Inline-Vervollständigung und Vorschläge direkt im Editor — das beschleunigt die Coding-Phase spürbar (grob ~20 %). Diese Phase ist aber nur ein Teil eurer Gesamtzeit. Grobe Größenordnung: 20 % von 50 % — etwa 10 Prozentpunkte am Gesamtprodukt.

Rahmen: Die Assistenz bezieht sich auf offene Dateien und die aktuelle Editorposition. Strategie, Abstimmung, Tests und Deployment bleiben andere Hebel — der Balken unten zeigt den Gesamtfluss.

Anteil am Gesamt-Entwicklungsfluss (schematisch)

Der Balken zeigt: der größte Hebel liegt im gesamten Fluss — Koordination, Kontext, Tests, Deployment.

Ausgangslage

Vibe Coding: der Rausch

Ein Agent, ein Feature, schnelle Iteration: Planen, Code, Debug, erneut. Das fühlt sich nach großer Wirkung an.

Das ist wertvoll — ein echter erster Schritt, um zu spüren, wie Agenten denken.

  • Erste Features entstehen in Stunden statt Tagen — das Tempo ist real.
  • Ihr entwickelt Intuition für Prompts, Plan Mode und klare Anforderungen.
  • Ihr lernt, was Agenten gut können — und wo sie ohne Leitplanken stocken.
  • Das Limit liegt selten im Modell: fehlende Kontext-Struktur bremst stärker.
Ausgangslage

Vibe Coding: die Wand

Fünf parallele Streams

Ohne gemeinsamen Kontext entstehen parallele Architekturen. Der Agent ist so gut wie die Regeln, Skills und ADRs, die ihr ihm gebt.

Plan Mode: Die Wand entsteht, wenn direkt gebaut wird statt zu klären. Faustregel: grob 70 % Planung, 30 % Umsetzung — die Balance verfeinert ihr mit Erfahrung. Wenn der Agent zu wenig fragt: mehr Fragen einfordern. Das gilt für Code genauso wie für den Aufbau von Kontext und Harness.

Ausgangslage

Entropie

Mit und ohne Harness

Das Kernproblem ist selten das Modell — es fehlt Engineering um die KI herum: Leitplanken, Doku, automatische Checks.

  • Ohne Leitplanken wiederholt der Agent bekannte Muster — auch schlechte.
  • Veraltete Docs produzieren veralteten Code: der Agent liest, was er bekommt.
  • Fehlende Tests bedeuten kein deterministisches Netz — Fehler überleben Refactoring.
  • Entropie wächst mit KI schneller als ohne — die Hebel wirken in beide Richtungen.

Geschwindigkeit und Zuverlässigkeit — wie geht das zusammen?

Die Antwort liegt in der Umgebung, in der Agenten arbeiten: Kontext, Regeln, Gates, reproduzierbare Prüfungen.

Der Weg

Über die Hälfte der Zeit: Kontext

Was ist Kontext — nach Ebenen?

  • Vision: Ziele, Prioritäten, Roadmap, Risiken und Chancen
  • Strategie: Geschäftsregeln, Budgets, Release-Zyklen
  • Taktik: Architektur, ADRs, Schnittstellen, Threat Model
  • Umsetzung: Code, Tests, CI/CD, Tickets, PRs, Logs, Monitoring

Was bringt dieser Kontext?

  • Weniger Rückfragen und stabilere Entscheidungen im Dialog mit dem Agenten
  • Outputs, die sich auf Architektur und Abmachungen beziehen lassen
  • Reproduzierbarkeit: Änderungen aus Rules, Skills und Doku nachvollziehbar

Kontextfenster und Agenten

  • Aktuelle Modelle: typisch 200k–1M Tokens Kontextfenster (je nach Modell und Anbieter) — viel Material passt in einen Durchlauf
  • Wirkung: größere Fenster erlauben mehr Dateien, längere Spezifikationen und Verlauf gleichzeitig; die Platzierung und Priorität der Inhalte im Fenster bleibt wichtig
  • Umgang: Skills und Rules on-demand, Retrieval, Zusammenfassungen, Plan Mode für Architektur vor Implementierung
Der Weg

Die Wiederholungs-Regel

Alles, was du ein zweites Mal manuell tust: in die Laufzeitumgebung legen.

PR-Kommentar

„Logging nicht vergessen“ → Linting-Regel, die es erzwingt.

Mündliche Architektur

Erklärung im Meeting → ADR, den der Agent lesen kann.

Copy-Paste-Prompt

Wiederkehrender Ablauf → SKILL.md, on-demand geladen.

Wenn die Lösung generisch genug ist, wird sie zum wiederverwendbaren Harness-Baustein.

  • Ein Modul, viele Projekte: Der Baustein liegt zentral im Harness; konsumierende Repos binden per Symlink — dieselben Skills, Rules und die integration.md stehen überall bereit.
  • Änderungen bündeln: Ein Update im Modul lässt sich in allen eingerichteten Projekten nach dem gleichen Ablauf nachziehen.
  • Integration per Prompt: Sätze wie „Binde Modul X ein — Symlinks wie in integration.md, danach die Verifikations-Checkliste“ geben Plan Mode die nötige Kontur für Pfade und Dateien.
  • Von Beschreibung zu Artefakt: „Fasse das als Skill unter .cursor/skills/… zusammen“ genügt oft; der Agent legt SKILL.md an und nimmt es in den Kontext auf.
Der Weg

Probabilistisch und deterministisch

Probabilistisch (LLM)

Kreativ, kontextsensitiv — Ausgaben sind nicht bitgenau reproduzierbar.

Deterministisch (Gates)

Tests, Linter, Schema-Checks — gleiche Eingabe, gleiches Ergebnis, auditierbar.

Das Harness kombiniert beides.

  • Ein Repo, eine Pipeline: Linting, Tests und Schema-Checks gelten für Agenten-Beiträge und klassische Commits im gleichen Arbeitsbaum.
  • Wiederkehrende Qualitätsregeln lassen sich in Skills, Rules und ADRs festhalten — die CI prüft sie bei jedem Merge.
  • Gate-Ergebnisse sind reproduzierbar und protokollierbar; sie stehen bei Audits und Reviews neben dem LLM-Output zur Verfügung.
Der Weg

Was ist ein Harness?

Context Engineering

Rules, Skills, ADRs, Co-Evolution — maschinenlesbar, versioniert.

Architektur-Constraints

Design-Tokens, Strukturtests, CI — der Build prüft mit.

Garbage Collection

Audits, Drift-Erkennung, Retros — Entropie aktiv abbauen.

  • Orte im System: Anwendungscode und Domäne im Projekt; wiederverwendbare Bausteine als Module im Harness, Einbindung per Symlink und integration.md.
  • Versionierung: Rules, Skills und ADRs sind normale Artefakte im Git — Review und CI wie bei Produktcode.
  • Kontextökonomie: Globale Rules kompakt halten; Tiefe in Skills on-demand laden; Präzises in ADRs und Vault.
  • Zwei Qualitätsschienen: CI, Linter und Audits liefern deterministische Signale; das LLM ergänzt mit Vorschlägen im selben Arbeitsbaum.
  • Reifebild: Das Harness trägt, wenn wiederkehrende Aufgaben aus aktuellem Kontext und Leitplanken zuverlässig neu erzeugt werden können.

Bei schwachem Output: Zuerst Kontext und Harness schärfen; Modellwahl und Parameter als zweiter Hebel.

Reproduzierbarkeit: Das Harness ist reif, wenn Code jederzeit allein aus Kontext und Leitplanken neu erzeugt werden kann. Der Code ist das Ergebnis — der Kontext ist der Wert.

Konzept-Deck — Harness Engineering im Detail

Der Weg

Wissen für Agenten: RAG und der Codebase-Graph

Vektor-RAG

Chunks → Embeddings → Ähnlichkeit. Gut für Doku-Suche — Struktur und Abhängigkeiten fehlen.

  • Texte in Blöcke teilen, als Vektoren im semantischen Raum ablegen.
  • Abfragen liefern die inhaltlich nächsten Passagen — auch bei anderer Formulierung.
  • Stärke: Handbücher, Release Notes, Support-Antworten durchsuchen.
  • Grenze: keine Modellierung von Aufrufketten oder Importen im Code.

Graph-RAG

Symbole, Aufrufe, Kanten als Graph. Multi-Hop: „Wer ruft X? Was hängt von Y ab?"

  • Knoten: z. B. Funktionen, Typen, Dateien; Kanten: ruft, importiert, erbt.
  • Traversierung über mehrere Schritte — Impact und Nachbarn sichtbar machen.
  • Strukturfragen: Abhängigkeiten und Beziehungen über Kanten im Graph.
  • Typisch: Abhängigkeitsketten, transitive Effekte einer Änderung.

Codebase-Graph (graphify): Code als Netz — Symbol-Lookup, Call-Graph, Impact in einem Schritt, ohne lange File-Read-Ketten.

  • Impact vor Refactoring: „Was bricht bei Änderung an X?"
  • Struktur-Queries: Abhängigkeiten, transitive Importe — per Graph-Traversal.
  • Hybrid: Vektor-RAG + Graph für Semantik und Struktur zusammen.
Der Weg

Wiederverwendbarkeit — neu gedacht

Harness-Module bündeln Rules, Skills, Templates, Code, integration.md — pro Modul zusammengefasst, per Symlink in beliebig viele Projekte eingehängt, unabhängig weiterentwickelt.

  • integration.md: ein Agent kann das Modul ohne Rückfragen einbinden.
  • Symlinks: Modul weiterentwickeln → alle Projekte erhalten das Update sofort.
  • Generalisierung lohnt sich ab dem zweiten Projekt — und wächst mit jedem weiteren.
  • Rückfluss: Nützliches aus Projekten extrahieren und als Modul zurückgeben.

Abstraktionsebene bestimmt Reichweite: projektspezifisch → kundenübergreifend → domänenunabhängig. Wer auf der richtigen Ebene generalisiert, zahlt Entwicklungsaufwand einmal und erntet ihn unbegrenzt.

Der Weg

Production ohne manuelles Zeilen-Review

Gates-Pyramide

Große Systeme werden nicht Zeile für Zeile von Menschen geprüft — die Gates müssen stimmen: automatisierte Basis, darauf Conformance, oben Stichproben.

  • Basis: Unit- und Integrationstests, Type-Checks, Linter — jeder Commit.
  • Conformance: Architektur-Constraints, Design-Tokens, Naming-Regeln automatisch geprüft.
  • Top: Security-Scans, Stichproben-Review, Freigabe für kritische Pfade.
  • Review skaliert: der Build ist die feste Prüfkette — ohne proportionales Zeilen-Review pro Merge.
Der Weg

Abstraktionspyramide

Abstraktionspyramide mit geraden Seitenlinien: Vision und Sinn in der oberen Schicht; Harness unter der Pyramide

Vision, Strategie, Taktik und Umsetzung bilden eine Pyramide: oben weniger Fläche, unten mehr operative Tiefe. Der Harness umschließt alle Ebenen.

Die Grenzen zwischen den Ebenen sind fließend — Teams verschieben Inhalte mit Reife und Kontext.

Ist der Harness für die oberen Ebenen ausgelegt, lassen sich Details auf den darunterliegenden Ebenen im Dialog mit Agenten im Plan Mode generischer klären und in Rules, Skills und Doku integrieren. Darauf aufbauend wird die Pyramide Stück für Stück erklimmbar: konkrete Erkenntnisse fließen ein, wiederholbare Muster wandern nach oben. Die Dialoge mit Agenten finden auf neuen Abstraktions- und Generalisierungsebenen statt.

Der Weg

Build Skills, not Agents

Ein fähiger Agent plus modulare SKILL.md-Dateien schlägt ein starres Rollen-Orchester für den Alltag. Skills werden bei Bedarf geladen — kein Dauer-Overhead, kein festes Casting.

Ein SKILL.md ist eine wiederverwendbare Lösungsanleitung. Der Agent lädt sie on-demand, wendet sie situationsgerecht an — und das konsistent über alle Sessions und Projekte hinweg.

  • Markdown, versioniert — kein Code erforderlich, kein Setup-Overhead.
  • On-demand geladen: der Agent zieht den Skill nur, wenn er passt.
  • Konsistent über alle Sessions und Projekte — einmal schreiben, überall nutzen.
  • Kombinierbar: mehrere Skills pro Session, situationsgerecht gemischt.

Konzept-Deck — Build Skills, not Agents

Der Weg

Die Abstraktionspyramide

Strategie Taktik Umsetzung

Hebel: Eine Stunde oben wirkt stärker als eine Stunde unten — weil die Umsetzung zunehmend automatisiert wird. Evolution: ihr verschiebt eure Arbeit über Zeit nach oben.

Migration: bleibt der Kontext erhalten, könnt ihr Technologie wechseln und Code neu generieren — Tests, Deploy-Konfiguration, Leitplanken bleiben tragfähig.

Identität

Ihr seid Architekten
eurer Agent-Umgebung

Qualität des Harness bestimmt Qualität des Outputs. Klassische Rollenlabels lösen sich auf — zählen tun Erfahrung aus verschiedenen Kontexten und die richtige Abstraktionsebene.

Fahrplan

Der Fahrplan: 16 Wochen (8 × 2 Wochen)

Woche 1–2

Vibe Coding bewusst: Erfahrung, inklusive der Schmerzpunkte.

Woche 3–4

Gemeinsames Harness. Rules von Agenten erzeugen lassen. ADRs. Plan Mode als Standard: erst klären, dann bauen.

Woche 5–6

Deterministische Gates in CI: Linter, Tests, Type-Checks. Erste Skills.

Woche 7–8

Tägliche Arbeit mit Agenten wird Normalfall. Retro-Zyklus.

Woche 9–10

Architecture-Conformance automatisiert. Eigene Audit-Definitionen.

Woche 11–12

Kein manuell getippter Produktionscode mehr; Agent + Harness als Standard.

Woche 13–14

Security- und Quality-Audits automatisiert. Production-Gates ohne manuelles Zeilen-Review.

Woche 15–16

Harness-Reife: Stack-Wechsel möglich, Kontext von Implementierung getrennt.

Fahrplan

Themen für die Vertiefung (1 / 2)

MCP

Agenten mit Daten und Tools verbinden.

  • Agenten brauchen reproduzierbare Zugriffe auf Daten und Tools.
  • Vorteil: weniger Custom-Code pro Integration und einheitlichere Fehlerbilder.
Modelle & Kosten

Wann welches Modell, Budget im Blick.

  • Token- und Latenzprofil entscheidet über Wirtschaftlichkeit pro Aufgabe.
  • Vorteil: Budget steuerbar, passendes Modell pro Workload.
Workflow-Engines

Temporal, LangGraph, n8n — deterministisch orchestrieren.

  • Lange Ketten brauchen Zuverlässigkeit und Nachvollziehbarkeit.
  • Vorteil: deterministische Fehlerbehandlung und weniger manuelle Nacharbeit.
E2E & UI

Playwright und mobile Automatisierung, agentensteuerbar.

  • UI-Änderungen brechen ohne Regressionstests schnell.
  • Vorteil: automatisierte Checks und erweiterbare Agenten-Workflows.
Fahrplan

Themen für die Vertiefung (2 / 2)

CI-Kosten

Pipeline-Stufen, Caching, Runner-Strategie.

  • Lange Pipelines und Runner verbrennen Zeit und Budget.
  • Vorteil: schnelleres Feedback und planbare Infrastrukturkosten.
Staging

Preview-Umgebungen und gemeinsames Staging.

  • Umgebungen müssen zu dem passen, was ihr testet.
  • Vorteil: reproduzierbare Reviews und klare Promotionspfade.
Graphen

Evolution, Codebase — Zusammenhänge sichtbar machen.

  • Impact und Abhängigkeiten über mehrere Artefakte hinweg lassen sich nachvollziehen und priorisieren.
  • Vorteil: Impact-Analysen und Risiken früh sichtbar.
Skalierung

Async-Default, Conformance und messbare Leitplanken für wachsende Teams.

  • Große Teams brauchen belastbare Standards und klare Conformance.
  • Vorteil: weniger Abstimmungsaufwand pro Merge.

Der Markt wartet nicht

Die beste Zeit anzufangen liegt in der Vergangenheit. Die zweitbeste ist jetzt. In 161 Wochen könnt ihr auf Kurs sein.

¹ Realistischer Zeitrahmen mit Blick auf aktuelle Projektsituationen zu diskutieren. Der ROI kommt schnell, wenn man es richtig angeht — und schafft Freiräume für die weitere Evolution.

Claude Code

Claude Routines — Agenten-Sessions auf Autopilot

Gespeicherte Claude Code Konfigurationen mit Prompt, Repos und Connectors. Laufen automatisch auf Anthropics Cloud-Infrastruktur — auch wenn der Laptop geschlossen ist.

Scheduled

Stündlich, täglich oder wöchentlich. Beispiel: nächtliches Backlog-Triage — Labels, Owner-Zuweisung und Slack-Zusammenfassung zum Tagesbeginn.

API-Trigger

HTTP POST aus Alerting-System oder Deploy-Pipeline startet eine Session. Claude korreliert Stack-Trace mit Commits und öffnet einen Draft-PR.

GitHub Events

PR geöffnet → Review-Checkliste, Inline-Kommentare und Security-Scan — automatisch auf jedem Pull Request nach euren Regeln.

Erstellen via /schedule im CLI oder auf claude.ai/code/routines. Pro, Max, Team und Enterprise. Research Preview.