SPEC-to-PIP Quality Comparison

Datum: 2026-05-07

Kurzurteil

Die Änderungen liefern bereits einen signifikanten Qualitätsgewinn bei Prüfbarkeit, Lineage, Review-Governance und Betriebsstabilität. Der Live-Smoke mit aktivem Shadow Hybrid Retrieval zeigt außerdem, dass Exact/Sparse/Dense/Fused-Diagnostik jetzt Ende-zu-Ende in den Match-Evidences landet. Ein signifikanter Accuracy-Gewinn im produktiven Ranking ist damit aber noch nicht belastbar bewiesen, weil der Shadow-Pfad weiterhin diagnostisch ist und die Produktionssortierung nicht ersetzt.

Grund: Vor den Änderungen wurde kein echter baseline_dense Eval-Run mit gleicher Messmethodik gespeichert. Deshalb wurde am 2026-05-07 ein Baseline-Proxy aus den vorhandenen pip_ai_matches.score-Rängen rekonstruiert und als baseline_dense Eval-Run gespeichert. Dieser Proxy ist nützlich für Orientierung, aber kein historischer Vorher-Lauf.

Datenbasis

Artefakt	Wert
Golden Set	`9caef557-e3ce-49a9-b489-621c2e8c8000`
Golden-Set Items	30
Positive SPEC-Paare	18
Hard-Negative-Paare	12
Explizite No-Match-/Missing-SPEC-Labels	0
Match Rows	2387
Evidence-Node-verlinkte Matches	2387 / 2387
SPEC-Snapshot-verlinkte Matches	2387 / 2387
Kalibrierte Match-Wahrscheinlichkeiten	0
Shadow-Hybrid-Metadaten	3676 Matches
Shadow-Hybrid tatsächlich aktiv	463 Matches

Accuracy-Vergleich

Metrik	Dense Baseline Proxy	Candidate Shadow Eval	Delta	Bewertung
Recall@1	61.11 %	61.11 %	0.00 pp	Kein belegter Gewinn
Recall@5	94.44 %	94.44 %	0.00 pp	Kein belegter Gewinn
Recall@10	100.00 %	100.00 %	0.00 pp	Stabil
Recall@20	100.00 %	100.00 %	0.00 pp	Stabil
MRR	0.7562	0.7562	0.0000	Kein belegter Gewinn
nDCG@20	0.8163	0.8163	0.0000	Kein belegter Gewinn
Hard-Negative Top-1-Rate	41.67 %	41.67 %	0.00 pp	Auto-Approve blockiert
Hard-Negative Top-5-Rate	100.00 %	100.00 %	0.00 pp	Auto-Approve blockiert

Der gespeicherte Candidate-Shadow-Eval-Run 539a4e45-2c61-43b5-a263-8acf1459ecd3 bewertet weiterhin die gespeicherten Kandidaten über die vorhandene Ranking-Basis. Dadurch ist er mit dem rekonstruierten Dense-Proxy praktisch identisch. Das ist ein gutes Zeichen für Stabilität, aber noch kein Nachweis, dass Hybrid Retrieval die Erkennung verbessert.

Rerank-Sensitivität

Zusätzlich wurde ein reiner rerank_score-Sortiervergleich auf denselben Kandidaten berechnet. Diese Auswertung wurde nicht als offizieller Eval-Run gespeichert, weil sie nicht dem aktuellen Produktionsranking entspricht. Sie zeigt aber ein Tuning-Risiko:

Metrik	Score-Proxy	Rerank-Only	Delta
Recall@1	61.11 %	55.56 %	-5.56 pp
Recall@5	94.44 %	88.89 %	-5.56 pp
Recall@10	100.00 %	100.00 %	0.00 pp
Recall@20	100.00 %	100.00 %	0.00 pp
MRR	0.7562	0.6886	-0.0676
nDCG@20	0.8163	0.7631	-0.0532

Interpretation: Cohere Rerank oder die strukturierte Rerank-Eingabe darf nicht ungeprüft als alleinige Sortierlogik promoted werden. Das bestätigt die Entscheidung, Auto-Approve und Hybrid-Promotion strikt über Golden-Set-Gates zu steuern.

Geschwindigkeit

Messpunkt	Wert
n8n PIP Processor Execution	`25445`
PIP Processor Dauer	243267 ms
Extrahierte PIP Items	14
Dauer pro PIP Item	17376 ms
Inserted Matches	459
n8n Embedding-Enrichment Execution	`26405`
Embedding-Enrichment Dauer	3797 ms

Für die Vorher-Baseline gibt es keine gemessene historische Latenz. Der gespeicherte Baseline-Proxy enthält deshalb latency_metrics.measured=false.

Live Shadow-Hybrid Smoke

Messpunkt	Wert
Dokument	`e7e09535-1fb7-467a-9dce-237dd18f7961`
n8n PIP Processor Execution	`32418`
PIP Processor Dauer	254625 ms
Extrahierte PIP Items	14
Dauer pro PIP Item	18188 ms
Inserted Matches	463
Matches mit Shadow-Metadaten	463 / 463
Matches mit `shadow_hybrid.enabled=true`	463 / 463
Shadow-Latenz	min 406 ms / avg 454 ms / max 538 ms
Candidate Path Totals	exact 463 / sparse 13575 / dense 46300 / fused 27780

Interpretation: Die zusätzliche Shadow-Diagnostik kostet im aktiven Messmodus grob eine halbe Sekunde pro PIP-Item für die Hybrid-Kandidatenmessung. Das ist für Staging- und Eval-Läufe akzeptabel, sollte aber erst nach weiteren Messungen in einen produktiven Always-On-Pfad überführt werden.

Qualitätsgewinn Jenseits Von Accuracy

Bereich	Vorher-Risiko	Jetzt
Reproduzierbarkeit	Match konnte fachlich schwer gegen einen konkreten SPEC-Stand rekonstruiert werden	Matches tragen `spec_snapshot_id` und Evidence-Node-Verweise
Prüfbarkeit	Reviewer sahen primär Kandidaten und Scores	Evidence-first Review-Daten liegen technisch vor
Learning Loop	Feedback konnte zu schnell als Retrieval-Wahrheit wirken	Learning ist quarantined, versioniert und rollbackfähig geplant
Auto-Approve	Raw Score konnte als Confidence missverstanden werden	Auto-Approve bleibt ohne Kalibrierung hart blockiert
Rejects	Negatives Feedback war schwer auswertbar	12 Hard-Negatives sind im Golden Set
No-Match	Kein sauberer fachlicher PIP-Level-Status	No-Match-Entscheidungen sind modelliert, aber noch nicht gelabelt
Betrieb	n8n/Supabase/Qdrant-Drift schwer nachvollziehbar	Outbox-, DLQ- und Statusmodelle sind vorhanden

E2E-Testmatrix

Test	Ergebnis
Supabase Eval Inventory	1 Eval Set, 30 Items, 3 Runs nach Baseline-Proxy-Erzeugung
Baseline-Proxy-Erzeugung	`3ddb49d2-aa15-4a5e-88ad-81d558a43caf`, `pipeline_kind=baseline_dense`
Candidate Eval	`539a4e45-2c61-43b5-a263-8acf1459ecd3`, `automationAllowed=false`
n8n PIP Processor Smoke	Execution `25445`, `success`, 41/41 Nodes
n8n Embedding-Enrichment Smoke	Execution `26405`, `success`, 11/11 Nodes
Evidence/Snapshot Linkage	2387/2387 Matches vollständig verlinkt
Calibration Gate	0 kalibrierte Wahrscheinlichkeiten, Auto-Approve blockiert
Shadow-Hybrid Gate	Live aktiv: 463/463 Matches mit `shadow_hybrid.enabled=true`

Fazit

Wir können ein signifikant besseres Gesamtergebnis erwarten, wenn Qualität als fachliche Prüfbarkeit, Auditierbarkeit und sichere Automatisierbarkeit verstanden wird. Genau dafür zeigen die E2E-Daten bereits klare Fortschritte.

Wir können noch nicht behaupten, dass die reine Erkennungsgenauigkeit gegenüber der alten Dense-Suche signifikant besser ist. Dafür fehlen ein echter historischer Baseline-Lauf und ein Eval, das die Shadow-Hybrid-Kandidaten als alternative Ranking-Basis gegen das Golden Set bewertet.

Nächste Messschritte

Shadow-Hybrid-Kandidaten als eigenen Eval-Run gegen das Golden Set auswerten, statt nur die aktuelle Produktionssortierung zu messen.
Pro PIP Item candidate_generation_ms, rerank_ms, Candidate Counts und Pfadanteile persistieren.
No-Match-, Missing-SPEC- und RFI-Labels durch Reviewer erzeugen.
Rerank-Prompts/YAML-Felder gegen das Golden Set tunen, weil rerank_score allein aktuell schlechter sortiert.
Auto-Approve erst prüfen, wenn calibrated_match_probability befüllt ist und Precision/FPR-Gates über ein größeres Holdout-Set stabil sind.

SPEC-to-PIP Quality Comparison ​

Kurzurteil ​

Datenbasis ​

Accuracy-Vergleich ​

Rerank-Sensitivität ​

Geschwindigkeit ​

Live Shadow-Hybrid Smoke ​

Qualitätsgewinn Jenseits Von Accuracy ​

E2E-Testmatrix ​

Fazit ​

Nächste Messschritte ​