SPEC-to-PIP Quality Comparison
Datum: 2026-05-07
Kurzurteil
Die Änderungen liefern bereits einen signifikanten Qualitätsgewinn bei Prüfbarkeit, Lineage, Review-Governance und Betriebsstabilität. Der Live-Smoke mit aktivem Shadow Hybrid Retrieval zeigt außerdem, dass Exact/Sparse/Dense/Fused-Diagnostik jetzt Ende-zu-Ende in den Match-Evidences landet. Ein signifikanter Accuracy-Gewinn im produktiven Ranking ist damit aber noch nicht belastbar bewiesen, weil der Shadow-Pfad weiterhin diagnostisch ist und die Produktionssortierung nicht ersetzt.
Grund: Vor den Änderungen wurde kein echter baseline_dense Eval-Run mit gleicher Messmethodik gespeichert. Deshalb wurde am 2026-05-07 ein Baseline-Proxy aus den vorhandenen pip_ai_matches.score-Rängen rekonstruiert und als baseline_dense Eval-Run gespeichert. Dieser Proxy ist nützlich für Orientierung, aber kein historischer Vorher-Lauf.
Datenbasis
| Artefakt | Wert |
|---|---|
| Golden Set | 9caef557-e3ce-49a9-b489-621c2e8c8000 |
| Golden-Set Items | 30 |
| Positive SPEC-Paare | 18 |
| Hard-Negative-Paare | 12 |
| Explizite No-Match-/Missing-SPEC-Labels | 0 |
| Match Rows | 2387 |
| Evidence-Node-verlinkte Matches | 2387 / 2387 |
| SPEC-Snapshot-verlinkte Matches | 2387 / 2387 |
| Kalibrierte Match-Wahrscheinlichkeiten | 0 |
| Shadow-Hybrid-Metadaten | 3676 Matches |
| Shadow-Hybrid tatsächlich aktiv | 463 Matches |
Accuracy-Vergleich
| Metrik | Dense Baseline Proxy | Candidate Shadow Eval | Delta | Bewertung |
|---|---|---|---|---|
| Recall@1 | 61.11 % | 61.11 % | 0.00 pp | Kein belegter Gewinn |
| Recall@5 | 94.44 % | 94.44 % | 0.00 pp | Kein belegter Gewinn |
| Recall@10 | 100.00 % | 100.00 % | 0.00 pp | Stabil |
| Recall@20 | 100.00 % | 100.00 % | 0.00 pp | Stabil |
| MRR | 0.7562 | 0.7562 | 0.0000 | Kein belegter Gewinn |
| nDCG@20 | 0.8163 | 0.8163 | 0.0000 | Kein belegter Gewinn |
| Hard-Negative Top-1-Rate | 41.67 % | 41.67 % | 0.00 pp | Auto-Approve blockiert |
| Hard-Negative Top-5-Rate | 100.00 % | 100.00 % | 0.00 pp | Auto-Approve blockiert |
Der gespeicherte Candidate-Shadow-Eval-Run 539a4e45-2c61-43b5-a263-8acf1459ecd3 bewertet weiterhin die gespeicherten Kandidaten über die vorhandene Ranking-Basis. Dadurch ist er mit dem rekonstruierten Dense-Proxy praktisch identisch. Das ist ein gutes Zeichen für Stabilität, aber noch kein Nachweis, dass Hybrid Retrieval die Erkennung verbessert.
Rerank-Sensitivität
Zusätzlich wurde ein reiner rerank_score-Sortiervergleich auf denselben Kandidaten berechnet. Diese Auswertung wurde nicht als offizieller Eval-Run gespeichert, weil sie nicht dem aktuellen Produktionsranking entspricht. Sie zeigt aber ein Tuning-Risiko:
| Metrik | Score-Proxy | Rerank-Only | Delta |
|---|---|---|---|
| Recall@1 | 61.11 % | 55.56 % | -5.56 pp |
| Recall@5 | 94.44 % | 88.89 % | -5.56 pp |
| Recall@10 | 100.00 % | 100.00 % | 0.00 pp |
| Recall@20 | 100.00 % | 100.00 % | 0.00 pp |
| MRR | 0.7562 | 0.6886 | -0.0676 |
| nDCG@20 | 0.8163 | 0.7631 | -0.0532 |
Interpretation: Cohere Rerank oder die strukturierte Rerank-Eingabe darf nicht ungeprüft als alleinige Sortierlogik promoted werden. Das bestätigt die Entscheidung, Auto-Approve und Hybrid-Promotion strikt über Golden-Set-Gates zu steuern.
Geschwindigkeit
| Messpunkt | Wert |
|---|---|
| n8n PIP Processor Execution | 25445 |
| PIP Processor Dauer | 243267 ms |
| Extrahierte PIP Items | 14 |
| Dauer pro PIP Item | 17376 ms |
| Inserted Matches | 459 |
| n8n Embedding-Enrichment Execution | 26405 |
| Embedding-Enrichment Dauer | 3797 ms |
Für die Vorher-Baseline gibt es keine gemessene historische Latenz. Der gespeicherte Baseline-Proxy enthält deshalb latency_metrics.measured=false.
Live Shadow-Hybrid Smoke
| Messpunkt | Wert |
|---|---|
| Dokument | e7e09535-1fb7-467a-9dce-237dd18f7961 |
| n8n PIP Processor Execution | 32418 |
| PIP Processor Dauer | 254625 ms |
| Extrahierte PIP Items | 14 |
| Dauer pro PIP Item | 18188 ms |
| Inserted Matches | 463 |
| Matches mit Shadow-Metadaten | 463 / 463 |
Matches mit shadow_hybrid.enabled=true | 463 / 463 |
| Shadow-Latenz | min 406 ms / avg 454 ms / max 538 ms |
| Candidate Path Totals | exact 463 / sparse 13575 / dense 46300 / fused 27780 |
Interpretation: Die zusätzliche Shadow-Diagnostik kostet im aktiven Messmodus grob eine halbe Sekunde pro PIP-Item für die Hybrid-Kandidatenmessung. Das ist für Staging- und Eval-Läufe akzeptabel, sollte aber erst nach weiteren Messungen in einen produktiven Always-On-Pfad überführt werden.
Qualitätsgewinn Jenseits Von Accuracy
| Bereich | Vorher-Risiko | Jetzt |
|---|---|---|
| Reproduzierbarkeit | Match konnte fachlich schwer gegen einen konkreten SPEC-Stand rekonstruiert werden | Matches tragen spec_snapshot_id und Evidence-Node-Verweise |
| Prüfbarkeit | Reviewer sahen primär Kandidaten und Scores | Evidence-first Review-Daten liegen technisch vor |
| Learning Loop | Feedback konnte zu schnell als Retrieval-Wahrheit wirken | Learning ist quarantined, versioniert und rollbackfähig geplant |
| Auto-Approve | Raw Score konnte als Confidence missverstanden werden | Auto-Approve bleibt ohne Kalibrierung hart blockiert |
| Rejects | Negatives Feedback war schwer auswertbar | 12 Hard-Negatives sind im Golden Set |
| No-Match | Kein sauberer fachlicher PIP-Level-Status | No-Match-Entscheidungen sind modelliert, aber noch nicht gelabelt |
| Betrieb | n8n/Supabase/Qdrant-Drift schwer nachvollziehbar | Outbox-, DLQ- und Statusmodelle sind vorhanden |
E2E-Testmatrix
| Test | Ergebnis |
|---|---|
| Supabase Eval Inventory | 1 Eval Set, 30 Items, 3 Runs nach Baseline-Proxy-Erzeugung |
| Baseline-Proxy-Erzeugung | 3ddb49d2-aa15-4a5e-88ad-81d558a43caf, pipeline_kind=baseline_dense |
| Candidate Eval | 539a4e45-2c61-43b5-a263-8acf1459ecd3, automationAllowed=false |
| n8n PIP Processor Smoke | Execution 25445, success, 41/41 Nodes |
| n8n Embedding-Enrichment Smoke | Execution 26405, success, 11/11 Nodes |
| Evidence/Snapshot Linkage | 2387/2387 Matches vollständig verlinkt |
| Calibration Gate | 0 kalibrierte Wahrscheinlichkeiten, Auto-Approve blockiert |
| Shadow-Hybrid Gate | Live aktiv: 463/463 Matches mit shadow_hybrid.enabled=true |
Fazit
Wir können ein signifikant besseres Gesamtergebnis erwarten, wenn Qualität als fachliche Prüfbarkeit, Auditierbarkeit und sichere Automatisierbarkeit verstanden wird. Genau dafür zeigen die E2E-Daten bereits klare Fortschritte.
Wir können noch nicht behaupten, dass die reine Erkennungsgenauigkeit gegenüber der alten Dense-Suche signifikant besser ist. Dafür fehlen ein echter historischer Baseline-Lauf und ein Eval, das die Shadow-Hybrid-Kandidaten als alternative Ranking-Basis gegen das Golden Set bewertet.
Nächste Messschritte
- Shadow-Hybrid-Kandidaten als eigenen Eval-Run gegen das Golden Set auswerten, statt nur die aktuelle Produktionssortierung zu messen.
- Pro PIP Item
candidate_generation_ms,rerank_ms, Candidate Counts und Pfadanteile persistieren. - No-Match-, Missing-SPEC- und RFI-Labels durch Reviewer erzeugen.
- Rerank-Prompts/YAML-Felder gegen das Golden Set tunen, weil
rerank_scoreallein aktuell schlechter sortiert. - Auto-Approve erst prüfen, wenn
calibrated_match_probabilitybefüllt ist und Precision/FPR-Gates über ein größeres Holdout-Set stabil sind.