Skip to content

SPEC-to-PIP Quality Comparison

Datum: 2026-05-07

Kurzurteil

Die Änderungen liefern bereits einen signifikanten Qualitätsgewinn bei Prüfbarkeit, Lineage, Review-Governance und Betriebsstabilität. Der Live-Smoke mit aktivem Shadow Hybrid Retrieval zeigt außerdem, dass Exact/Sparse/Dense/Fused-Diagnostik jetzt Ende-zu-Ende in den Match-Evidences landet. Ein signifikanter Accuracy-Gewinn im produktiven Ranking ist damit aber noch nicht belastbar bewiesen, weil der Shadow-Pfad weiterhin diagnostisch ist und die Produktionssortierung nicht ersetzt.

Grund: Vor den Änderungen wurde kein echter baseline_dense Eval-Run mit gleicher Messmethodik gespeichert. Deshalb wurde am 2026-05-07 ein Baseline-Proxy aus den vorhandenen pip_ai_matches.score-Rängen rekonstruiert und als baseline_dense Eval-Run gespeichert. Dieser Proxy ist nützlich für Orientierung, aber kein historischer Vorher-Lauf.

Datenbasis

ArtefaktWert
Golden Set9caef557-e3ce-49a9-b489-621c2e8c8000
Golden-Set Items30
Positive SPEC-Paare18
Hard-Negative-Paare12
Explizite No-Match-/Missing-SPEC-Labels0
Match Rows2387
Evidence-Node-verlinkte Matches2387 / 2387
SPEC-Snapshot-verlinkte Matches2387 / 2387
Kalibrierte Match-Wahrscheinlichkeiten0
Shadow-Hybrid-Metadaten3676 Matches
Shadow-Hybrid tatsächlich aktiv463 Matches

Accuracy-Vergleich

MetrikDense Baseline ProxyCandidate Shadow EvalDeltaBewertung
Recall@161.11 %61.11 %0.00 ppKein belegter Gewinn
Recall@594.44 %94.44 %0.00 ppKein belegter Gewinn
Recall@10100.00 %100.00 %0.00 ppStabil
Recall@20100.00 %100.00 %0.00 ppStabil
MRR0.75620.75620.0000Kein belegter Gewinn
nDCG@200.81630.81630.0000Kein belegter Gewinn
Hard-Negative Top-1-Rate41.67 %41.67 %0.00 ppAuto-Approve blockiert
Hard-Negative Top-5-Rate100.00 %100.00 %0.00 ppAuto-Approve blockiert

Der gespeicherte Candidate-Shadow-Eval-Run 539a4e45-2c61-43b5-a263-8acf1459ecd3 bewertet weiterhin die gespeicherten Kandidaten über die vorhandene Ranking-Basis. Dadurch ist er mit dem rekonstruierten Dense-Proxy praktisch identisch. Das ist ein gutes Zeichen für Stabilität, aber noch kein Nachweis, dass Hybrid Retrieval die Erkennung verbessert.

Rerank-Sensitivität

Zusätzlich wurde ein reiner rerank_score-Sortiervergleich auf denselben Kandidaten berechnet. Diese Auswertung wurde nicht als offizieller Eval-Run gespeichert, weil sie nicht dem aktuellen Produktionsranking entspricht. Sie zeigt aber ein Tuning-Risiko:

MetrikScore-ProxyRerank-OnlyDelta
Recall@161.11 %55.56 %-5.56 pp
Recall@594.44 %88.89 %-5.56 pp
Recall@10100.00 %100.00 %0.00 pp
Recall@20100.00 %100.00 %0.00 pp
MRR0.75620.6886-0.0676
nDCG@200.81630.7631-0.0532

Interpretation: Cohere Rerank oder die strukturierte Rerank-Eingabe darf nicht ungeprüft als alleinige Sortierlogik promoted werden. Das bestätigt die Entscheidung, Auto-Approve und Hybrid-Promotion strikt über Golden-Set-Gates zu steuern.

Geschwindigkeit

MesspunktWert
n8n PIP Processor Execution25445
PIP Processor Dauer243267 ms
Extrahierte PIP Items14
Dauer pro PIP Item17376 ms
Inserted Matches459
n8n Embedding-Enrichment Execution26405
Embedding-Enrichment Dauer3797 ms

Für die Vorher-Baseline gibt es keine gemessene historische Latenz. Der gespeicherte Baseline-Proxy enthält deshalb latency_metrics.measured=false.

Live Shadow-Hybrid Smoke

MesspunktWert
Dokumente7e09535-1fb7-467a-9dce-237dd18f7961
n8n PIP Processor Execution32418
PIP Processor Dauer254625 ms
Extrahierte PIP Items14
Dauer pro PIP Item18188 ms
Inserted Matches463
Matches mit Shadow-Metadaten463 / 463
Matches mit shadow_hybrid.enabled=true463 / 463
Shadow-Latenzmin 406 ms / avg 454 ms / max 538 ms
Candidate Path Totalsexact 463 / sparse 13575 / dense 46300 / fused 27780

Interpretation: Die zusätzliche Shadow-Diagnostik kostet im aktiven Messmodus grob eine halbe Sekunde pro PIP-Item für die Hybrid-Kandidatenmessung. Das ist für Staging- und Eval-Läufe akzeptabel, sollte aber erst nach weiteren Messungen in einen produktiven Always-On-Pfad überführt werden.

Qualitätsgewinn Jenseits Von Accuracy

BereichVorher-RisikoJetzt
ReproduzierbarkeitMatch konnte fachlich schwer gegen einen konkreten SPEC-Stand rekonstruiert werdenMatches tragen spec_snapshot_id und Evidence-Node-Verweise
PrüfbarkeitReviewer sahen primär Kandidaten und ScoresEvidence-first Review-Daten liegen technisch vor
Learning LoopFeedback konnte zu schnell als Retrieval-Wahrheit wirkenLearning ist quarantined, versioniert und rollbackfähig geplant
Auto-ApproveRaw Score konnte als Confidence missverstanden werdenAuto-Approve bleibt ohne Kalibrierung hart blockiert
RejectsNegatives Feedback war schwer auswertbar12 Hard-Negatives sind im Golden Set
No-MatchKein sauberer fachlicher PIP-Level-StatusNo-Match-Entscheidungen sind modelliert, aber noch nicht gelabelt
Betriebn8n/Supabase/Qdrant-Drift schwer nachvollziehbarOutbox-, DLQ- und Statusmodelle sind vorhanden

E2E-Testmatrix

TestErgebnis
Supabase Eval Inventory1 Eval Set, 30 Items, 3 Runs nach Baseline-Proxy-Erzeugung
Baseline-Proxy-Erzeugung3ddb49d2-aa15-4a5e-88ad-81d558a43caf, pipeline_kind=baseline_dense
Candidate Eval539a4e45-2c61-43b5-a263-8acf1459ecd3, automationAllowed=false
n8n PIP Processor SmokeExecution 25445, success, 41/41 Nodes
n8n Embedding-Enrichment SmokeExecution 26405, success, 11/11 Nodes
Evidence/Snapshot Linkage2387/2387 Matches vollständig verlinkt
Calibration Gate0 kalibrierte Wahrscheinlichkeiten, Auto-Approve blockiert
Shadow-Hybrid GateLive aktiv: 463/463 Matches mit shadow_hybrid.enabled=true

Fazit

Wir können ein signifikant besseres Gesamtergebnis erwarten, wenn Qualität als fachliche Prüfbarkeit, Auditierbarkeit und sichere Automatisierbarkeit verstanden wird. Genau dafür zeigen die E2E-Daten bereits klare Fortschritte.

Wir können noch nicht behaupten, dass die reine Erkennungsgenauigkeit gegenüber der alten Dense-Suche signifikant besser ist. Dafür fehlen ein echter historischer Baseline-Lauf und ein Eval, das die Shadow-Hybrid-Kandidaten als alternative Ranking-Basis gegen das Golden Set bewertet.

Nächste Messschritte

  1. Shadow-Hybrid-Kandidaten als eigenen Eval-Run gegen das Golden Set auswerten, statt nur die aktuelle Produktionssortierung zu messen.
  2. Pro PIP Item candidate_generation_ms, rerank_ms, Candidate Counts und Pfadanteile persistieren.
  3. No-Match-, Missing-SPEC- und RFI-Labels durch Reviewer erzeugen.
  4. Rerank-Prompts/YAML-Felder gegen das Golden Set tunen, weil rerank_score allein aktuell schlechter sortiert.
  5. Auto-Approve erst prüfen, wenn calibrated_match_probability befüllt ist und Precision/FPR-Gates über ein größeres Holdout-Set stabil sind.

Built with VitePress