Ticketing-Metriken für die Qualitätssicherung: Was QA-Teams wirklich messen sollten

Warum QA eigene Metriken braucht

Klassische Service-Metriken wie AHT oder First Response Time messen Effizienz. Qualitätssicherung fragt nach etwas anderem: Hat der Agent das Richtige gesagt, den Ton getroffen, das Problem wirklich gelöst und den Prozess eingehalten?

Ohne ein QA-Programm wissen Sie nur wie schnell Ihr Team arbeitet, nicht wie gut. Ein Team kann exzellente Effizienz-Metriken haben und trotzdem systematisch falsche Antworten geben oder Kunden schlecht beraten.

Der Business Case: Laut SQM Group führt jede 1 %-Verbesserung der FCR zu 1 % höherem CSAT. Unternehmen mit strukturiertem QA-Programm erreichen typischerweise 10 %+ höhere FCR im ersten Jahr, was rechnerisch $286.000 an Operational Savings pro Prozentpunkt bedeutet (SQM Group).

Die wichtigsten QA-Metriken

Internal Quality Score (IQS)

Der Internal Quality Score ist die zentrale QA-Metrik. Er basiert auf einer Scorecard, die pro Ticket bewertet wird.

Typische Scorecard-Dimensionen:

Dimension	Gewichtung	Was bewertet wird
Lösungsqualität	30-40 %	Wurde das Problem korrekt und vollständig gelöst?
Kommunikation & Ton	20-25 %	Empathie, Klarheit, Professionalität
Prozesstreue	20-25 %	Wurden interne Prozesse eingehalten?
Dokumentation	10-15 %	Ticket-Notizen, Tags, Kategorisierung
Proaktivität	5-10 %	Wurden verwandte Probleme angesprochen?

Benchmarks:

Bewertung	Bedeutung
> 92 %	Exzellent (Top-Teams)
85-92 %	Gut
75-85 %	Verbesserungsbedarf
< 75 %	Kritisch

Quelle: Klaus/Zendesk QA Benchmark, MaestroQA

Calibration Score

Der Calibration Score misst, wie einheitlich verschiedene Reviewer dieselben Tickets bewerten. Ohne Kalibrierung sind QA-Scores nicht vergleichbar und Coaching-Gespräche verlieren ihre Grundlage.

Wie gemessen: Alle Reviewer bewerten dasselbe Set von 5-10 Tickets. Die Abweichung wird berechnet.

Ziel	Bewertung
Abweichung < 5 %	Exzellent kalibriert
Abweichung 5-10 %	Akzeptabel
Abweichung > 10 %	Kalibrierung nötig

Empfehlung: Monatliche Kalibrierungssessions mit allen Reviewern. 30-45 Minuten reichen. Diskutieren Sie die Grenzfälle, nicht die eindeutigen.

Stichprobengröße (Total Evaluations Completed)

Wie viele Tickets werden tatsächlich reviewed? Ohne ausreichende Stichprobe sind QA-Scores statistisch nicht belastbar.

Empfohlene Mindestwerte:

Team-Größe	Min. Evaluationen pro Agent/Monat	Warum
< 10 Agents	8-10 Tickets	Kleine Stichprobe braucht mehr Datenpunkte
10-30 Agents	5-8 Tickets	Standard
> 30 Agents	3-5 Tickets	Volumen macht's

Zusätzlich: Ziehen Sie die Stichprobe nicht nur zufällig, sondern ergänzen Sie gezielt Tickets mit niedrigem CSAT, eskalierte Tickets und Tickets von neuen oder unterdurchschnittlichen Agents. Diese gezielte Auswahl erhöht die Aussagekraft der Reviews erheblich.

Resolution Accuracy

Die Resolution Accuracy zeigt, wie oft die angebotene Lösung tatsächlich korrekt war. Sie ergänzt den Quality Score um eine objektive Komponente, die unabhängig vom Reviewer-Urteil ist.

Messung: Stichprobe geschlossener Tickets nach 7 Tagen prüfen: Hat der Kunde nochmal geschrieben? Wurde das Problem wirklich gelöst?

Benchmark	Wert
Ziel	> 90 %
Akzeptabel	80-90 %
Kritisch	< 80 %

Unterstützende Metriken (nicht QA-spezifisch, aber QA-relevant)

Metrik	QA-Relevanz
CSAT	Validiert den Quality Score von der Kundenseite. Hoher IQS + niedriger CSAT = Scorecard stimmt nicht.
Reopen Rate	Zeigt, ob Lösungen tatsächlich halten. Hohe Reopen Rate = systematisches Qualitätsproblem.
Escalation Rate	Kann auf Kompetenzlücken oder unklare Prozesse hindeuten.
FCR	Hohe FCR + hoher IQS = das Team arbeitet gut. Hohe FCR + niedriger IQS = Tickets werden zu früh geschlossen.
Agent Script Adherence	Prozesstreue bei regulierten Themen (Finanzen, Gesundheit, Versicherung).

QA-Programm aufbauen: Schritt für Schritt

Phase 1: Scorecard definieren (Woche 1-2)

Legen Sie 4-6 Dimensionen fest, klar gewichtet (siehe Tabelle oben). Definieren Sie eine Bewertungsskala, entweder 1-5 oder Pass/Fail pro Dimension. Bestimmen Sie kritische Fehler, die automatisch zu „Durchgefallen" führen, etwa falsche Rechtsinformationen oder Datenschutzverletzungen. Dokumentieren Sie eine Rubrik mit klaren Beispielen: Was unterscheidet eine „3" von einer „5"?

Phase 2: Pilotieren (Woche 3-4)

Lassen Sie 2-3 Reviewer dasselbe Set von 15 Tickets bewerten. Diskutieren Sie die Abweichungen: Wo sind sich die Reviewer uneinig und warum? Passen Sie daraufhin die Scorecard an, formulieren Sie Dimensionen klarer und justieren Sie die Gewichtung. Das durchschnittliche Ergebnis dieses Pilots wird Ihre Ausgangsbasis für alle zukünftigen Vergleiche.

Phase 3: Rollout (ab Woche 5)

Etablieren Sie einen festen Review-Rhythmus: Wöchentlich Reviews durchführen und Ergebnisse dokumentieren. Schließen Sie den Feedback-Loop, indem Sie Ergebnisse in 1:1-Gesprächen besprechen, nicht nur als Score kommunizieren. Führen Sie monatliche Kalibrierungssessions von 30-45 Minuten ein. Tracken Sie den IQS im Zeitverlauf pro Agent, Team und Thema, um Entwicklungen sichtbar zu machen.

Phase 4: Optimieren (laufend)

Reviewen Sie die Scorecard quartalsweise: Passen die Dimensionen noch zur aktuellen Realität? Prüfen Sie die Korrelation zwischen IQS und CSAT. Wenn ein hoher IQS nicht mit gutem CSAT einhergeht, stimmt die Scorecard nicht und muss angepasst werden. Nutzen Sie KI-basierte QA-Tools (Klaus/Zendesk QA, MaestroQA), die 100 % der Tickets pre-screenen und auffällige automatisch flaggen können.

QA bei KI-Agents

Qualitätssicherung gilt nicht nur für menschliche Agents. KI-Agents brauchen sogar mehr QA, weil Fehler systematisch auftreten (ein falscher Knowledge-Base-Eintrag → hunderte falsche Antworten).

QA-Ansatz für KI: Führen Sie Stichproben-Reviews wie bei Menschen durch, mindestens 5 % der KI-Konversationen. Setzen Sie automatische Flags bei niedrigem Confidence Score, Eskalationen und negativem Kundenfeedback. Betreiben Sie Halluzinations-Monitoring: Gibt die KI Informationen an, die nicht in der Wissensbasis stehen? Ergänzen Sie regelmäßige „Red Teaming"-Sessions, in denen das Team gezielt versucht, den KI-Agent zu falschen Antworten zu bringen.