Ticketing-Metriken für die Qualitätssicherung: Was QA-Teams wirklich messen sollten
Die Kennzahlen, die QA-Teams im Kundenservice brauchen: Internal Quality Score, Calibration, Stichprobengrößen und der Aufbau eines QA-Programms.
Liam van der Viven
Mitgründer & CTO bei botBrains
Warum QA eigene Metriken braucht
Klassische Service-Metriken wie AHT oder First Response Time messen Effizienz. Qualitätssicherung fragt nach etwas anderem: Hat der Agent das Richtige gesagt, den Ton getroffen, das Problem wirklich gelöst und den Prozess eingehalten?
Ohne ein QA-Programm wissen Sie nur wie schnell Ihr Team arbeitet, nicht wie gut. Ein Team kann exzellente Effizienz-Metriken haben und trotzdem systematisch falsche Antworten geben oder Kunden schlecht beraten.
Der Business Case: Laut SQM Group führt jede 1 %-Verbesserung der FCR zu 1 % höherem CSAT. Unternehmen mit strukturiertem QA-Programm erreichen typischerweise 10 %+ höhere FCR im ersten Jahr, was rechnerisch $286.000 an Operational Savings pro Prozentpunkt bedeutet (SQM Group).
Die wichtigsten QA-Metriken
Internal Quality Score (IQS)
Der Internal Quality Score ist die zentrale QA-Metrik. Er basiert auf einer Scorecard, die pro Ticket bewertet wird.
Typische Scorecard-Dimensionen:
| Dimension | Gewichtung | Was bewertet wird |
|---|---|---|
| Lösungsqualität | 30-40 % | Wurde das Problem korrekt und vollständig gelöst? |
| Kommunikation & Ton | 20-25 % | Empathie, Klarheit, Professionalität |
| Prozesstreue | 20-25 % | Wurden interne Prozesse eingehalten? |
| Dokumentation | 10-15 % | Ticket-Notizen, Tags, Kategorisierung |
| Proaktivität | 5-10 % | Wurden verwandte Probleme angesprochen? |
Benchmarks:
| Bewertung | Bedeutung |
|---|---|
| > 92 % | Exzellent (Top-Teams) |
| 85-92 % | Gut |
| 75-85 % | Verbesserungsbedarf |
| < 75 % | Kritisch |
Quelle: Klaus/Zendesk QA Benchmark, MaestroQA
Calibration Score
Der Calibration Score misst, wie einheitlich verschiedene Reviewer dieselben Tickets bewerten. Ohne Kalibrierung sind QA-Scores nicht vergleichbar und Coaching-Gespräche verlieren ihre Grundlage.
Wie gemessen: Alle Reviewer bewerten dasselbe Set von 5-10 Tickets. Die Abweichung wird berechnet.
| Ziel | Bewertung |
|---|---|
| Abweichung < 5 % | Exzellent kalibriert |
| Abweichung 5-10 % | Akzeptabel |
| Abweichung > 10 % | Kalibrierung nötig |
Empfehlung: Monatliche Kalibrierungssessions mit allen Reviewern. 30-45 Minuten reichen. Diskutieren Sie die Grenzfälle, nicht die eindeutigen.
Stichprobengröße (Total Evaluations Completed)
Wie viele Tickets werden tatsächlich reviewed? Ohne ausreichende Stichprobe sind QA-Scores statistisch nicht belastbar.
Empfohlene Mindestwerte:
| Team-Größe | Min. Evaluationen pro Agent/Monat | Warum |
|---|---|---|
| < 10 Agents | 8-10 Tickets | Kleine Stichprobe braucht mehr Datenpunkte |
| 10-30 Agents | 5-8 Tickets | Standard |
| > 30 Agents | 3-5 Tickets | Volumen macht's |
Zusätzlich: Ziehen Sie die Stichprobe nicht nur zufällig, sondern ergänzen Sie gezielt Tickets mit niedrigem CSAT, eskalierte Tickets und Tickets von neuen oder unterdurchschnittlichen Agents. Diese gezielte Auswahl erhöht die Aussagekraft der Reviews erheblich.
Resolution Accuracy
Die Resolution Accuracy zeigt, wie oft die angebotene Lösung tatsächlich korrekt war. Sie ergänzt den Quality Score um eine objektive Komponente, die unabhängig vom Reviewer-Urteil ist.
Messung: Stichprobe geschlossener Tickets nach 7 Tagen prüfen: Hat der Kunde nochmal geschrieben? Wurde das Problem wirklich gelöst?
| Benchmark | Wert |
|---|---|
| Ziel | > 90 % |
| Akzeptabel | 80-90 % |
| Kritisch | < 80 % |
Unterstützende Metriken (nicht QA-spezifisch, aber QA-relevant)
| Metrik | QA-Relevanz |
|---|---|
| CSAT | Validiert den Quality Score von der Kundenseite. Hoher IQS + niedriger CSAT = Scorecard stimmt nicht. |
| Reopen Rate | Zeigt, ob Lösungen tatsächlich halten. Hohe Reopen Rate = systematisches Qualitätsproblem. |
| Escalation Rate | Kann auf Kompetenzlücken oder unklare Prozesse hindeuten. |
| FCR | Hohe FCR + hoher IQS = das Team arbeitet gut. Hohe FCR + niedriger IQS = Tickets werden zu früh geschlossen. |
| Agent Script Adherence | Prozesstreue bei regulierten Themen (Finanzen, Gesundheit, Versicherung). |
QA-Programm aufbauen: Schritt für Schritt
Phase 1: Scorecard definieren (Woche 1-2)
Legen Sie 4-6 Dimensionen fest, klar gewichtet (siehe Tabelle oben). Definieren Sie eine Bewertungsskala, entweder 1-5 oder Pass/Fail pro Dimension. Bestimmen Sie kritische Fehler, die automatisch zu „Durchgefallen" führen, etwa falsche Rechtsinformationen oder Datenschutzverletzungen. Dokumentieren Sie eine Rubrik mit klaren Beispielen: Was unterscheidet eine „3" von einer „5"?
Phase 2: Pilotieren (Woche 3-4)
Lassen Sie 2-3 Reviewer dasselbe Set von 15 Tickets bewerten. Diskutieren Sie die Abweichungen: Wo sind sich die Reviewer uneinig und warum? Passen Sie daraufhin die Scorecard an, formulieren Sie Dimensionen klarer und justieren Sie die Gewichtung. Das durchschnittliche Ergebnis dieses Pilots wird Ihre Ausgangsbasis für alle zukünftigen Vergleiche.
Phase 3: Rollout (ab Woche 5)
Etablieren Sie einen festen Review-Rhythmus: Wöchentlich Reviews durchführen und Ergebnisse dokumentieren. Schließen Sie den Feedback-Loop, indem Sie Ergebnisse in 1:1-Gesprächen besprechen, nicht nur als Score kommunizieren. Führen Sie monatliche Kalibrierungssessions von 30-45 Minuten ein. Tracken Sie den IQS im Zeitverlauf pro Agent, Team und Thema, um Entwicklungen sichtbar zu machen.
Phase 4: Optimieren (laufend)
Reviewen Sie die Scorecard quartalsweise: Passen die Dimensionen noch zur aktuellen Realität? Prüfen Sie die Korrelation zwischen IQS und CSAT. Wenn ein hoher IQS nicht mit gutem CSAT einhergeht, stimmt die Scorecard nicht und muss angepasst werden. Nutzen Sie KI-basierte QA-Tools (Klaus/Zendesk QA, MaestroQA), die 100 % der Tickets pre-screenen und auffällige automatisch flaggen können.
QA bei KI-Agents
Qualitätssicherung gilt nicht nur für menschliche Agents. KI-Agents brauchen sogar mehr QA, weil Fehler systematisch auftreten (ein falscher Knowledge-Base-Eintrag → hunderte falsche Antworten).
QA-Ansatz für KI: Führen Sie Stichproben-Reviews wie bei Menschen durch, mindestens 5 % der KI-Konversationen. Setzen Sie automatische Flags bei niedrigem Confidence Score, Eskalationen und negativem Kundenfeedback. Betreiben Sie Halluzinations-Monitoring: Gibt die KI Informationen an, die nicht in der Wissensbasis stehen? Ergänzen Sie regelmäßige „Red Teaming"-Sessions, in denen das Team gezielt versucht, den KI-Agent zu falschen Antworten zu bringen.