Ticketing-Metriken für die Qualitätssicherung: Was QA-Teams wirklich messen sollten

Ticketing-Metriken für die Qualitätssicherung: Was QA-Teams wirklich messen sollten

Die Kennzahlen, die QA-Teams im Kundenservice brauchen: Internal Quality Score, Calibration, Stichprobengrößen und der Aufbau eines QA-Programms.

·6 Min. Lesezeit·Wissen
Liam van der Viven

Liam van der Viven

Mitgründer & CTO bei botBrains

Warum QA eigene Metriken braucht

Klassische Service-Metriken wie AHT oder First Response Time messen Effizienz. Qualitätssicherung fragt nach etwas anderem: Hat der Agent das Richtige gesagt, den Ton getroffen, das Problem wirklich gelöst und den Prozess eingehalten?

Ohne ein QA-Programm wissen Sie nur wie schnell Ihr Team arbeitet, nicht wie gut. Ein Team kann exzellente Effizienz-Metriken haben und trotzdem systematisch falsche Antworten geben oder Kunden schlecht beraten.

Der Business Case: Laut SQM Group führt jede 1 %-Verbesserung der FCR zu 1 % höherem CSAT. Unternehmen mit strukturiertem QA-Programm erreichen typischerweise 10 %+ höhere FCR im ersten Jahr, was rechnerisch $286.000 an Operational Savings pro Prozentpunkt bedeutet (SQM Group).

Die wichtigsten QA-Metriken

Internal Quality Score (IQS)

Der Internal Quality Score ist die zentrale QA-Metrik. Er basiert auf einer Scorecard, die pro Ticket bewertet wird.

Typische Scorecard-Dimensionen:

DimensionGewichtungWas bewertet wird
Lösungsqualität30-40 %Wurde das Problem korrekt und vollständig gelöst?
Kommunikation & Ton20-25 %Empathie, Klarheit, Professionalität
Prozesstreue20-25 %Wurden interne Prozesse eingehalten?
Dokumentation10-15 %Ticket-Notizen, Tags, Kategorisierung
Proaktivität5-10 %Wurden verwandte Probleme angesprochen?

Benchmarks:

BewertungBedeutung
> 92 %Exzellent (Top-Teams)
85-92 %Gut
75-85 %Verbesserungsbedarf
< 75 %Kritisch

Quelle: Klaus/Zendesk QA Benchmark, MaestroQA

Calibration Score

Der Calibration Score misst, wie einheitlich verschiedene Reviewer dieselben Tickets bewerten. Ohne Kalibrierung sind QA-Scores nicht vergleichbar und Coaching-Gespräche verlieren ihre Grundlage.

Wie gemessen: Alle Reviewer bewerten dasselbe Set von 5-10 Tickets. Die Abweichung wird berechnet.

ZielBewertung
Abweichung < 5 %Exzellent kalibriert
Abweichung 5-10 %Akzeptabel
Abweichung > 10 %Kalibrierung nötig

Empfehlung: Monatliche Kalibrierungssessions mit allen Reviewern. 30-45 Minuten reichen. Diskutieren Sie die Grenzfälle, nicht die eindeutigen.

Stichprobengröße (Total Evaluations Completed)

Wie viele Tickets werden tatsächlich reviewed? Ohne ausreichende Stichprobe sind QA-Scores statistisch nicht belastbar.

Empfohlene Mindestwerte:

Team-GrößeMin. Evaluationen pro Agent/MonatWarum
< 10 Agents8-10 TicketsKleine Stichprobe braucht mehr Datenpunkte
10-30 Agents5-8 TicketsStandard
> 30 Agents3-5 TicketsVolumen macht's

Zusätzlich: Ziehen Sie die Stichprobe nicht nur zufällig, sondern ergänzen Sie gezielt Tickets mit niedrigem CSAT, eskalierte Tickets und Tickets von neuen oder unterdurchschnittlichen Agents. Diese gezielte Auswahl erhöht die Aussagekraft der Reviews erheblich.

Resolution Accuracy

Die Resolution Accuracy zeigt, wie oft die angebotene Lösung tatsächlich korrekt war. Sie ergänzt den Quality Score um eine objektive Komponente, die unabhängig vom Reviewer-Urteil ist.

Messung: Stichprobe geschlossener Tickets nach 7 Tagen prüfen: Hat der Kunde nochmal geschrieben? Wurde das Problem wirklich gelöst?

BenchmarkWert
Ziel> 90 %
Akzeptabel80-90 %
Kritisch< 80 %

Unterstützende Metriken (nicht QA-spezifisch, aber QA-relevant)

MetrikQA-Relevanz
CSATValidiert den Quality Score von der Kundenseite. Hoher IQS + niedriger CSAT = Scorecard stimmt nicht.
Reopen RateZeigt, ob Lösungen tatsächlich halten. Hohe Reopen Rate = systematisches Qualitätsproblem.
Escalation RateKann auf Kompetenzlücken oder unklare Prozesse hindeuten.
FCRHohe FCR + hoher IQS = das Team arbeitet gut. Hohe FCR + niedriger IQS = Tickets werden zu früh geschlossen.
Agent Script AdherenceProzesstreue bei regulierten Themen (Finanzen, Gesundheit, Versicherung).

QA-Programm aufbauen: Schritt für Schritt

Phase 1: Scorecard definieren (Woche 1-2)

Legen Sie 4-6 Dimensionen fest, klar gewichtet (siehe Tabelle oben). Definieren Sie eine Bewertungsskala, entweder 1-5 oder Pass/Fail pro Dimension. Bestimmen Sie kritische Fehler, die automatisch zu „Durchgefallen" führen, etwa falsche Rechtsinformationen oder Datenschutzverletzungen. Dokumentieren Sie eine Rubrik mit klaren Beispielen: Was unterscheidet eine „3" von einer „5"?

Phase 2: Pilotieren (Woche 3-4)

Lassen Sie 2-3 Reviewer dasselbe Set von 15 Tickets bewerten. Diskutieren Sie die Abweichungen: Wo sind sich die Reviewer uneinig und warum? Passen Sie daraufhin die Scorecard an, formulieren Sie Dimensionen klarer und justieren Sie die Gewichtung. Das durchschnittliche Ergebnis dieses Pilots wird Ihre Ausgangsbasis für alle zukünftigen Vergleiche.

Phase 3: Rollout (ab Woche 5)

Etablieren Sie einen festen Review-Rhythmus: Wöchentlich Reviews durchführen und Ergebnisse dokumentieren. Schließen Sie den Feedback-Loop, indem Sie Ergebnisse in 1:1-Gesprächen besprechen, nicht nur als Score kommunizieren. Führen Sie monatliche Kalibrierungssessions von 30-45 Minuten ein. Tracken Sie den IQS im Zeitverlauf pro Agent, Team und Thema, um Entwicklungen sichtbar zu machen.

Phase 4: Optimieren (laufend)

Reviewen Sie die Scorecard quartalsweise: Passen die Dimensionen noch zur aktuellen Realität? Prüfen Sie die Korrelation zwischen IQS und CSAT. Wenn ein hoher IQS nicht mit gutem CSAT einhergeht, stimmt die Scorecard nicht und muss angepasst werden. Nutzen Sie KI-basierte QA-Tools (Klaus/Zendesk QA, MaestroQA), die 100 % der Tickets pre-screenen und auffällige automatisch flaggen können.

QA bei KI-Agents

Qualitätssicherung gilt nicht nur für menschliche Agents. KI-Agents brauchen sogar mehr QA, weil Fehler systematisch auftreten (ein falscher Knowledge-Base-Eintrag → hunderte falsche Antworten).

QA-Ansatz für KI: Führen Sie Stichproben-Reviews wie bei Menschen durch, mindestens 5 % der KI-Konversationen. Setzen Sie automatische Flags bei niedrigem Confidence Score, Eskalationen und negativem Kundenfeedback. Betreiben Sie Halluzinations-Monitoring: Gibt die KI Informationen an, die nicht in der Wissensbasis stehen? Ergänzen Sie regelmäßige „Red Teaming"-Sessions, in denen das Team gezielt versucht, den KI-Agent zu falschen Antworten zu bringen.

Über den Autor

Liam van der Viven

Liam ist Mitgründer von botBrains und leitet die technische Entwicklung als CTO. Zuvor war Liam als Softwareentwickler bei Amazon Web Services tätig. Er hat sein Studium in IT-Systems Engineering mit einem Bachelor of Science am renommierten Hasso-Plattner-Institut erfolgreich abgeschlossen.