Was ist der Calibration Score?
Der Calibration Score (deutsch: Kalibrierungswert) misst, wie konsistent mehrere Evaluatoren dieselbe Kundeninteraktion bewerten. In einer Calibration Session bewerten zwei oder mehr QA-Analysten unabhängig voneinander denselben Anruf, Chat oder E-Mail-Verlauf. Anschließend werden die Bewertungen verglichen.
Ohne regelmäßige Kalibrierung weichen die Bewertungen verschiedener Evaluatoren für denselben Anruf um 20–30 % voneinander ab (Enthu.ai). Agent A bekommt eine gute Bewertung, weil Evaluator X großzügig bewertet, während Agent B mit identischer Leistung schlecht abschneidet, weil Evaluator Y strenger ist. Für die Agenten fühlt sich das unfair an, und das ist es auch.
Der Calibration Score macht diese Inkonsistenz sichtbar und messbar. Er ist die Grundlage für ein faires, nachvollziehbares Qualitätsmanagement und eine Voraussetzung für aussagekräftige Kennzahlen wie den Internal Quality Score (IQS) und den Average Evaluation Score.
Arten der Kalibrierung
Side-by-Side Calibration ist die häufigste Variante. Alle Evaluatoren bewerten denselben Anruf unabhängig und vergleichen anschließend ihre Ergebnisse Punkt für Punkt. Abweichungen werden diskutiert, bis ein gemeinsames Verständnis entsteht.
Blind Calibration funktioniert ähnlich, aber die Evaluatoren sehen die Ergebnisse der anderen erst nach Abschluss aller Bewertungen. Das verhindert Ankereffekte und zeigt die tatsächliche Übereinstimmung.
Cross-Team Calibration vergleicht Bewertungen zwischen verschiedenen Teams oder Standorten. Besonders relevant für Contact Center mit mehreren Standorten oder externen Dienstleistern, bei denen einheitliche Qualitätsstandards entscheidend sind.
Wie berechnet man den Calibration Score?
Als „übereinstimmend" gilt eine Bewertung, wenn alle Evaluatoren innerhalb eines definierten Toleranzbereichs liegen, typischerweise ±1 Skalenpunkt oder ±5 Prozentpunkte.
Rechenbeispiel
Ein QA-Team führt eine Calibration Session mit 50 Bewertungskriterien durch. Bei 42 Kriterien liegen alle Evaluatoren innerhalb des Toleranzbereichs.
Mit 84,0 % liegt das Team knapp unter dem Zielwert von 85 %. Die acht abweichenden Kriterien sollten in der Session diskutiert und die Bewertungsanker präzisiert werden.
Was ist ein guter Calibration Score?
| Bewertung | Calibration Score | Bedeutung |
|---|---|---|
| Sehr gut | ≥ 85 % | Hohe Konsistenz, QA-Ergebnisse sind belastbar |
| Akzeptabel | 75–84 % | Grundlegende Übereinstimmung, punktueller Schulungsbedarf |
| Kritisch | < 75 % | Bewertungskriterien überarbeiten, intensive Kalibrierung nötig |
Der Industriestandard für Inter-Rater Reliability liegt bei 85–90 % Übereinstimmung (SupportBench). Fällt der Score nach vier Sessions unter 75 %, sollten die Scoring-Anker komplett überarbeitet werden, da kleine Anpassungen dann nicht mehr ausreichen (CustomerThink).
Empfohlene Frequenz
| Phase | Frequenz |
|---|---|
| Aufbau / neues QA-Programm | Wöchentlich |
| Stabile Phase (Score > 85 %) | Monatlich |
| Nach Scorecard-Änderungen | Sofort, dann wöchentlich bis stabil |
Quellen: Enthu.ai, The Call Center School
Calibration Score verbessern
Bewertungskriterien präzisieren. Vage Kriterien wie „freundlicher Ton" führen zu subjektiven Bewertungen. Stattdessen konkrete, beobachtbare Verhaltensweisen definieren: „Begrüßt den Kunden mit Namen" oder „Fasst das Anliegen vor der Lösungspräsentation zusammen".
Ankerbeispiele dokumentieren. Für jede Bewertungsstufe ein konkretes Beispiel hinterlegen. Was genau unterscheidet eine 3 von einer 4? Ohne Ankerbeispiele bewerten Evaluatoren nach Bauchgefühl.
Calibration Sessions strukturieren. Drei Anrufe unabhängig bewerten, dann Punkt für Punkt vergleichen. Bei Abweichungen nicht nach einem Kompromiss suchen, sondern die Kriterien klarer formulieren, damit beim nächsten Mal keine Interpretation nötig ist.
Neue Evaluatoren einarbeiten. Neue QA-Analysten in den ersten vier Wochen nur parallel zu erfahrenen Evaluatoren bewerten lassen. Erst ab einem persönlichen Calibration Score von 85 % eigenständig bewerten.
Calibration Score vs. Internal Quality Score vs. Average Evaluation Score
| Metrik | Was sie misst | Perspektive |
|---|---|---|
| Calibration Score | Konsistenz zwischen Evaluatoren | Qualität des QA-Prozesses |
| Internal Quality Score (IQS) | Durchschnittliche Qualität der Interaktionen | Leistung des Teams |
| Average Evaluation Score | Durchschnittliche Bewertung pro Agent | Leistung einzelner Agenten |
Der Calibration Score ist eine Meta-Metrik: Er bewertet nicht die Qualität der Kundeninteraktionen selbst, sondern die Zuverlässigkeit der Bewertungen. Ohne einen hohen Calibration Score sind IQS und Average Evaluation Score wenig aussagekräftig, weil die zugrundeliegenden Daten inkonsistent sind.
Pro und Kontra
Pro
- +Stellt sicher, dass QA-Bewertungen fair und nachvollziehbar sind
- +Identifiziert unklare Bewertungskriterien, bevor sie Schaden anrichten
- +Stärkt das Vertrauen der Agenten in den QA-Prozess
Kontra
- –Erfordert regelmäßigen Zeitaufwand für Calibration Sessions
- –Misst nur die Konsistenz, nicht die Qualität der Bewertungskriterien selbst
- –Kann bei kleinen Teams mit wenigen Evaluatoren schwer interpretierbar sein
Einfluss von KI auf den Calibration Score
KI-gestützte QA-Systeme können jede Interaktion automatisch bewerten statt nur eine Stichprobe. Da ein Algorithmus immer dieselben Kriterien anwendet, entfällt das Problem der Inter-Rater-Variabilität vollständig. Der Calibration Score steigt auf nahezu 100 %.
Allerdings verschiebt sich das Problem: Statt die Übereinstimmung zwischen Menschen zu prüfen, muss nun die Übereinstimmung zwischen KI und menschlichen Experten validiert werden. Calibration Sessions bleiben also relevant, nur mit verändertem Fokus. Teams vergleichen dann KI-Bewertungen mit menschlichen Referenzbewertungen und justieren die KI-Modelle entsprechend.