Wie oft sollte man Calibration Sessions durchführen?

Beim Aufbau eines QA-Programms wöchentlich, bis die Übereinstimmung über 85 % liegt. Danach reichen monatliche Sessions, um die Konsistenz aufrechtzuerhalten.

Calibration Score: Definition, Rechner und Best Practices

Q: Was ist der Calibration Score?

Der Calibration Score misst die Übereinstimmung zwischen mehreren Evaluatoren, die dieselbe Kundeninteraktion bewerten. Ein hoher Wert zeigt, dass Qualitätsbewertungen konsistent und fair sind.

Q: Was ist ein guter Calibration Score?

Ein Calibration Score von 85 % oder höher gilt als sehr gut. Werte zwischen 75 % und 85 % sind akzeptabel. Unter 75 % besteht Handlungsbedarf bei Bewertungskriterien und Schulungen.

Was ist der Calibration Score?

Der Calibration Score (deutsch: Kalibrierungswert) misst, wie konsistent mehrere Evaluatoren dieselbe Kundeninteraktion bewerten. In einer Calibration Session bewerten zwei oder mehr QA-Analysten unabhängig voneinander denselben Anruf, Chat oder E-Mail-Verlauf. Anschließend werden die Bewertungen verglichen.

Ohne regelmäßige Kalibrierung weichen die Bewertungen verschiedener Evaluatoren für denselben Anruf um 20–30 % voneinander ab (Enthu.ai). Agent A bekommt eine gute Bewertung, weil Evaluator X großzügig bewertet, während Agent B mit identischer Leistung schlecht abschneidet, weil Evaluator Y strenger ist. Für die Agenten fühlt sich das unfair an, und das ist es auch.

Der Calibration Score macht diese Inkonsistenz sichtbar und messbar. Er ist die Grundlage für ein faires, nachvollziehbares Qualitätsmanagement und eine Voraussetzung für aussagekräftige Kennzahlen wie den Internal Quality Score (IQS) und den Average Evaluation Score.

Arten der Kalibrierung

Side-by-Side Calibration ist die häufigste Variante. Alle Evaluatoren bewerten denselben Anruf unabhängig und vergleichen anschließend ihre Ergebnisse Punkt für Punkt. Abweichungen werden diskutiert, bis ein gemeinsames Verständnis entsteht.

Blind Calibration funktioniert ähnlich, aber die Evaluatoren sehen die Ergebnisse der anderen erst nach Abschluss aller Bewertungen. Das verhindert Ankereffekte und zeigt die tatsächliche Übereinstimmung.

Cross-Team Calibration vergleicht Bewertungen zwischen verschiedenen Teams oder Standorten. Besonders relevant für Contact Center mit mehreren Standorten oder externen Dienstleistern, bei denen einheitliche Qualitätsstandards entscheidend sind.

Wie berechnet man den Calibration Score?

Formel

Calibration Score = (Übereinstimmende Bewertungen ÷ Gesamtbewertungen) × 100

Als „übereinstimmend" gilt eine Bewertung, wenn alle Evaluatoren innerhalb eines definierten Toleranzbereichs liegen, typischerweise ±1 Skalenpunkt oder ±5 Prozentpunkte.

Rechenbeispiel

Ein QA-Team führt eine Calibration Session mit 50 Bewertungskriterien durch. Bei 42 Kriterien liegen alle Evaluatoren innerhalb des Toleranzbereichs.

Berechnung

CS = (42 ÷ 50) × 100

Ergebnis

84,0 %

Mit 84,0 % liegt das Team knapp unter dem Zielwert von 85 %. Die acht abweichenden Kriterien sollten in der Session diskutiert und die Bewertungsanker präzisiert werden.

Was ist ein guter Calibration Score?

Bewertung	Calibration Score	Bedeutung
Sehr gut	≥ 85 %	Hohe Konsistenz, QA-Ergebnisse sind belastbar
Akzeptabel	75–84 %	Grundlegende Übereinstimmung, punktueller Schulungsbedarf
Kritisch	< 75 %	Bewertungskriterien überarbeiten, intensive Kalibrierung nötig

Der Industriestandard für Inter-Rater Reliability liegt bei 85–90 % Übereinstimmung (SupportBench). Fällt der Score nach vier Sessions unter 75 %, sollten die Scoring-Anker komplett überarbeitet werden, da kleine Anpassungen dann nicht mehr ausreichen (CustomerThink).

Empfohlene Frequenz

Phase	Frequenz
Aufbau / neues QA-Programm	Wöchentlich
Stabile Phase (Score > 85 %)	Monatlich
Nach Scorecard-Änderungen	Sofort, dann wöchentlich bis stabil

Quellen: Enthu.ai, The Call Center School

Calibration Score verbessern

Bewertungskriterien präzisieren. Vage Kriterien wie „freundlicher Ton" führen zu subjektiven Bewertungen. Stattdessen konkrete, beobachtbare Verhaltensweisen definieren: „Begrüßt den Kunden mit Namen" oder „Fasst das Anliegen vor der Lösungspräsentation zusammen".

Ankerbeispiele dokumentieren. Für jede Bewertungsstufe ein konkretes Beispiel hinterlegen. Was genau unterscheidet eine 3 von einer 4? Ohne Ankerbeispiele bewerten Evaluatoren nach Bauchgefühl.

Calibration Sessions strukturieren. Drei Anrufe unabhängig bewerten, dann Punkt für Punkt vergleichen. Bei Abweichungen nicht nach einem Kompromiss suchen, sondern die Kriterien klarer formulieren, damit beim nächsten Mal keine Interpretation nötig ist.

Neue Evaluatoren einarbeiten. Neue QA-Analysten in den ersten vier Wochen nur parallel zu erfahrenen Evaluatoren bewerten lassen. Erst ab einem persönlichen Calibration Score von 85 % eigenständig bewerten.

Calibration Score vs. Internal Quality Score vs. Average Evaluation Score

Metrik	Was sie misst	Perspektive
Calibration Score	Konsistenz zwischen Evaluatoren	Qualität des QA-Prozesses
Internal Quality Score (IQS)	Durchschnittliche Qualität der Interaktionen	Leistung des Teams
Average Evaluation Score	Durchschnittliche Bewertung pro Agent	Leistung einzelner Agenten

Der Calibration Score ist eine Meta-Metrik: Er bewertet nicht die Qualität der Kundeninteraktionen selbst, sondern die Zuverlässigkeit der Bewertungen. Ohne einen hohen Calibration Score sind IQS und Average Evaluation Score wenig aussagekräftig, weil die zugrundeliegenden Daten inkonsistent sind.

Pro und Kontra

Pro

+Stellt sicher, dass QA-Bewertungen fair und nachvollziehbar sind
+Identifiziert unklare Bewertungskriterien, bevor sie Schaden anrichten
+Stärkt das Vertrauen der Agenten in den QA-Prozess

Kontra

–Erfordert regelmäßigen Zeitaufwand für Calibration Sessions
–Misst nur die Konsistenz, nicht die Qualität der Bewertungskriterien selbst
–Kann bei kleinen Teams mit wenigen Evaluatoren schwer interpretierbar sein

Einfluss von KI auf den Calibration Score

KI-gestützte QA-Systeme können jede Interaktion automatisch bewerten statt nur eine Stichprobe. Da ein Algorithmus immer dieselben Kriterien anwendet, entfällt das Problem der Inter-Rater-Variabilität vollständig. Der Calibration Score steigt auf nahezu 100 %.

Allerdings verschiebt sich das Problem: Statt die Übereinstimmung zwischen Menschen zu prüfen, muss nun die Übereinstimmung zwischen KI und menschlichen Experten validiert werden. Calibration Sessions bleiben also relevant, nur mit verändertem Fokus. Teams vergleichen dann KI-Bewertungen mit menschlichen Referenzbewertungen und justieren die KI-Modelle entsprechend.

Calibration Score

Definition

Calibration Score Rechner