Was ist der Average Evaluation Score?
Der Average Evaluation Score ist der Durchschnittswert aller internen Qualitätsbewertungen von Agent-Interaktionen in einem definierten Zeitraum. Während der Internal Quality Score (IQS) eine einzelne Interaktion bewertet, aggregiert der Average Evaluation Score alle Bewertungen zu einem Gesamtbild der Servicequalität.
Die Metrik beantwortet die Frage: Wie gut ist unser Team insgesamt? Sie wird auf verschiedenen Ebenen ausgewertet: pro Agent (individuelle Leistung), pro Team (Teamvergleich), pro Kanal (E-Mail vs. Chat vs. Telefon) und pro Zeitraum (Trendanalyse).
Der Average Evaluation Score ist besonders wertvoll in Kombination mit der Anzahl der durchgeführten Bewertungen. Ein hoher Score bei nur 5 bewerteten Interaktionen hat weniger Aussagekraft als ein hoher Score bei 500 Bewertungen. Die Stichprobengröße bestimmt die Verlässlichkeit des Durchschnittswerts.
Wie berechnet man den Average Evaluation Score?
Rechenbeispiel
Ein QA-Team bewertet im März 5 Interaktionen eines Agents. Die Scorecard hat 100 Maximalpunkte. Die Einzelbewertungen: 88, 92, 78, 85, 87.
Mit 86 % liegt der Agent über dem Branchendurchschnitt von 85 %. Die niedrige Bewertung von 78 % deutet auf eine Interaktion mit Verbesserungspotenzial hin, die im Coaching besprochen werden sollte.
Vereinfachte Berechnung
Wenn alle Bewertungen dieselbe Maximalpunktzahl haben, vereinfacht sich die Formel:
Im Beispiel: (88 + 92 + 78 + 85 + 87) ÷ 5 = 86 %.
Was ist ein guter Average Evaluation Score?
| Bewertung | Bereich | Interpretation |
|---|---|---|
| Exzellent | ≥ 90 % | Konstant hohe Servicequalität |
| Gut | 85–89 % | Über dem Branchendurchschnitt |
| Akzeptabel | 80–84 % | Auf Branchenniveau |
| Verbesserungswürdig | 75–79 % | Gezieltes Coaching nötig |
| Kritisch | < 75 % | Sofortiger Handlungsbedarf |
Der Branchendurchschnitt für QA-Scores liegt bei 85 %. Contact Center, die ein QA-Ziel von 90 % und höher anstreben, gehören zu den Top-Performern. Quellen: SQM Group, Zendesk
Typische Scores nach Kanal
| Kanal | Typischer AES |
|---|---|
| 85–92 % | |
| Chat | 82–88 % |
| Telefon | 80–87 % |
E-Mail-Interaktionen erzielen tendenziell höhere Scores, weil Agents mehr Zeit zum Formulieren haben. Telefon-Interaktionen sind schwieriger zu steuern, was zu etwas niedrigeren Werten führt.
Average Evaluation Score verbessern
Stichprobengröße erhöhen: Je mehr Interaktionen bewertet werden, desto aussagekräftiger ist der Durchschnitt. Ziel sollten mindestens 5-10 Bewertungen pro Agent pro Monat sein.
Kalibrierungssitzungen durchführen: Regelmäßige Sitzungen, bei denen mehrere Reviewer dieselbe Interaktion bewerten, reduzieren Bewertungsunterschiede und steigern die Konsistenz. Der Calibration Score misst die Übereinstimmung.
Schwächste Kategorie priorisieren: Wenn der AES bei 82 % liegt, identifiziere die Scorecard-Kategorie mit dem niedrigsten Durchschnitt und setze dort gezielt mit Coaching an.
Best-Practice-Beispiele teilen: Interaktionen mit Scores über 95 % als Lernmaterial im Team einsetzen. Positives Lernen ist oft wirkungsvoller als Fehlerbesprechung.
Trend statt Einzelwert betrachten: Ein einmaliger Ausreißer von 60 % bei sonst 90 % ist weniger besorgniserregend als ein konstanter Abwärtstrend von 88 % auf 80 % über drei Monate.
Average Evaluation Score vs. IQS vs. CSAT
| Merkmal | Average Evaluation Score | IQS | CSAT |
|---|---|---|---|
| Ebene | Aggregiert (Team/Zeitraum) | Einzelne Interaktion | Einzelne Interaktion |
| Perspektive | Intern (QA-Team) | Intern (QA-Team) | Extern (Kunde) |
| Zweck | Gesamtqualitätsniveau messen | Individuelle Interaktion bewerten | Kundenzufriedenheit messen |
| Benchmark | ≥ 85 % | ≥ 85 % | ≥ 80 % |
| Frequenz | Monatlich/Quartalsweise | Pro bewertete Interaktion | Pro Interaktion (bei Befragung) |
Der Average Evaluation Score ist die Management-Perspektive auf die Servicequalität: Er zeigt den Trend über Zeit und ermöglicht Teamvergleiche. Der IQS liefert die Details auf Interaktionsebene. CSAT ergänzt beides um die Kundensicht.
Pro und Kontra
Pro
- +Zeigt das Gesamtqualitätsniveau auf einen Blick
- +Ermöglicht Vergleiche zwischen Teams, Kanälen und Zeiträumen
- +Gute Grundlage für strategische Entscheidungen zu Schulung und Prozessen
Kontra
- –Durchschnitt kann Extremwerte verbergen (z. B. 50 % und 100 % ergeben 75 %)
- –Abhängig von der Stichprobengröße und -auswahl
- –Unterschiedliche Scorecards machen unternehmensübergreifende Vergleiche schwierig
Einfluss von KI auf den Average Evaluation Score
KI-gestützte QA-Tools bewerten 100 % aller Interaktionen automatisch statt nur eine kleine Stichprobe. Das macht den Average Evaluation Score deutlich verlässlicher, weil er auf der Grundgesamtheit statt auf einer 2-%-Stichprobe basiert. Außerdem erkennen KI-Tools Muster in den Bewertungsdaten, die menschlichen Reviewern entgehen: z. B. dass Agents montags morgens konsistent niedrigere Scores erzielen oder dass bestimmte Anfragekategorien systematisch schlechtere Ergebnisse liefern.