Was ist MTBF (Mean Time Between Failures)?
Die Mean Time Between Failures (MTBF, deutsch: mittlere Betriebsdauer zwischen Ausfällen) ist eine Zuverlässigkeitskennzahl, die angibt, wie lange ein System im Durchschnitt fehlerfrei läuft, bevor es ausfällt. Je höher der MTBF-Wert, desto zuverlässiger das System.
MTBF ist eine der wichtigsten Kennzahlen im IT-Service-Management, in der Telekommunikation und überall dort, wo Systemverfügbarkeit geschäftskritisch ist. Im CX-Kontext wirkt sich MTBF direkt auf die Kundenerfahrung aus: Häufige Ausfälle von Kundenportalen, Telefonanlagen oder Chat-Systemen führen zu frustrierten Kunden und steigender Churn Rate.
MTBF wird ausschließlich für reparierbare Systeme verwendet. Für nicht reparierbare Komponenten (z. B. Glühbirnen, Einweg-Sensoren) wird stattdessen die MTTF (Mean Time To Failure) angegeben.
Arten der MTBF
Hardware-MTBF bezieht sich auf physische Komponenten wie Server, Festplatten, Netzwerkgeräte oder Telefonanlagen. Hersteller geben MTBF-Werte auf Basis von Stresstests und statistischen Modellen an.
Software-MTBF misst die Zeit zwischen Software-Abstürzen oder kritischen Fehlern. Hier sind die Werte typischerweise deutlich niedriger als bei Hardware, da Software-Fehler häufiger auftreten.
Service-MTBF betrachtet das Gesamtsystem inklusive aller Abhängigkeiten. Ein Cloud-Service kann trotz hoher Hardware-MTBF eine niedrige Service-MTBF haben, wenn Netzwerk, Software oder Konfigurationsfehler häufig zu Ausfällen führen.
Wie berechnet man MTBF?
Rechenbeispiel
Ein Contact-Center-Server läuft in einem Quartal 2.160 Stunden (90 Tage). In dieser Zeit treten 3 ungeplante Ausfälle auf. Die Reparaturzeiten werden von der Betriebszeit abgezogen: 2.160 − 6 Stunden Reparatur = 2.154 Stunden tatsächliche Betriebszeit.
Im Durchschnitt läuft der Server also 718 Stunden (knapp 30 Tage) zwischen zwei Ausfällen. Für ein produktives Contact-Center-System ist das ein problematischer Wert, der dringend verbessert werden sollte.
Verfügbarkeit aus MTBF und MTTR berechnen
Bei einer MTBF von 718 Stunden und einer MTTR von 2 Stunden ergibt sich: 718 ÷ (718 + 2) × 100 = 99,72 %. Das entspricht etwa 24,5 Stunden Ausfallzeit pro Jahr.
MTBF-Benchmarks nach Branche
| Bereich | Typischer MTBF-Wert | Anmerkung |
|---|---|---|
| Enterprise Server | 300.000–1.000.000 h | Herstellerangaben unter Laborbedingungen |
| Netzwerk-Switches | 200.000–500.000 h | Abhängig von Umgebungsbedingungen |
| Cloud-Services (SaaS) | 2.000–8.000 h | Gemessen als Service-MTBF |
| Contact-Center-Plattform | 1.000–5.000 h | Inklusive Software-Updates |
| Industriesteuerungen | 50.000–200.000 h | Je nach IP-Schutzklasse |
Herstellerangaben für Hardware-MTBF (z. B. 1.000.000 Stunden für Server) sind statistisch ermittelte Prognosewerte, keine Garantie. In der Praxis liegt die tatsächliche Service-MTBF oft deutlich niedriger, weil Software-Fehler, Konfigurationsprobleme und menschliche Fehler hinzukommen.
Quellen: IEEE 1413 Standard for Reliability Predictions, Uptime Institute Annual Report
MTBF verbessern
Proaktive Wartung. Regelmäßige Wartungsintervalle statt reaktiver Reparaturen. Festplatten austauschen, bevor sie ausfallen. Firmware-Updates zeitnah einspielen.
Redundanz einbauen. Redundante Netzteile, RAID-Systeme, gespiegelte Server. Wenn eine Komponente ausfällt, übernimmt die zweite nahtlos. Die Service-MTBF steigt dadurch massiv.
Monitoring und Alerting. Frühwarnsysteme erkennen Anomalien (steigende Temperaturen, wachsende Fehlerraten) bevor es zum Ausfall kommt. Tools wie Nagios, Datadog oder Prometheus.
Root Cause Analysis. Nach jedem Ausfall systematisch die Ursache analysieren. Wiederkehrende Ursachen eliminieren statt Symptome behandeln.
Umgebungsbedingungen optimieren. Temperatur, Feuchtigkeit und Stromversorgung direkt beeinflussen die Hardware-MTBF. Ein professionelles Rechenzentrum mit USV und Klimatisierung kann die MTBF signifikant erhöhen.
MTBF vs. MTTR vs. MTTA vs. MTTF
| Kennzahl | Bedeutung | Misst | Ideal |
|---|---|---|---|
| MTBF | Mean Time Between Failures | Betriebszeit zwischen Ausfällen | Hoch (mehr Betriebszeit) |
| MTTR | Mean Time to Repair | Dauer der Reparatur | Niedrig (schnellere Reparatur) |
| MTTA | Mean Time to Acknowledge | Reaktionszeit bis zur Bestätigung | Niedrig (schnellere Reaktion) |
| MTTF | Mean Time to Failure | Betriebszeit bis zum ersten Ausfall | Hoch (für nicht reparierbare Teile) |
MTBF und MTTR ergänzen sich direkt: Ein System kann eine hohe MTBF haben (selten ausfallen), aber wenn die MTTR ebenfalls hoch ist (lange Reparaturzeit), leidet die Gesamtverfügbarkeit trotzdem. Für SLA-Vereinbarungen sind beide Werte relevant.
Pro und Kontra
Pro
- +Branchenübergreifend etablierte Kennzahl für Zuverlässigkeit
- +Ermöglicht Wartungsplanung und Kapazitätsprognosen
- +Direkt verknüpfbar mit Verfügbarkeit und SLA-Zielen
- +Vergleichbar zwischen Herstellern und Produkten
Kontra
- –Herstellerangaben basieren auf Laborbedingungen, nicht auf realen Einsatzszenarien
- –Berücksichtigt keine geplanten Wartungsfenster
- –Bei Software-Systemen schwieriger zu messen als bei Hardware
- –Durchschnittswert kann einzelne schwere Ausfälle verdecken
Einfluss von KI auf MTBF
KI-gestütztes Predictive Maintenance analysiert Sensordaten und Systemlogs in Echtzeit und erkennt Ausfallmuster, bevor sie eintreten. Laut McKinsey kann Predictive Maintenance ungeplante Ausfallzeiten um 30–50 % reduzieren und die Lebensdauer von Anlagen um 20–40 % verlängern (McKinsey). Das bedeutet eine direkte Erhöhung der MTBF.
Im Contact-Center-Kontext überwachen KI-Systeme die Gesundheit von Telefonanlagen, Chat-Plattformen und CRM-Systemen und empfehlen proaktive Maßnahmen, bevor ein Ausfall die Kundenerreichbarkeit beeinträchtigt.