Zuletzt aktualisiert am

Mean Time Between Failures(MTBF)

Definition

Die durchschnittliche Zeit zwischen zwei Systemausfällen. Prognostiziert die Verfügbarkeit und den Wartungsbedarf von IT-Systemen und Infrastruktur.

Formel

MTBF=
Gesamtbetriebszeit
Anzahl der Ausfälle

Auch bekannt als

Mittlere Betriebsdauer zwischen Ausfällen, MTBF

Kategorie

IT-Service & Verfügbarkeit

MTBF Rechner

MTBF

Gib beide Werte ein, um die MTBF zu berechnen.

Was ist MTBF (Mean Time Between Failures)?

Die Mean Time Between Failures (MTBF, deutsch: mittlere Betriebsdauer zwischen Ausfällen) ist eine Zuverlässigkeitskennzahl, die angibt, wie lange ein System im Durchschnitt fehlerfrei läuft, bevor es ausfällt. Je höher der MTBF-Wert, desto zuverlässiger das System.

MTBF ist eine der wichtigsten Kennzahlen im IT-Service-Management, in der Telekommunikation und überall dort, wo Systemverfügbarkeit geschäftskritisch ist. Im CX-Kontext wirkt sich MTBF direkt auf die Kundenerfahrung aus: Häufige Ausfälle von Kundenportalen, Telefonanlagen oder Chat-Systemen führen zu frustrierten Kunden und steigender Churn Rate.

MTBF wird ausschließlich für reparierbare Systeme verwendet. Für nicht reparierbare Komponenten (z. B. Glühbirnen, Einweg-Sensoren) wird stattdessen die MTTF (Mean Time To Failure) angegeben.

Arten der MTBF

Hardware-MTBF bezieht sich auf physische Komponenten wie Server, Festplatten, Netzwerkgeräte oder Telefonanlagen. Hersteller geben MTBF-Werte auf Basis von Stresstests und statistischen Modellen an.

Software-MTBF misst die Zeit zwischen Software-Abstürzen oder kritischen Fehlern. Hier sind die Werte typischerweise deutlich niedriger als bei Hardware, da Software-Fehler häufiger auftreten.

Service-MTBF betrachtet das Gesamtsystem inklusive aller Abhängigkeiten. Ein Cloud-Service kann trotz hoher Hardware-MTBF eine niedrige Service-MTBF haben, wenn Netzwerk, Software oder Konfigurationsfehler häufig zu Ausfällen führen.

Wie berechnet man MTBF?

Formel
MTBF = Gesamtbetriebszeit ÷ Anzahl der Ausfälle

Rechenbeispiel

Ein Contact-Center-Server läuft in einem Quartal 2.160 Stunden (90 Tage). In dieser Zeit treten 3 ungeplante Ausfälle auf. Die Reparaturzeiten werden von der Betriebszeit abgezogen: 2.160 − 6 Stunden Reparatur = 2.154 Stunden tatsächliche Betriebszeit.

Berechnung
MTBF = 2.154 h ÷ 3 Ausfälle
Ergebnis
718 h

Im Durchschnitt läuft der Server also 718 Stunden (knapp 30 Tage) zwischen zwei Ausfällen. Für ein produktives Contact-Center-System ist das ein problematischer Wert, der dringend verbessert werden sollte.

Verfügbarkeit aus MTBF und MTTR berechnen

Formel
Verfügbarkeit = MTBF ÷ (MTBF + MTTR) × 100

Bei einer MTBF von 718 Stunden und einer MTTR von 2 Stunden ergibt sich: 718 ÷ (718 + 2) × 100 = 99,72 %. Das entspricht etwa 24,5 Stunden Ausfallzeit pro Jahr.

MTBF-Benchmarks nach Branche

BereichTypischer MTBF-WertAnmerkung
Enterprise Server300.000–1.000.000 hHerstellerangaben unter Laborbedingungen
Netzwerk-Switches200.000–500.000 hAbhängig von Umgebungsbedingungen
Cloud-Services (SaaS)2.000–8.000 hGemessen als Service-MTBF
Contact-Center-Plattform1.000–5.000 hInklusive Software-Updates
Industriesteuerungen50.000–200.000 hJe nach IP-Schutzklasse

Herstellerangaben für Hardware-MTBF (z. B. 1.000.000 Stunden für Server) sind statistisch ermittelte Prognosewerte, keine Garantie. In der Praxis liegt die tatsächliche Service-MTBF oft deutlich niedriger, weil Software-Fehler, Konfigurationsprobleme und menschliche Fehler hinzukommen.

Quellen: IEEE 1413 Standard for Reliability Predictions, Uptime Institute Annual Report

MTBF verbessern

Proaktive Wartung. Regelmäßige Wartungsintervalle statt reaktiver Reparaturen. Festplatten austauschen, bevor sie ausfallen. Firmware-Updates zeitnah einspielen.

Redundanz einbauen. Redundante Netzteile, RAID-Systeme, gespiegelte Server. Wenn eine Komponente ausfällt, übernimmt die zweite nahtlos. Die Service-MTBF steigt dadurch massiv.

Monitoring und Alerting. Frühwarnsysteme erkennen Anomalien (steigende Temperaturen, wachsende Fehlerraten) bevor es zum Ausfall kommt. Tools wie Nagios, Datadog oder Prometheus.

Root Cause Analysis. Nach jedem Ausfall systematisch die Ursache analysieren. Wiederkehrende Ursachen eliminieren statt Symptome behandeln.

Umgebungsbedingungen optimieren. Temperatur, Feuchtigkeit und Stromversorgung direkt beeinflussen die Hardware-MTBF. Ein professionelles Rechenzentrum mit USV und Klimatisierung kann die MTBF signifikant erhöhen.

MTBF vs. MTTR vs. MTTA vs. MTTF

KennzahlBedeutungMisstIdeal
MTBFMean Time Between FailuresBetriebszeit zwischen AusfällenHoch (mehr Betriebszeit)
MTTRMean Time to RepairDauer der ReparaturNiedrig (schnellere Reparatur)
MTTAMean Time to AcknowledgeReaktionszeit bis zur BestätigungNiedrig (schnellere Reaktion)
MTTFMean Time to FailureBetriebszeit bis zum ersten AusfallHoch (für nicht reparierbare Teile)

MTBF und MTTR ergänzen sich direkt: Ein System kann eine hohe MTBF haben (selten ausfallen), aber wenn die MTTR ebenfalls hoch ist (lange Reparaturzeit), leidet die Gesamtverfügbarkeit trotzdem. Für SLA-Vereinbarungen sind beide Werte relevant.

Pro und Kontra

Pro

  • +Branchenübergreifend etablierte Kennzahl für Zuverlässigkeit
  • +Ermöglicht Wartungsplanung und Kapazitätsprognosen
  • +Direkt verknüpfbar mit Verfügbarkeit und SLA-Zielen
  • +Vergleichbar zwischen Herstellern und Produkten

Kontra

  • Herstellerangaben basieren auf Laborbedingungen, nicht auf realen Einsatzszenarien
  • Berücksichtigt keine geplanten Wartungsfenster
  • Bei Software-Systemen schwieriger zu messen als bei Hardware
  • Durchschnittswert kann einzelne schwere Ausfälle verdecken

Einfluss von KI auf MTBF

KI-gestütztes Predictive Maintenance analysiert Sensordaten und Systemlogs in Echtzeit und erkennt Ausfallmuster, bevor sie eintreten. Laut McKinsey kann Predictive Maintenance ungeplante Ausfallzeiten um 30–50 % reduzieren und die Lebensdauer von Anlagen um 20–40 % verlängern (McKinsey). Das bedeutet eine direkte Erhöhung der MTBF.

Im Contact-Center-Kontext überwachen KI-Systeme die Gesundheit von Telefonanlagen, Chat-Plattformen und CRM-Systemen und empfehlen proaktive Maßnahmen, bevor ein Ausfall die Kundenerreichbarkeit beeinträchtigt.