Die Tier-Topologie
Die Tier-Topologie
Hochverfügbarkeit für Rechenzentren
Hochverfügbarkeit hat einen großen Stellenwert in unserer immer stärker von IT-Systemen abhängigen „digitalen Gesellschaft“. Heute wird nicht nur in Tech-Unternehmen, sondern in praktisch allen Branchen die Anforderung gestellt, dass Server und ganz allgemein IT-Infrastrukturen rund um die Uhr laufen und erreichbar sein müssen. Dies gilt umso mehr, wenn wichtige Geschäftsprozesse von diesen abhängen. Sei es die Bestellung eines Kunden im Onlineshop oder der Kalender des Außendienst-Mitarbeiters.
Das könnte ebenfalls interessant sein:
Damit werden gleichzeitig auch sehr hohe Anforderungen an die Basis-Infrastruktur, wie die zuverlässige Stromversorgung, Klimatisierung und Sicherheit gestellt. Daher werden Server und zugehöriges IT-Equipment im Regelfall in speziell gesicherten Serverräumen oder zentralisierten Rechenzentren untergebracht. Sowohl bei der Architektur und dem Bau eines Rechenzentrums, als auch später für den Tagesbetrieb stellt sich für Betreiber und Kunden gleichermaßen die Frage, wie diese nach objektiven Kriterien bzw. Standards eingeordnet und mit anderen Rechenzentren verglichen werden können.
Der am häufigsten verwendete internationale Standard, um die Verfügbarkeit und den Aufbau eines Rechenzentrums zu beschreiben, ist die Tier-Topologie. Sie gibt sowohl Auskunft über die jährliche Verfügbarkeit eines Rechenzentrums, als auch über vorhandene Redundanzen und dient daher als gutes Unterscheidungskriterium bei der Einschätzung und Auswahl eines geeigneten Rechenzentrums.
Die Verfügbarkeit
Was bedeutet „Hochverfügbar“?
Die jährliche Verfügbarkeit im Rechenzentrum wird üblicherweise in Prozent angegeben. Sie ergibt sich aus der Betriebsdauer und der Ausfallzeit (Downtime), welche wiederum durch Fehler oder aber auch Wartungen verursacht werden kann. Häufig werben Rechenzentrumsbetreiber mit dem Begriff „hochverfügbar“. Laut gängigen Definitionen gelten nur solche Systeme als hochverfügbar, oder Highly Available (HA), die selbst beim Ausfall einer Komponente einen uneingeschränkten Betrieb gewährleisten. Oder anders ausgedrückt: Es muss für ausreichend Redundanzen in den einzelnen Komponenten gesorgt sein. Sind diese Redundanzen gegeben, kann ein solches System oft Verfügbarkeiten jenseits der 99,9 % oder mehr liefern. Die jährlich zu erwartende Ausfallzeit liegt demnach unter einer Stunde.
Bei einem komplexen Gebäude wie einem Rechenzentrum muss beispielsweise nicht nur die eingesetzte Hardware redundant ausgelegt sein, um einen durchgängigen Betrieb zu gewährleisten. Die Klimatisierung und Stromversorgung, sowie die Netzersatzanlage zum Abfangen von Stromausfällen und -schwankungen, sind ebenfalls unerlässlich für den reibungslosen Betrieb eines Rechenzentrums und somit des dort untergebrachten IT-Equipments. Auch in diesen Bereichen müssen daher ausreichende Redundanzen vorhanden sein. So kann etwa der Ausfall einer Klimaanlage durch andere vorhandene Anlagen abgefangen werden, wodurch ein Serverausfall durch überhitzte Hardware verhindert wird.
Die Tier-Topologie
Der Standard zur Beurteilung von Rechenzentren
Redundanzen, die tatsächliche Verfügbarkeit und maximale Ausfallzeiten wurden nicht selten von Rechenzentrumsbetreibern mit werbewirksamen Worten verwischt. Auch die zunehmende Komplexität und Größe von Rechenzentren, sorgte rasch dafür, dass der Markt immer unübersichtlicher wurde. Das amerikanische „Uptime Institute“ setzte es sich daher zum Ziel, einheitliche Kriterien zu formulieren, um für eine bessere Transparenz und Vergleichbarkeit zu sorgen. Ende der 1990er Jahre publizierte das Unternehmen schließlich seine „Tier-Topologie“, die mittlerweile als international anerkannter Standard gilt. Jedes „Tier“ steht dabei für ein gewisses Level an Verfügbarkeit und Redundanzen in einem Rechenzentrum.
Insgesamt existieren derzeit vier verschiedene Tier-Klassen. Tier I ist die am wenigsten zuverlässigste Klasse. Tier IV gilt als die zuverlässigste Tier-Klasse und wird als hochverfügbar eingestuft. Einige Betreiber werben unter anderem mit Klassifizierungen wie „Tier III+“. Diese Zwischenstufen ergeben sich aus der Tatsache, dass der oft historisch gewachsene Aufbau eines Rechenzentrums nicht immer mit dem Tier-Standard vereinbar ist. Ein Tier III+ Rechenzentrum könnte zum Beispiel höhere Redundanzen im Bereich der Stromzuführung aufweisen, als es für diese Klasse nach dem offiziellen Standard nötig wäre. Es wäre faktisch ein Tier III Rechenzentrum, bietet aber in Teilbereichen die Vorteile und Sicherheiten eines Tier IV Rechenzentrums. Daher könnte durchaus auch ein Tier III+ Rechenzentrum Verfügbarkeiten jenseits der 99,99 % bieten.
Trotz dieser Zwischenstufen bietet Tier-Topologie einen einfachen und guten Überblick über die bauliche Auslegung eines Rechenzentrums. Zudem verdeutlicht sie, die zunehmende Verfügbarkeit je Tier-Klasse:
Tier | Verfügbarkeit | Durchschnittliche Ausfallzeit jährlich |
I | 99,67 % | 28,8 h |
II | 99,75 % | 22 h |
III | 99,98 % | 1,6 h |
IV | 99,99 % | 0,8 h |
Redundanz
Mit Netz und doppelten Boden
Nicht nur um die Auswirkungen von ausgefallenen Komponenten abzufangen sind Redundanzen unerlässlich. Sie ermöglichen auch die Wartung einzelner Komponenten, ohne den laufenden Betrieb komplett einstellen zu müssen. Je nach Tier-Klasse bzw. Aufbau und Auswahl der Komponenten in einem Rechenzentrum ist dies durch fehlende Redundanzen nicht möglich. Hier sind Wartungsarbeiten mit Ausfallzeiten gleichzusetzen. Auch dieser Punkt findet in der Tier-Topologie Beachtung.
Wird von der Redundanz im Zusammenhang mit Rechenzentren oder Systemen gesprochen, meint man damit meist die Betriebsredundanz, oder auch N+1-Redundanz.
Sie sagt aus, dass ein System aus N funktionsfähigen, im Betrieb befindlichen Einheiten und einer (+1) zusätzlichen passiven Einheit besteht, die Standby-Einheit genannt wird.
Zur Veranschaulichung nehmen wir die Klimatisierung eines Rechenzentrums:
Es sind zum Beispiel zwei (N) aktive Klimaanlagen-Einheiten vorhanden, die zur Kühlung einer Technikfläche eingesetzt werden. Zusätzlich sind eine dritte und vierte Standby-Einheit vorhanden, die ihren Dienst sofort aufnehmen, sollte eine der aktiven Klimaanlagen für eine Wartung abgeschaltet werden oder ausfallen. Ein solches Szenario würde als N+2 bezeichnet werden.
Darüber hinaus hat die Tier-Topologie auch Vorgaben für die Anzahl der Versorgungswege der einzelnen Komponenten festgelegt. Konkret heißt dies, dass die komplette Infrastruktur zur Stromversorgung in einem Tier III oder IV Rechenzentrum zweifach vorhanden sein muss.
Die nachfolgende Tabelle veranschaulicht die mindestens vorhanden Redundanzen je Tier-Klasse:
Tier | Komponenten | Versorgungswege |
I | 1 | 1 |
II | N+1 | 1 |
III | N+1 | N+1 (1 aktiv, 1 passiv) |
IV | 2x N+1 | 2 (aktiv/aktiv) |
Die einzelnen Tier-Klassen näher beleuchtet:
Tier I
Die einfach ausgelegten Versorgungswege sowie die einmal vorhandenen Komponenten können als Basis-Infrastruktur bezeichnet werden, die keine Redundanzen aufweist und nur für nicht kritische Anwendungen geeignet ist. Die fehlenden Redundanzen machen eine Wartung ohne Ausfallzeit zudem unmöglich. Außerdem besteht ein erhöhtes Ausfallrisiko, denn beschädigte Komponenten sowie menschliche Fehler können nicht abgefangen werden. Die jährliche Ausfallzeit ist dementsprechend hoch und liegt bei zu erwartenden 28,8 Stunden.
Tier II
Die Tier II-Klasse sieht eine Redundanz der Komponenten, wie etwa Klimaanlagen-Einheiten oder Generatoren vor. Die einfach ausgelegten Versorgungswege bieten jedoch immer noch ein erhöhtes Ausfallrisiko bei Überlastungen, obwohl sich die durchschnittliche jährliche Ausfallzeit gegenüber der Tier I-Klasse mit 22 Stunden jährlicher Ausfallzeit etwas reduziert. In dieser Klasse können daher Wartungen und ungeplante Vorfälle zu einer starken Beeinträchtigung der Systeme führen.
Tier III
Die meisten Rechenzentren sind in diesem Tier zu finden. Sie ist die niedrigste Klasse, in der die Wartung nicht mit einer Ausfallzeit einhergehen sollte. Zudem werden in dieser Klasse redundante Versorgungswege vorausgesetzt, wodurch Überlastungen in diesem Bereich besser abgefangen werden können. Diese vorhandenen Redundanzen führen zu einer drastischen Reduzierung der zu erwartenden jährlichen Ausfallzeit auf 1,6 Stunden.
Tier IV
Die Tier IV-Klasse ist derzeit die höchste Stufe der Tier-Topologie. Alle Komponenten sind doppelt und redundant ausgelegt. Sie werden zudem unabhängig voneinander betrieben und verfügen über separate automatische Auffangmechanismen, die bei einem Fehler oder dem Ausfall einzelner Komponenten aktiv werden und diesem gezielt entgegenwirken. Der physisch getrennte Betrieb gleich zweier aktiver Versorgungspfade, sorgt selbst beim Ausfall eines Pfades für die durchgehende Versorgung der Komponente.
Mit einer Verfügbarkeit von mehr als 99,99 %, der jährlichen Ausfallzeit im Minutenbereich und der unterbrechungsfreien Wartungs- und Betriebsmöglichkeit gelten Tier IV Rechenzentren als hochverfügbar.
Tier IV
Die Tier IV-Klasse ist derzeit die höchste Stufe der Tier-Topologie. Alle Komponenten sind doppelt und redundant ausgelegt. Sie werden zudem unabhängig voneinander betrieben und verfügen über separate automatische Auffangmechanismen, die bei einem Fehler oder dem Ausfall einzelner Komponenten aktiv werden und diesem gezielt entgegenwirken. Der physisch getrennte Betrieb gleich zweier aktiver Versorgungspfade, sorgt selbst beim Ausfall eines Pfades für die durchgehende Versorgung der Komponente.
Mit einer Verfügbarkeit von mehr als 99,99 %, der jährlichen Ausfallzeit im Minutenbereich und der unterbrechungsfreien Wartungs- und Betriebsmöglichkeit gelten Tier IV Rechenzentren als hochverfügbar.