Stress mit EVA wegen der Raumtemperatur

By | 18. Juli 2009

Ich weiß nicht ob es senile Bettflucht war oder innere Eingebung, aber ich bin heute am Samstag um 8 Uhr aufgestanden. Beginne also mein morgentliches Ritual: Kaffee, die ersten Nachrichten im Netz lesen, E-Mails checken.  Wow 10 E-Mails seit gestern Abend ganz schön viel…

1. Email: Temperatur im Serverraum erhöht, 2.Email: Temperatur im Serverraum erhöht, 3. und 4. Mail besagen, dass die Temperatur im Serverraum kritisch ist. Die nächsten 6 Mails informieren mich darüber, dass Server  Offline sind. Für die Offline Meldungen der restlichen 15 Server hatte der Mailserver wohl dann keine Zeit mehr als er sich herunter gefahren hat.

Also versucht auf irgend ein System in der Firma zu kommen, leider ohne Erfolg. Also auf in die Firma und ab in die Sauna den Serverraum. Mich traf der Schlag. Laut Thermometer waren es 70° Grad Celsius im Serverraum. Alles was rote Lämpchen hat im Serverraum, hat davon auch kräftig gebrauch gemacht. Also schnell die übrigen Geräte ausgeschaltet und alle Ventilatoren und ein kleines Klimagerät in den Serverraum gekarrt. Danach Klimaanlage inspiziert. Mhh Innengerät läuft, bläst aber nur heiße Luft. Aussengerät läuft auch. Komisch.

Nach einigem rumtelefonieren mit dem Handy (Telefonie läuft auch über Server) hatte ich dann nen Klimatechniker dran, der sich auch sofort auf den Weg gemacht hat. (Ich komme SOFORT ist hierbei ein dehnbarer Begriff, vorher musste er nämlich noch mit seinem Hund zum Tierarzt) 1,5 Stunden später stand er dann aber auf der Matte. Hat dann auch schnell heraus gefunden, dass ein Kupferrohr wo das Kühlmittel durchläuft, geplatzt ist.  Weil die Klimaanlage ein Auslaufmodell ist (Haha Wortwitz) hat er noch einen Kollegen rufen müssen, der das passende Werkzeug und Know How hat um so ein Ding zu reparieren.

So weit, so schlecht. Die Klimatechniker waren also mit Löten und schweißen beschäftigt und ich begann, mir das Ausmaß des Totalausfalls anzuschauen.

down down down

Jedem Admin gefriert das Blut in den Adern, beim Anblick eines solchen Systemstatuses. Wir betreiben ein HP Blade Enclosure und eine HP EVA 4400. Die Blades booten zu 90% aus der EVA heraus (BOOT from SAN). Erklärbär: EVA steht für Enterprise Virtual Array und ist ein SAN Speicher System in dem Alle Festplatten zu einem physikalischenn Raid zusammen gefasst sind und dieses physische Raid stellt virtuelle Raids für die einzelnen Server bereit. Gebe ich zum Beispiel einem Server eine Bootpartition mit 50 GB im Raid 5 Verbund, so wird dieses virtuelle RAID5 quasi auf allen Platten in der EVA gespeichert.

Im Katastrophenfall dürfen höchstens 2 von 16 physikalischen Festplatten ausfallen!  Wir haben 2 Disk-Enclosure mit jeweils 8 Platten (Ein Enclosure ist sozusagen der Einsteckrahmen für die Festplatten des SANs)

enclosure

Ich schaue also auf die Enclosure und sehe, dass beide Enclosure Strom haben und „vermutlich“ laufen. Etwas Panik bekam ich dann, als ich sah, dass in der ersten Enclosure alle Festplatten AUS waren. Also Panikanruf bei der HP Hotline! Im gebrochenen Indisch-Deutsch-Englisch teilte mir die nette Dame mit, dass sie mir ein Fax schickt wo ich unterschreiben soll, damit sie einen Kostenpflichtigen Techniker rausschicken kann. Es hat sie garnicht interessiert, dass ich ihr 3 mal gesagt habe, dass auch unsere Faxsysteme an den Servern hängen, die momentan nicht laufen.

Aber ich hatte noch ein ASS im Ärmel. Ein HP Techniker hatte mal den Fehler gemacht und mir seine Handynummer gegeben. Und genau der musste nun herhalten.

Zuerst wollte er mir noch einen Kollegen vorbeischicken, aber als ich ihm sagte, dass ich weder auf die Console des SANs komme, noch auf die Weboberfläche und sich das SAN nicht herunterfahren lässt wurde das Gespräch dann doch sehr kurz: „Dann müssen Sie die Stecker ziehen, das RAID ist sowieso im inoperablem Zustand. Ziehen Sie die Stecker und beten Sie, dass das RAID wieder hoch kommt und sie keinen Datenverlust haben“ (Natürlich alles auf eigenen Verantwortung)

Also Begab ich mich zu der lieben,inoperabelen,  EVA und zog ihr den Stecker. (Kennt ihr das Gefühl, wenn man mit der Achterbahn fährt und einem durch die G Kräfte der Magen kurz schwerelos erscheint ?)

Gott sei Dank lief die EVA und die virtuellen RAIDs waren noch da und wollten nur von mir wissen ob sie gelöscht werden sollen, ob sie repariert werden sollen oder ob ich „einfach weiter machen“ will. „EINFACH WEITER MACHEN“  schrie der HP Techie durch Telefon und Oh Wunder es lief wieder alles.

Da die Klimatechniker noch wie die Wiesel um die Klimaanlage tanzten, begann ich mir dann die Serverlogs anzuschauen.

critical

Jop es war warm und der Server sagt das auch. Ergo fährt er sich ab einem gewissen Kritischen Wert runter. Aber am geilsten war die Fehlermeldung von der EVA:

tempratureerror

 

ROFL 🙂 🙂 🙂 „An HSV300 Controller has left the Storage System“

Hat so was von:“HSV300 is mal kurz Kippen holen“ oder „Elvis has left the Building“ oder „Ich bin dann mal wech“ oder „tschööö mit Ö“ oder „macht wat ihr wollt ich bin dann mal weg“ Mach ich demnächst auch so. Och nööö mir ist zu warm ich geh mal, viel Spaß euch allen.

Was lernen wir daraus ? HP Server schalten sich tatsächlich zuverlässig ab, wenn eine kritische Innentemperatur erreicht ist. Eine HP EVA versucht sich zumindest selbst abzuschalten und reißt dabei sich selbst, die Controller und die Disk-Enclosures in einen inoperablen Zustand, den man nur dann wieder ändern kann, wenn man blindes Gottvertrauen und ein Flugtiket nach Kuba in der Tasche hat (da liefern se nicht aus). Wir haben ausserdem gelernt: Kupferrohre können platzen, Serverschranktüren sind bei 70° Celsius Raumtemperatur sehr heiß, Schweißausbrüche bekommt man nicht nur wegen Stress, Achterbahn fahren kann man sich sparen wenn man ne EVA hat und da die Stecker zieht, man sollte über eine redundante Klimaanlage nachdenken.

Der ganze Spaß hat glücklicherweise keine Schäden verursacht (ausser den kosten für den Noteinsatz der Klimatechniker). Hoffe nur, dass keine Folgeschäden an der Hardware auftauchen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.