Etwas Arbeitsfrust ….

Heute mag ich mal nichts über alte sondern über halbwegs aktuelle Hard- bzw Software erzählen.

Ich bin allein verantwortlich für den Betrieb eines kleineren High Performance Computing Systems mit etwas über 800 CPU Kernen und 75 TiB für die Nutzer gedachten Datenspeicher. Wir nutzen dafür einfache Linux – Boxen und machen die Software-Seite selbst mit OpenHPC. Die 75 TiB Datenspeicher laufen auf zwei Rechnern mit BEEGFS als verteiltes Dateisystem. Dieses nutzt dad XFS Dateisystem auf den einzelnen Rechnern als Unterbau. Verbunden ist alles mit einem 100GBit Omni-Path Netzwerk. Vier Jahre lief alles Problemlos – bis ein Update im Mai kam. Erst lief da noch alles – doch seitdem wurden mehrere Dateien innerhalb des XFS Dateisystems zerstört. Dies ist jedoch zuerst nicht aufgefallen – erst Ende Juli durch ein Backup Prozess. Die Fehleranalyse war nicht einfach und ist nicht abgeschlossen. Gut, das man ein Backup hat – dachte man. Denn dort gibt es, gesichert auf ein EXT4 Dateisystem, auch Fehler im Dateisystem. Dateisystem-Tools können die Fehler nicht beheben. Problem war dann: ich bin in den Urlaub und es gab niemanden der sich da drum kümmern kann. Dazu fehlte Festplattenplatz für eine weitere Sicherung. Gebraucht werden mehr als 240TiB um erst zu sichern und dann zusammen zu fügen. (3*70TiB+etwas Extra) Da wir sowieso neuen Speicher brauchen haben wir die Gelegenheit genutzt und Speicherplatz gekauft – noch nicht geliefert. Zum Glück haben wir kurzfristig zwei Gehäuse mot jeweils 48 Festplatten bekommen die wir nutzen können. Leider werden die Festplatten vom SAS Kontroller nicht erkannt weswegen wir in einem anderen Rechner einen anderen SAS Kontroller eingebaut haben – einen, der die 96 Platten alle einzelnd ansprechen. Um schnell Platz zu schhaffen haben wir 2*47 Platten mit einem Softwareraid 6 verbunden, dazu zwei Hotspare Platten. Angebunden ist der Rechner mit 10GBit – womit man bis zu 1GByte/s übertragen kann. Da braucht man ca 20h um 70TiB zu übertragen. Doch aus einem mir unbekannten Grund schaft das Raid nicht mehr als ca 120MByte/s – was für 1GBit Netzwerk sprechen würde. Doch Iperf sagt was anderes… und ich frage mich, warum alles so langsam ist ….

Nur mal so aus dem Arbeitsleben ….

Dieser Beitrag wurde unter Allgemein veröffentlicht. Setze ein Lesezeichen auf den Permalink.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.