Veröffentlicht am 14.12.2021
Mathematiker stellt man sich für gewöhnlich so vor, dass sie vor einer Tafel nachdenken, mit nichts anderem als einem Stück Kreide und der Schärfe ihres Verstandes, um die kniffligsten Probleme zu lösen. In Wahrheit aber brauchen zumindest einige mathematische Forscher ein paar zusätzliche Werkzeuge, die ihnen zur Bewältigung ihrer Aufgaben zur Seite stehen. Bei uns am Max-Planck-Institut sind das keine exorbitant teuren Versuchsaufbauten wie Teilchenbeschleuniger, Riesenteleskope oder komplizierte Mikroskope, sondern Computerhardware.
Die Geschichte unserer „silikonbasierten Abaci“ spiegelt die allgemeine Entwicklung von einzelnen leistungsstarken Computern hin zu mehr parallelisiertem Rechnen wider, wie es in modernen Grafikprozessoren mit Tausenden von Kernen realisiert wird. Die heutigen Smartphones stellen zwar die meisten Computerserver von damals in den Schatten, aber für die komplexen Rechenaufgaben ihrer Zeit waren sie unverzichtbar. Vielleicht kann ein Blick in die Vergangenheit dazu beitragen, dass Sie das moderne technische Wunderwerk, auf das Sie sich jeden Tag verlassen, noch mehr zu schätzen wissen.
In der Arbeitsgruppe von Prof. Wolfgang Hackbusch wurde ein Selbstbau-System, bestehend aus 16 normalen PCs, aufgebaut. Solche Rechnersysteme wurden in den 1990er Jahren populär und als Beowulf-Cluster bezeichnet (siehe auch Wikipedia). Sie wurden durch ein (Gigabit-)Netzwerk verbunden, weshalb auch verteiltes Rechnen möglich war. Jeder einzelne PC besaß eine AMD Athlon CPU mit 900 MHz und 4 GB Arbeitsspeicher.
Übrigens: Damals konnte man die CPU noch mit einem Bleistift beschleunigen! Auf dem Prozessor wurde die Taktfrequenz über das Durchtrennen von kleinen Metallbrücken (L1; oben rechts) bestimmt. Wenn man diese Verbindungen wiederhergestellt hatte, was mit dem Graphit eines Bleistifts möglich war, dann konnte man die Taktfrequenz selbst festlegen.
Als nächstes, großes System zog eine SunFire 6800 der Firma Sun bei uns ein. Diese besaß 24 CPUs vom Typ UltraSparc III mit 900 MHz Taktfrequenz und 96 GB Arbeitsspeicher. Ein großer Vorteil dieses Systems für die Parallelverarbeitung war, dass der Zugriff auf den Arbeitsspeicher praktisch gleich schnell für alle CPUs war, eine Eigenschaft, welche nur schwierig zu realisieren ist.
Zusammen mit dem Max-Planck-Institut für evolutionäre Anthropologie (MPI EVA) schafften wir ein großes Clustersystem, bestehend aus 106 Servern, an. Dabei wurden AMD Opteron CPUs verbaut. 34 Server wurden außerdem mit einem Hochgeschwindigkeits-Netzwerk (Infiniband) verbunden. Diesen Rechnern standen außerdem jeweils 16 GB Arbeitsspeicher zur Verfügung. Die übrigen 72 Knoten hatten jeweils 4 GB Speicher und wurden über ein normales Gigabit-Netzwerk verbunden.
Übrigens: Das MPI EVA nutzte das System für erste Schritte zur Bestimmung des Neandertaler-Genoms.
Im Hochleistungsrechnen ging der Trend mehr und mehr zu mehreren kleineren Servern anstelle eines sehr großen Einzelservers. Wir folgten fortan ebenfalls diesem Pfad und kauften 5 Sun x4600 Server mit jeweils 8 AMD Opteron CPUs mit jeweils 2 CPU-Kernen. Die Taktfrequenz betrug dabei 2,4 GHz. Jeder Rechner hatte zudem 256 GB Arbeitsspeicher.
Bei den Prozessoren stieg die Anzahl der Rechenkerne an. Das neue System nutze hier bereits Hexa-Core CPUs, also 6 CPU-Kerne. Es bestand aus 8 Servern des Typs IBM dx360 M4 und jeder Server hatte zwei Prozessoren, konnte mithin 12 Programme gleichzeitig ausführen. Jeder Rechner besaß zudem 128 GB Arbeitsspeicher. Die Rechner wurden wieder über ein Hochgeschwindigkeits-Netzwerk (Infiniband) verbunden. Außerdem wurden 3 Beschleunigerkarten des Typs Intel Xeon-Phi eingesetzt.
Die Server-Landschaft ist mittlerweile sehr heterogen. So haben wir ein Cluster mit 24 Servern, welche jeweils 24 CPU-Kerne und 128 GB Arbeitsspeicher besitzen. Daneben gibt es aber auch 4 Server mit jeweils 64 CPU-Kernen und 3 TB Arbeitsspeicher und auch zwei Systeme mit jeweils 128 CPU-Kernen. Auch die Beschleunigerkarten spielen eine immer größere Rolle. Hiervon sind aktuell 6 NVidia-Karten im Einsatz. Wenn wir alle unsere 54 Compute-Server zusammenzählen, dann sind derzeit 1818 CPU-Kerne und 35072 GB Arbeitsspeicher vorhanden. Damit zählen wir aber innerhalb der Max -Planck-Gesellschaft noch zu den kleineren Installationen.
Alle anderen Episoden unserer Kolumne finden Sie hier.