Einem Team um die Paderborner Wissenschaftler Prof. Dr. Thomas D. Kühne und Prof. Dr. Christian Plessl ist es gelungen, als erste Gruppe weltweit die bedeutsame Rechenleistungsschranke von einem sogenannten Exaflop – das sind mehr als eine Trillion Gleitkommaberechnungen pro Sekunde – für eine Anwendung in den rechnergestützten Wissenschaften zu durchbrechen. Damit haben sie einen neuen Weltrekord aufgestellt.
Die Professoren – Plessl ist Informatiker, Kühne Chemiker – haben die Exaflop-Hürde bei einer Simulation des SARS-CoV-2 Spike-Proteins in einer realen Anwendung des wissenschaftlichen Rechnens überwunden. Den Durchbruch haben sie mithilfe des Supercomputers „Perlmutter“ am National Energy Research Scientific Computing Center (NERSC) in den USA geschafft. Aktuell ist Perlmutter der fünftschnellste Rechner der Welt. Grundlage war eine neue Simulationsmethode, die Plessl und Kühne in den vergangenen Jahren entwickelt und in das Open-Source Quantenchemie Softwareprogramm CP2K integriert haben.
Wettlauf um die schnellsten Computer der Welt
Der Hintergrund: In der Welt des Hochleistungsrechnens ist die pro Sekunde durchgeführte Anzahl von Gleitkomma-Rechenoperationen in sogenannter doppelter (64bit) Genauigkeit ein Maßstab für die Leistungsfähigkeit eines Supercomputers. 1984 wurde erstmals die Marke von einer Milliarde Rechenoperationen pro Sekunde erreicht – ein Wert, der heute von jedem Smartphone übertroffen wird. „Mit der wachsenden Bedeutung von Hochleistungsrechen für die Wissenschaft hat ein zunehmender technologischer Wettlauf um den schnellsten Rechner eingesetzt. Seitdem wird halbjährlich eine aktualisierte Rangliste der weltweit 500 schnellsten Hochleistungsrechner veröffentlicht“, erklärt Plessl, der Vorstandsvorsitzender des Paderborn Center for Parallel Computing (PC2) ist, das an der Universität den Superrechner Noctua betreibt. Weitere Meilensteine wurden 1997 (eine Billion Operationen pro Sekunde, ein Teraflop) bzw. 2008 (eine Billiarde Operationen, ein Petaflop) erreicht. Das Rennen um die nächste symbolträchtige Marke von einem Exaflop wurde unmittelbar eröffnet. Plessl: „Die Dimension dieser Zahl wird deutlicher, wenn man sich vergegenwärtigt, dass das Universum etwa 1018 Sekunden alt ist. Das heißt, hätte ein Mensch seit dem Urknall jede Sekunde eine Rechnung ausgeführt, könnte ein Exascale-Rechner die gleiche Arbeit in einer einzigen Sekunde verrichten.“
Da sich die Technologiesouveränität bei der Digitalisierung der Wissenschaft zunehmend zu einer Frage der internationalen Wettbewerbsfähigkeit entwickelt hat, wurde das Rennen um den ersten Exascale-Rechner zu einem weltweiten Wettstreit, den man auch als das „Space Race des 21. Jahrhunderts“ bezeichnet. „Aktuell stehen wir unmittelbar vor der Schwelle zum Exascale-Zeitalter. Es wird allgemein damit gerechnet, dass der erste Supercomputer, der die Exascale-Schwelle für 64bit Gleitkomma-Berechnungen durchbricht, Ende Mai auf der Internationalen Konferenz zum Hochleistungsrechnen, der ISC, in Hamburg öffentlich angekündigt wird“, erklärt Plessl.
Neue Methode zur massiv parallelen Quantenchemie Simulation
Für die einheitliche Bewertung der Geschwindigkeit eines Supercomputers für die Top 500 Liste wird ein Programm verwendet, das die Lösung eines sehr großen Gleichungssystems berechnet. Plessl erklärt: „Aufgrund der hervorragenden Parallelisierungseigenschaften des Programms können Supercomputer einen sehr hohen Anteil der theoretisch maximal verfügbaren Rechenleistung nutzen. Ein Kritikpunkt an dieser Messmethode ist, dass die praktisch nutzbare Rechenleistung für reale wissenschaftliche Anwendungen oft nur ein kleiner Bruchteil der maximalen Rechenleistung ist. Denn die Verteilung von Rechenaufgaben, der Transfer von Daten und die Koordination der Ausführung auf hunderttausenden von Rechenelementen bringt in der Regel einen erheblichen Verwaltungsaufwand mit sich.“ Die Entwicklung optimierter Simulationsmethoden und Algorithmen zur effizienteren Nutzung der Rechenleistung von massiv parallelen Supercomputern sei daher ein wichtiger Forschungsgegenstand auf dem Gebiet des wissenschaftlichen Rechnens. Dieser Herausforderung hat sich das Team um Plessl und Kühne angenommen. Mit Blick auf Exascale Computer für den Bereich der Simulation chemischer Systeme haben sie 2020 mit der „Submatrix Methode zur genäherten Berechnung von Matrixfunktionen“ ein neues Verfahren vorgestellt, das ideal auf die Anforderungen von Exascale Supercomputern zugeschnitten ist. Kern des Verfahrens ist ein Ansatz, bei dem viele unabhängige Berechnungen auf kleinen dichten Matrizen durchgeführt werden. „Genau diese Art von Operationen lassen sich mit sehr hoher Rechenleistung und Energieeffizienz auf besonders leistungsfähigen Supercomputern ausführen, die über GPU-Beschleunigerhardware verfügen“, ergänzt Kühne.
Simulation in Rekordgröße auf dem JUWELS Booster Supercomputer
Bereits im vergangenen Jahr haben die Paderborner Wissenschaftler auf dem damals schnellsten Supercomputer Europas (heute Platz 8 weltweit), dem „JUWELS Booster“ am Jülich Supercomputing Centre, Simulationen des HI-Virus mit bis zu 102 Millionen Atomen durchgeführt und damit einen Rekord für die größte Elektronenstruktur-basierte Ab-Initio Molekulardynamik-Simulation aufgestellt. Dabei wurde eine Rechenleistung von 324 Petaflops in mixed-precision Gleitkomma-Arithmetik und eine für diese Anwendungsdomäne herausragende Effizienz von 67,7 Prozent der theoretisch verfügbaren Rechenleistung erzielt. Seit der Rekordsimulation in Jülich wurde die Methode stetig weiter verbessert, um die Effizienz der Nutzung der GPU-Hardwarebeschleuniger zu steigern. Um die Exascale-Tauglichkeit der Methode praktisch auszuloten, konnte sich das Team Zugang zum Supercomputer „Perlmutter“ am National Energy Research Scientific Computing Center (NERSC) in den USA sichern. Der Rechner verfügt über genügend Ressourcen, um die Exascale-Schranke zu durchbrechen, wenn statt in 64bit Präzision mit gemischter 32/16bit Präzision gerechnet wird. Das Verfahren steht damit im Kontext des sogenannten Approximate Computing, das – vereinfacht ausgedrückt – mit ungefähren anstatt mit exakten Werten arbeitet.
„Bei einer Simulation des SARS-CoV-2 Spike-Proteins haben wir dann im April unter Verwendung von 4400 GPU Beschleunigern die Exaflop-Schranke durchbrochen und im rechenzeitkritischen Teil der Anwendung 1,1 Exaflops in gemischter Präzision Arithmetik erzielt“, sagt Plessl. „Zur Einordnung: Ein einzelner Simulationsschritt für 83 Millionen Atome dauert 42 Sekunden. Dabei werden etwa 47 x 1018 Gleitkommaoperationen ausgeführt. Ohne Berücksichtigung des Speicherbedarfs hätte eine solche Berechnung mit dem ersten System der Petaflops-Klasse, Roadrunner aus dem Jahr 2008, etwa 13 Stunden gedauert, mit dem ersten System der Teraflops-Klasse, ASCI Red aus dem Jahr 1997, sogar rund 1,5 Jahre.“
Die Paderborner Wissenschaftler arbeiten bereits an ihrem nächsten Coup: „Der Goldstandard für Atomistische Simulationen in der Chemie und Festkörperphysik ist die Methode der Dichtefunktional-Theorie. Wir sind sehr zuversichtlich, dass wir die Submatrix-Methode auch in diesem Bereich anwenden können“, so Kühne.