"Die höchste Philosophie des Naturforschers besteht eben darin,
eine unvollendete Weltanschauung zu ertragen
und einer scheinbar abgeschlossenen, aber unzureichenden vorzuziehen."

Ernst Mach

AlphaServer SC45
Der neue Server für Finite Elemente und Strömungsdynamik

Peter Berger, Josef Beiglböck

Als Ersatz für das über fünf Jahre alte DEC/COMPAQ Clustersystem wurde im Sommer 2002 ein AlphaServer SC45 System in Betrieb genommen. Das Einsatzgebiet dieses Applikationsservers für die Institute der TU Wien liegt bei großen Problemen, für die CFD- und FE-Programme eingesetzt werden. Leistungsfähige Softwarepakete stehen zur Verfügung.

Im Frühjahr 2001 wurde mit den Vorbereitungsarbeiten für eine Ausschreibung eines neuen Applikationsservers "Finite Elemente und Strömungsdynamik" als Ersatz für das über fünf Jahre alte DEC/COMPAQ Clustersystem (fecfd.zserv) begonnen. Eine Arbeitsgruppe unter der Leitung des ZID, bestehend aus Vertretern der Hauptbenutzer dieses Clustersystems, erarbeitete die Spezifikationen und stellte Benchmarkprogramme zur Verfügung.

Am 18. Dezember 2001 wurde vom ZID eine EU-weite öffentliche Ausschreibung für dieses Hochleistungs-Serversystem veröffentlicht. Als maximaler Finanzrahmen standen EUR 1.0 Mio. (inkl. MwSt) zur Verfügung. Die Ausschreibungsunterlagen wurden von 23 Firmen behoben, von 4 Firmen wurden Anbote bis zur Anbotseröffnung am 15. Februar 2002 abgegeben.

Nach einer Evaluierungs- und Bewertungsphase wurde am 21. 3. 2002 der Zuschlag der Firma Data Systems Austria AG für ein Clustersystem COMPAQ AlphaServer SC45, bestehend aus 10 Knoten ES45 (je 4 Prozessoren 21264C, 1 GHz), erteilt.

AlphaServer – Historisches und Zukünftiges

Im Jahr 1992 brachte Digital Equipment Corporation (DEC) -im Jahr 1998 durch Compaq übernommen -erste Rechner mit Alpha Prozessoren (21064 Chip) auf den Markt. Das erste europaweit installierte System wurde vom ZID als "Fachbereichsrechner Elektrotechnik" angeschafft. Zur gleichen Zeit wurden als Alternative zu den damals im Supercomputing vorherrschenden Vektorrechnern Massive Parallel Processing (MPP) Systeme entwickelt. Ein typisches System dieser Ära war die auf Alpha Chips basierende Cray T3D, welche auch mit Alphas der zweiten Generation (21164) als Cray T3E heute noch in der Top-500-Liste aufscheint. Im Jahr 1997, nach der Übernahme von Cray Research durch Silicon Graphics (SGI), wurde die T3 Linie nicht mehr weiterentwickelt. Compaq entschloss sich darauf, ein eigenes System mit dem Alpha Chip der dritten Generation (21264) zu entwickeln und schuf die Alphaserver SC Linie, die zahlreiche Ähnlichkeiten mit den Cray T3 Systemen aufweist.

Nach der Übernahme von Compaq durch Hewlett Packard (HP) wurde für die Zukunft folgende Strategie für AlphaServer und das Tru64 UNIX Betriebssystem festgelegt:

HP und Compaq (New HP) konvergieren ihre Prozessor und Systemarchitektur zur Itanium Prozessor Familie von Intel. Die AlphaServer Linie wird bis 2004 zum Prozessor EV79 (Marvel Systeme) weiterentwickelt, bis 2006 verkauft und bis 2011 unter dem Betriebssystem HP Tru64 "supported". SC Systeme werden in Zukunft auch mit Itanium Prozessor unter HP-UX 11iv3 und Linux angeboten. HP-UX 11iv3 ist die Itanium-Version von HP-UX, wesentliche Teile von Tru64 UNIX (Advanced Filesystem und Clustering) werden darin enthalten sein.

AlphaServer SC Hardware Architektur

AlphaServer SC Systeme basieren auf einer Distributed Shared-Memory Architektur. Jeder Knoten besteht aus einem 4 Prozessor Shared Memory System (SMP) mit eigenem Adressraum, welcher nicht zwischen Knoten geshared wird. Die Kommunikation zwischen den Knoten erfolgt durch

Wesentlich für die Performance einer MPI oder SHMEM Applikation ist der Transportmechanismus zwischen den Prozessen, welcher durch den High Speed Interconnect Switch von QSW (Quadrics Supercomputer World) soft- und hardware-mäßig unterstützt wird.

Das SC45 System ist blockartig aus folgenden Standard Komponenten zusammengesetzt:

Compute Building Block

10 AlphaServer ES45 mit je
        4 Prozessoren DEC 21264C/EV68, 1001 MHz
        16 GB Hauptspeicher (8 Systeme)
        32 GB Hauptspeicher (2 Systeme)
        6 × 36 GB interne Platten
        Elan Switch Karte

Ein wesentliches ES45 Bauelement ist der Crossbar Switch  mit einer Gesamtleistung  von  8 GB/s. Zwei unabhängige  256 Bit breite 125 MHz getaktete Datenpfade verbinden den Crossbar mit den 32 GB ECC Speicherbänken. Jede Alpha 1 GHz EV68 CPU ist mit einem 128 Bit breit angebundenen 8 MByte L2 Cache ausgestattet, wobei die Cache-Kohärenz gewährleistet wird. Die Anbindung an das Storage und den Quadrics Switch erfolgt über Karten in zwei getrennten 64 Bit PCI Slots.

Interconnect Building Block

Jeder Knoten enthält eine 64 Bit 66 MHz Elan PCI Adapter-Karte, die über ein Kupferkabel mit dem QSW Switch verbunden ist. Die bidirektionale Übertragungsrate von 400 MB/s wird durch einen leistungsfähigen I/O Prozessor, DMA, SDRAM und Cache bereitgestellt.

Der Interconnect ist als 16 Port Switch ausgelegt. Er enthält 8 Crossbar Switches, die in zwei-stufiger Fat Tree Topologie angeordnet sind. Wesentliche Eigenschaften sind eine hohe Bandbreite und kurze Latenzzeit von 3.6 ms für SHMEM und 5.1 ms für MPI, die bei einem 128 Knoten System real gemessen wurden.

Management Building Block

Der Management Building Block umfasst einen Alpha Server DS20, einen Terminalserver für die Consoleverbindungen zu den Knoten und einen LAN Switch, über den die Knoten mit 100 MBit/s angebunden sind. Er erlaubt, Systemmanagement gezielt auf bestimmten Knotengruppen durchzuführen, Systemupdates, Boot, Shut-down, Power-on, Power-off etc.

Storage Building Block

Drei Clusterknoten sind als Fileserver Nodes konfiguriert und greifen über zwei redundante Fiber Channel Controller auf ein StorageWorks Modular Array 8000 zu. Das Storage ist mit Compaq Universal Drive Platten ausgestattet und ist mit

19 × 72 GB Platten als RAID5 für /home
2 × 36 GB Platten gespiegelt für /appl
6 ×18 GB Platten gespiegelt für system

bestückt.

Weiters steht für Datensicherung ein Super DLT Bandlaufwerk mit einer Kapazität von 220 GB pro Band zur Verfügung.

SC45

SC45 Konfiguration

SC45

SC45 Blockschaltbild

SC Software Architektur

Die AlphaServer SC System Software besteht aus den Komponenten

Wesentlicher Bestandteil sind die low-level Communication Libraries (shmem und mpi), welche Treiber für die Quadrics Elan Hardware zur Verfügung stellen. Für den Betrieb und das Jobmanagement des Clusters wurde das Resource Management System (RMS) entwickelt. Es erlaubt das Zerteilen des gesamten CPU-Pools in Partitions für verschiedene Jobklassen und verteilt Jobs optimal über diese. Sämtliche Systeminformationen, Konfigurationsdaten, Accountinginformationen etc. bis hardwarespezifische Informationen wie Chiptemperaturen, Status der Ventilatoren, Netzteile etc. werden in einer SQL-Datenbank verwaltet. Ein Event Handling Interface minimiert Operator-Aktionen, da Systeme dieser Art auf eine extrem hohe Knotenanzahl ausgelegt sind und eine Übersicht über alle Details nur mehr schwer möglich ist.

Alle Knoten befinden sich in einer Cluster Filesystem Domain, einheitliche Namen für Files und Directories sind gewährleistet, die Knoten teilen sich ein gemeinsames root Filesystem. Lokale (knotenspezifische) Filesysteme wie swap und /tmp werden über so genannte Context Dependable Symbolic Links (CDSL) aufgelöst und selektiert.

Betriebssystem und Anwendersoftware

Software

Compaq Tru64 UNIX V5.1A
Compaq AlphaServer SC V2.4A
COMPAQ C++ Version 6.3
Compaq Fortran V5.5

Anwendersoftware

ABAQUS 6.2-5
ANSYS 6.1
CFX 4.4, 4.3
CFX 5.5.1
EMAS 4
FIDAP 8.62, 8.6
FLUENT 5.5.16, 6.0.20
GAMBIT/T 2.0.4
TASCflow 2.11.2, 2.10
TurboGrid 1.6

Für die Produkte ABAQUS, FIDAP und FLUENT sind Parallellizenzen vorhanden.

Zugang über das TUNET

Der Zugang erfolgt über zwei Fast Ethernet Anschlüsse, Connections werden auf die Knoten mach0 und mach1 verteilt. Aus Sicherheitsgründen beschränkt sich der Zugang auf Secure Shell V.2. Telnet, FTP und Berkeley r-Commands sind nicht möglich.

Erreichbar ist das System unter dem Hostnamen sc.zserv.tuwien.ac.at

Die Knoten tragen den Namen des österreichischen Physikers und Philosophen Ernst Mach. Ernst Mach (1838 -1916) schuf den experimentellen Nachweis des Doppler'schen Gesetzes und das Mach'sche Gesetz durch Untersuchung schnell fliegender Objekte. Die nach ihm benannte Mach-Zahl bezeichnet das Verhältnis der Geschwindigkeit eines Körpers zur Schallgeschwindigkeit.

Das SC-System steht vor allem jenen Benutzern der TU Wien zur Verfügung, die an der Lösung großer Probleme aus dem Bereich Finite Elemente und Strömungsdynamik arbeiten.

Die Systembetreuung wird von den Herren Josef Beiglböck (Tel.: 42071) und Erwin Srubar (Tel.: 42084) übernommen.

Ausführliche Dokumentation befindet sich im Web unter www.zserv.tuwien.ac.at/sc/

SC45

Einige ausgewählte SC Installationen

Pittsburgh Supercomputer Center
3000 CPUs, 3 TB Hauptspeicher, 6 TFLOPs
www.psc.edu/general/hardware.html

Los Alamos National Laboratory
4096 CPUs, 30 TFLOPS
www.c3.lanl.gov/~fabrizio/talks/ohio_30T.pdf

Australian Partnership for Advanced Computing
500 CPUs
nf.apac.edu.au/facilities/sc

TU Braunschweig
40 CPUs
www.tu-bs.de/rz/Compute-Server/COMPAQ.html

TU Graz
40 CPUs, Installation im Oktober
www.ZID.TUGraz.at


TopSeitenanfang | ZIDline 7 - Oktober 2002 | ZID | TU Wien