Probleme beim FP-Server

Helmut Mastal

Die Inbetriebnahme des FP-Servers Silicon Graphics Power Challenge XL R10000 (Applikationsserver Freie Programmierung) begann in der ersten Juliwoche 1996 sehr hoffnungsvoll. Innerhalb einer knappen Woche wurden die 3 Systeme geliefert, aufgestellt, installiert und abgenommen. Das erste System fpr wurde konfiguriert und konnte in den Benutzerbetrieb übernommen werden. Die Monate Juli und August waren für den sogenannten Probebetrieb vorgesehen, in dem schrittweise die Systeme fps und fpt in den Benutzerbetrieb übergingen und die Kommunikation zwischen den Systemen verfeinert werden sollte.

In dieser Probezeit kam es zu einigen, aber nicht sehr häufigen Systemabstürzen, deren Ursachen relativ schnell lokalisiert werden konnten. Es traten die ersten Probleme mit einigen der insgesamt 56 R10000-Prozessoren auf, die schließlich zu einer weltweiten Rückholaktion von R10000-Prozessoren, die von einer bestimmten Zulieferfirma in einem bestimmten Zeitintervall erzeugt worden waren, führten.

In diesem Zusammenhang sei aus der entsprechenden Presseaussendung von Silicon Graphics zitiert:

Silicon Graphics Initiates R10000 Microprocessor Replacement Program

MOUNTAIN VIEW, Calif. (September 25, 1996) -- Silicon Graphics, Inc. (NYSE: SGI) today announced plans to implement a microprocessor replacement program for customers of Silicon Graphics systems with the MIPS R10000 microprocessor shipped between March and July of 1996. The program was initiated to address a problem that occurred in the manufacture of some R10000 microprocessors by one of the company's suppliers. Systems with the affected microprocessors may shut down, requiring the microprocessor to be replaced.;

The R10000 problem was a semiconductor manufacturing anomaly and did not relate to the design of the microprocessor. It does not affect computational accuracy and manifests itself in an obvious manner to the user. The microprocessor manufacturer has modified its process to eliminate the problem, and based on extensive testing, the problem has been resolved. All R10000 system shipments since August 1 are free of this condition. Further, Silicon Graphics has been receiving substantial quantities of microprocessors utilizing the new manufacturing process.

Bei uns äußerten sich diese Fehler zumeist in Form von Cache Errors. Der betroffene Prozessor mußte dann im Zuge eines sofortigen Reboots des Systems außer Betrieb gesetzt werden. Die Prozessorfehler setzten sich auch noch im September, wenn auch nicht sehr häufig, fort, da bei uns schon Ende August mit der Austauschaktion von Prozessorboards begonnen wurde.

Während die Umtauschaktion den ganzen Oktober durch lief, kam es auch zu Systemabstürzen, deren Erscheinungsbild nicht in das der Prozessorfehler paßte, wie man jetzt rückblickend leicht erkennt. Am 4. November wurde schließlich das letzte CPU-Board der ursprünglichen Lieferung durch ein neues ersetzt. Im Laufe des Monats November sind Probleme mit den XFS-Filesystemen aufgetreten, die sich vor allem auf das System fps konzentrierten.

Vom 4. bis 6. und am 18. Dezember wurde von SGI ein international tätiger Experte an der TU Wien eingesetzt. Er fand ein verstecktes Problem in der Controller-Logik eines Memory-Boards des Systems fps. Weiters wurden Teile des Grundsystems, des Logical-Volume-Managers und der XFS-Routinen auf allen 3 Systemen auf den allerneuesten Software-Patch-Stand gebracht. Mit Hilfe eines sogenannten Shock-Tests wurde ein Prozessor isoliert, der auf mechanische Schwingungen fehlerhaft reagierte. In diesem Zusammenhang möchte ich auch den Benutzern danken, die bereit waren, mit Produktionsjobs kurzfristig eine hohe Last auf dem System zu erzeugen und damit den Fehlerfall herbeizuführen. Es wurden in der Folge noch Software-Korrekturen für den ShareII-Scheduler, für TCP/IP und NFS installiert. Danach ist es zu keinen systembedingten ungeplanten Betriebsunterbrechungen mehr gekommen. Die Unterbrechung in der Nacht vom 23. auf den 24. Dezember war durch einen Stromausfall im Freihausgebäude der TU Wien bedingt.

Es ist also tatsächlich jetzt ein Aufatmen möglich. Parallel zu der Behebung der Hard- und Software-Probleme verlief die Reorganisation der Home-Filesysteme, die im Jänner abgeschlossen werden konnte. Sie reduziert einerseits die Grundlast auf den internen Netzen, andererseits werden die 3 Systeme im Fehlerfall unabhängiger voneinander.

Als nächster Schritt werden die Compiler jetzt auf die Version 7.1 gebracht. Es ist damit auch bei den Laufzeit-Bibliotheken eine optimale Anpassung an die Architektur und Cache-Größe der R10000-Prozessoren gegeben.

Knapp vor Drucklegung der PIPELINE traten neuerlich Probleme auf, wobei ein Problem am System fpt kurzfristig als Cache-Error lokalisiert und durch Board-Tausch gelöst werden konnte.


Zum Inhaltsverzeichnis, Pipeline 21, Februar 1997