2 Zuverlässigkeit
- Kundensicht: ein zuverlässiges System funktioniert erwartungsgemäß,
wenn man es benutzen will
- SysAdmin-Sicht: ein zuverlässiges System umfaßt in angemessenem Umfang
Mechanismen der
so dass die Dienste des Systems gemessen
an ihrer Bedeutung korrekt funktionieren
- einfachstes, effektivstes Verfahren: KISS-Prinzip
Redundanz
- Ziel: single point of failure (SPOF) vermeiden
- durch mehrfaches Vorhandensein von Komponenten Ausfall/Fehlverhalten
einzelner Komponenten tolerieren
- RAID-Systeme, ECC-RAM, redundante Netzteile, ...
- redundante Komponenten effektiv einsetzen
- redundante Netzteile eines Gerätes: verschiedene
Stromquellen (USV)
- redundante Maschinen: verschiedene Stromquellen, verschiedene
Switches
- Geräte zur Sicherung der Fehlertoleranz müssen selbst
fehlertolerant und servicefreundlich sein
- USV - Batteriewechsel während des Betriebs
- RAID - Austausch von Komponenten während des Betriebs
(Platten, Netzteile, ...)
- ggf. an verschiedenen Orten aufstellen
- Komponenten eines Dienstes eng aneinander binden
- alle Geräte einer Maschine: eine Stromquelle
- alle Maschinen, die gemeinsam einen Dienst erbringen: eine Stromquelle
- Replikation (replication)
- vollständige, redundante Kopie
- halbautomatisch oder zeitabhängig gepflegt:
- Master-Slave-Prinzip:
NIS/NIS+ - Slave Server,
Windows NT - Backup Domain Controller,
BIND - Secondary Name Server,
OpenLDAP - Standalone LDAP Update Replication Daemon,
MIT Kerberos 5 - Database propagation,
Heimdal Kerberos 5 - incremental propagation,
etc.
- Peer-to-Peer:
Active Directory Replication (W2K)
- automatisch, transaktionsorientiert gepflegt:
- AFS - Ubik: Replicating AFS Administrative Databases
- Bewertungsmaßstab
- serverseitig: Wie wird Ausfall einzelner Server (Slave/Master)
verkraftet? Wie erfolgt die Re-Synchronisation?
- clientseitig: Wie erfolgt das Umschalten auf einen anderen Server?
Wiederholbarkeit
- Installation, Konfiguration und Pflege eines Systems
muss zuverlässig und konsistent wiederholbar (reproduzierbar) sein
- Techniken: vollständige Automatisierung
Reparierbarkeit
- schnelles und effizientes Identifizieren, Reparieren bzw. Austauschen
fehlerhafter Komponenten oder Systeme
Vertiefung:
Sellens, J.:
System and Network Administration for Higher Reliability
Usenix Assoc., 2001, ISBN 1-880446-08-1
Forrester, J.E.; Miller, B.P.:
An Empirical Study of the Robustness of Windows NT Applications Using Random Testing
in Proceedings of th 4th USENIX Windows Systems Symposium, Usenix Assoc., 2000,
ISBN 1-880446-20-0