Für die Überwachung setzen wir die Open-Source Software Icinga ein. Dies ist eine Weiterentwicklung der weit verbreiteten Lösung Nagios. Betrieben wird die gesamte Infrastruktur auf virtualisierten Linux Servern. Dadurch ist ein ressourcenschonender Betrieb möglich.
Kapitelübersicht
1.Übersicht
Bei der Systemüberwachung beschränken wir uns auf Infrastrukturgeräte. Dies sind in erster Linie Netzwerkgeräte aller Art sowie physische und virtuelle Server. Wir verzichten auf die Überwachung von Clientgeräte wie Drucker und Computer.
Dadurch erhalten wir auf einen Blick eine Übersicht der kompletten Kunden-Infrastruktur. Ausserdem bietet es für unsere tägliche Arbeit und den professionellen Service weitere Vorteile:
- Selbstständige Erkennung und Behebung von Störungen, im Idealfall bevor eine Störung Auswirkungen auf den Betrieb unserer Kundschaft hat.
- Frühzeitige Erkennung von Situationen, die zu einer Störung führen können (z.B. Speicherplatzmangel oder absehbarer Hardware-Defekt). So ist eine proaktive Fehlerbehandlung möglich.
- Wiederkehrende Fehler, meist applikatorisch bedingt, vermeiden
- Einfachere Problemanalyse und dadurch eine schnellere Reaktionszeit und effizientere Arbeitsweise
2.Systemaufbau
Wir haben das Monitoring System aus Performancegründen dezentral organisiert. Es besteht im Wesentlichen aus den folgenden Komponenten:
- Zentraler Server bei AS infotrack für die Auswertung, Alarmierung und Visualisierung
- Dedizierter Server im Kundennetzwerk für die Detailüberwachung der Systeme innerhalb des jeweiligen Kundennetzwerkes
- Agent auf dem zu überwachenden System, der die benötigten Informationen zur Verfügung stellt.
Die dedizierten Server fragen die Leistungsdaten der zu überwachenden Systemen in regelmässigen Abständen ab und senden diese an den zentralen Server. Dieser wertet die Daten aus und löst je nach Konfiguration die entsprechenden Schritte aus. Die Kommunikation zwischen den Systemen läuft dabei ausschliesslich über gesicherte VPN-Verbindungen.
Ein Vorteil von Icinga (bzw. Nagios) ist die Flexibilität und die fast endlosen Möglichkeiten. Durch eigene Erweiterungen kann die Breite der überwachten Dienste ergänzt und auf die jeweiligen Anforderungen genau zugeschnitten werden.
So verwenden wir zum Beispiel seit Kurzem zwei teilweise selbst geschriebene Erweiterungen zur Überwachung von ESXi Hosts. Da der grösste Teil der von uns betreuten Server virtualisiert ist, sind auch die Hostsysteme entsprechend von zentraler Bedeutung.
3.Überwachung ESXi Server
Als Hostsystem für die virtuellen Serverumgebungen verwenden wir VMware ESXi Server. Um einen störungsfreien Betrieb gewährleisten zu können, ist die detaillierte Überwachung dieser Server enorm wichtig. Einerseits betrifft dies Leistungsdaten wie die Auslastung von Arbeitsspeicher, Prozessoren oder Festplattenspeicher und andererseits Hardwaredaten um Defekte zu erkennen.
Hardware Überwachung
Mit einer Erweiterung lesen wir den Hardwarestatus von den ESX Servern aus. So können wir erkennen, ob ein Defekt an der Hardware vorliegt oder beispielsweise die Batterie vom Raid-Controller noch genügend Leistung erbringt. Da für die Auswertung die ESX eigenen Mittel verwendet werden, ist es wichtig eine aktuelle und herstellerspezifische ESX Installation mit allen Treibern einzusetzen. Ansonsten wird nicht das ganze mögliche Spektrum abgedeckt.
Die Abfrage der Hardwaredaten erfolgt direkt auf dem ESX Host mithilfe des WBEM CIM-XML Protokolls. Umgesetzt ist die Erweiterung als Python Script.
Mit folgendem Code lassen sich die Informationen auslesen:
Die dadurch zurückgegebenen Instanzen und Klassen enthalten alle Informationen über die Hardware. Beispiel zum Auslesen des Herstellers:
Die Vorteile einer solchen Überwachung liegen – wie das folgende Beispiel zeigt - auf der Hand: Ein Server steht in der Regel in einem nur selten durch qualifiziertes Personal aufgesuchtem Serverraum. Fällt nun bei einer RAID5-Konfiguration eine Festplatte aus, würde dies nur per Zufall und nicht innert nützlicher Frist entdeckt. Der Ausfall der einen Festplatte hat einen negativen Einfluss auf die Performance des gesamten Systems und viel wichtiger, die Wahrscheinlichkeit auf einen Totalausfall durch einen weiteren Defekt steigt erheblich. Ein solcher Ausfall hätte einen längeren Betriebsunterbruch, bedingt durch eine zeitaufwändige Komplettwiederherstellung aus dem Backup, zur Folge. Durch die Überwachung wird der erste Defekt nun innerhalb von Minuten gemeldet und der Austausch kann vor einem Ausfall im laufenden Betrieb durchgeführt werden.
Storage Überwachung
Mit Hilfe einer zusätzlichen Erweiterung überwachen wir die Speicherkapazität des Datastore
vom ESXi. Die Performance-Daten vom ESX Host können nur mithilfe des "vSphere Command-Line
Interface" abgefragt werden. Dieses muss auf jedem Icinga-Server zur Verfügung stehen. Die
Abfrage der Storage-Daten erfolgt über das vmkfstool
(Werkzeug für die Verwaltung von virtuellen Festplatten),
welches Teil des CLI (Schnittstellen-Bibliothek für die ESX Verwaltung) ist.
Mit dem Befehl
werden die Details zum Datastore zurückgegeben:
Die Zeile Capacity enthält die Partitionsgrösse wie auch der freie Speicherplatz. Diese werden ausgelesen und in eine lesbare Form umgewandelt. Ausserdem wird standardmässig eine Warnung ab "15% freien Speicher" und ein Fehler ab "10% freien Speicher" generiert. Die Informationen werden entsprechen auf der Weboberfläche ausgegeben:
Diese Überwachung ist besonders wichtig, da ein Datastore auf einem ESX Host unter keinen Umständen bis ans Limit gefüllt werden darf. Ein voller Datastore kann zu Abstürzen der virtuellen Systeme, zu Datenverlust und nicht funktionierende Backups führen!
4.Das Monitoring der AS infotrack
Um unseren Kunden einen optimalen Betrieb ihrer IT-Infrastruktur zu gewährleisten, bieten wir unsere Dienstleistung "Monitoring" an. Mit der dauernden Überwachung der Systeminfrastruktur unserer Kunden erkennen wir Störung frühzeitig und können darauf reagieren, mit dem Ziel dass ihr Geschäftsalltag nicht tangiert wird. Zum einen binden wir Netzwerkgeräte wie Switches, Router und Firewalls sowie Serverdienste und wenn möglich Serverhardware ein, zum anderen decken wir auch spezielle Kundenwünsche ab.
Dieses Angebot steht all unseren Kunden mit einem Dienstleistungsvertrag zur Verfügung. Wie stellen Sie den Betrieb Ihrer IT-Infrastruktur sicher? Gerne sind wir für Sie da und besprechen mit Ihnen die Möglichkeiten zur Betreuung und Überwachung Ihrer IT-Komponente. Wir freuen uns, Sie und Ihre IT-Infrastruktur kennenzulernen!