Blog ESXi Überwachung mit Icinga

  • 27.02.2015
  • Kevin Oertig
  • Tech-Talk
  • AS infotrack, ICT-Services, Monitoring, Tech
ESXi Überwachung mit Icinga http://asinfotrack.ch/blog/view/2015-02-27_esxi_ueberwachung_mit_icinga#anchor-comments 0 UserComments http://asinfotrack.ch/images/blog/0028_esxi_icinga.jpg
Die automatisierte Überwachung der IT-Infrastrukturen unserer Kunden ist eines der wichtigsten Hilfsmittel im Bereich ICT-Services. Mit Hilfe der Monitoring Lösung Icinga sind wir imstande Probleme bei Hard- und Software in sehr kurzer Zeit zu erkennen und zu beheben. Dies ist essenziell wichtig, um die Ausfallsicherheit aller Systeme zu erhöhen.

Für die Überwachung setzen wir die Open-Source Software Icinga ein. Dies ist eine Weiterentwicklung der weit verbreiteten Lösung Nagios. Betrieben wird die gesamte Infrastruktur auf virtualisierten Linux Servern. Dadurch ist ein ressourcenschonender Betrieb möglich.



1. Übersicht

Bei der Systemüberwachung beschränken wir uns auf Infrastruktur­geräte. Dies sind in erster Linie Netzwerkgeräte aller Art sowie physische und virtuelle Server. Wir verzichten auf die Überwachung von Clientgeräte wie Drucker und Computer.

Dadurch erhalten wir auf einen Blick eine Übersicht der kompletten Kunden-Infrastruktur. Ausserdem bietet es für unsere tägliche Arbeit und den professionellen Service weitere Vorteile:

  • Selbstständige Erkennung und Behebung von Störungen, im Idealfall bevor eine Störung Auswirkungen auf den Betrieb unserer Kundschaft hat.
  • Frühzeitige Erkennung von Situationen, die zu einer Störung führen können (z.B. Speicherplatz­mangel oder absehbarer Hardware-Defekt). So ist eine proaktive Fehler­behandlung möglich.
  • Wiederkehrende Fehler, meist applikatorisch bedingt, vermeiden
  • Einfachere Problem­analyse und dadurch eine schnellere Reaktionszeit und effizientere Arbeitsweise

2. Systemaufbau

Wir haben das Monitoring System aus performance­gründen dezentral organisiert. Es besteht im Wesentlichen aus den folgenden Komponenten:

  • Zentraler Server bei AS infotrack für die Auswertung, Alarmierung und Visualisierung
  • Dedizierter Server im Kunden­netzwerk für die Detail­überwachung der Systeme innerhalb des jeweiligen Kundennetzwerkes
  • Agent auf dem zu überwachenden System, der die benötigten Informationen zur Verfügung stellt.

Die dedizierten Server fragen die Leistungsdaten der zu überwachenden Systemen in regelmässigen Abständen ab und senden diese an den zentralen Server. Dieser wertet die Daten aus und löst je nach Konfiguration die entsprechenden Schritte aus. Die Kommunikation zwischen den Systemen läuft dabei ausschliesslich über gesicherte VPN-Verbindungen.

Ein Vorteil von Icinga (bzw. Nagios) ist die Flexibilität und die fast endlosen Möglich­keiten. Durch eigene Erweite­rungen kann die Breite der überwachten Dienste ergänzt und auf die jeweiligen Anforderungen genau zugeschnitten werden.

So verwenden wir zum Beispiel seit Kurzem zwei teilweise selbst geschriebene Erweiterungen zur Überwachung von ESXi-Hosts. Da der grösste Teil der von uns betreuten Server virtualisiert sind, sind auch die Hostsysteme entsprechend von zentraler Bedeutung.


3. Überwachung ESXi Server

Als Hostsystem für die virtuellen Serverumgebungen verwenden wir VMware ESXi Server. Um einen störungsfreien Betrieb gewährleisten zu können, ist die detaillierte Überwachung dieser Server enorm wichtig. Einerseits betrifft dies Leistungs­daten wie die Auslastung von Arbeitsspeicher, Prozessoren oder Festplatten­speicher und andererseits Hardware­daten um Defekte zu erkennen.

Hardware Überwachung

Mit einer Erweiterung lesen wir den Hardwarestatus von den ESX Servern aus. So können wir erkennen, ob ein Defekt an der Hardware vorliegt oder beispiels­weise die Batterie vom Raid-Controller noch genügend Leistung erbringt. Da für die Auswertung die ESX eigenen Mittel verwendet werden, ist es wichtig eine aktuelle und hersteller­spezifische ESX Installation mit allen Treibern einzusetzen. Ansonsten wird nicht das ganze mögliche Spektrum abgedeckt.

Die Abfrage der Hardware­daten erfolgt direkt auf dem ESX Host mit Hilfe des WBEM CIM-XML Protokoll. Umgesetzt ist die Erweiterung als Python Script.

Mit folgendem Code lassen sich die Informationen auslesen:

import pywbem
result = pywbem.WBEMConnection('https://<Adresse>', (<user>,<password>), 'root/cimv2')

Die dadurch zurück­gegebenen Instanzen und Klassen enthalten alle Infor­mationen über die Hardware. Beispiel zum Auslesen des Herstellers:

chassisInfo = result.EnumerateInstances('CIM_Chassis')
manufacturer = chassisInfo[0][u'Manufacturer']

Die Vorteile einer solchen Überwachung liegen – wie das folgende Beispiel zeigt - auf der Hand: Ein Server steht in der Regel in einem nur selten durch qualifiziertes Personal aufgesuchtem Serverraum. Fällt nun bei einer RAID5-Konfiguration eine Festplatte aus, würde dies nur per Zufall und nicht innert nützlicher Frist entdeckt. Der Ausfall der einen Festplatte hat einen negativen Einfluss auf die Performance des gesamten Systems und viel wichtiger, die Wahrschein­lichkeit auf einen Total­ausfall durch einen weiteren Defekt steigt erheblich. Ein solcher Ausfall hätte einen längeren Betriebs­unterbruch, bedingt durch eine zeit­aufwändige Komplett­wieder­her­stellung aus dem Backup, zur Folge. Durch die Überwachung wird der erste Defekt nun innerhalb von Minuten gemeldet und der Austausch kann vor einem Ausfall im laufenden Betrieb durchgeführt werden.

Storage Überwachung

Mit Hilfe einer zusätzlichen Erweiterung überwachen wir die Speicher­kapazität des Datastore vom ESXi. Die Performance-Daten vom ESX Host können nur mithilfe des "vSphere Command-Line Interface" abgefragt werden. Dieses muss auf jedem Icinga-Server zur Verfügung stehen. Die Abfrage der Storage-Daten erfolgt über das vmkfstool (Werkzeug für virtuelle Festplatten), welches Teil des CLI (Sprache zur Statusabfrage von Infrastruktur) ist.

Mit dem Befehl

vmkfstools --username '<user>' --password '<password>' --server <ip>  --P <Datastore>

werden die Details zum Datastore zurückgegeben:

VMFS-5.58 file system spanning 1 partitions.
Capacity : 733634101248, 510855741440 avail
File system label : Datasotre
UUID : abc
path : /vmfs/volumes/abc
Partitions spanned:
        mpx.vmhba1:C0:T1:L0:1
Mounted : Yes
VAAI Supported: No

Die Zeile Capacity enthält die Partitions­grösse wie auch der freie Speicherplatz. Diese werden ausgelesen und in eine lesbare Form umgewandelt. Ausserdem wird standard­mässig eine Warnung ab "15% freien Speicher" und ein Fehler ab "10% freien Speicher" generiert. Die Informationen werden entsprechen auf der Web­ober­fläche ausgegeben:

Diese Überwachung ist besonders wichtig, da ein Datastore auf einem ESX-Host unter keinen Umständen bis ans Limit gefüllt werden darf. Ein voller Datastore kann zu Abstürzen der virtuellen Systeme, zu Datenverlust und nicht funktionierende Backups führen!


4. Das Monitoring der AS infotrack

Um unseren Kunden einen optimalen Betrieb ihrer IT-Infrastruktur zu gewährleisten, bieten wir unser Dienstleistung "Monitoring" an. Mit der dauernden Überwachung der System­infra­struktur unsere Kunden erkennen wir Störung frühzeitig und können darauf reagieren, mit dem Ziel dass ihr Geschäfts­alltag nicht tangiert wird. Zum einen binden wir Netzwerk­geräte wie Switches, Router und Firewalls sowie Server­dienste und wenn möglich Server­hardware ein, zum anderen decken wir auch spezielle Kunden­wünsche ab.

Dieses Angebot steht all unseren Kunden mit einem Dienst­leistungs­vertrag zur Verfügung. Wie stellen Sie den Betrieb Ihrer IT-Infra­struktur sicher? Gerne sind wir für Sie da und besprechen mit Ihnen die Möglichkeiten zur Betreuung und Überwachung Ihrer IT-Komponente. Wir freuen uns, Sie und Ihre IT-Infrastruktur kennenzulernen!




Kommentar schreiben


Kommentare

Noch keine Kommentare. Schreiben Sie den ersten Kommentar zu diesem Artikel!