Introduction
Comme beaucoup d’entres-vous le savent, en supervision, plusieurs scripts sont utilisés pour vérifier la disponibilité d’un hôte ou d’un service. En fonction des messages envoyés par ces scripts, l’ordonnanceur sait comment interpréter le résultat. Parmis ces messages, nous avons les codes de retour qui permettent de déterminer si l’hôte est UP ou DOWN etc… De même pour les services où on est capable de savoir si le service est OK, WARNING, CRITICAL ou UNKNOWN.
Nous verrons dans ce petit billet, quels sont les codes de retours utilisés par les scripts de supervision avec des ordonnanceurs comme Nagios ou Centreon Engine. Dans ce billet, nous nous contenterons des codes de retours par chiffres (non n’utiliserons pas la librairie Nagios qui permet d’envoyer des codes de retour via une variable).
Codes de retours
Pour les hôtes
Les codes de retours pour les hôtes sont les suivants :
- OK : Le code de retour est 0, cela signifie que l’hôte est joignable et fonctionne correctement
- DOWN : Le code de retour est 1, cela signifie que l’hôte n’est pas joignable
- Tout autre valeur : Dernier état connu
Pour les services
Les codes de retour pour les services sont les suivants :
- OK : Le code de retour est 0, le service est OK
- WARNING : Le code de retour est 1, le service a dépassé le seuil WARNING (le service est donc à surveiller avant qu’il devienne totalement hors service)
- CRITICAL : Le code de retour est 2, le service ne fonctionne plus
- UNKNOWN : Le code de retour est 3, il est impossible de savoir si le service fonctionne (agent SNMP éteint…)
- Tout autre valeur : cf. CRITICAL
Conclusion
Nous avons vu brièvement quels sont les codes de retour des plugins de supervision et à quoi ils servent. Bien développer son plugin de supervision c’est aussi lui assigner les bons codes de retour. Par exemple, si un service utilise l’agent SNMP pour pouvoir nous remonter une information et que l’agent SNMP est hors service, le bon code de retour doit être UNKNOWN car on ne peut pas savoir l’état du service. En revanche, si le service est désactivé ou qu’il a dépassé un certain seuil le bon code de retour est CRITICAL.
Utilisez-vous ces codes de retour ? Si non, comment faites vous ?Loic FONTAINE