Tous les lundis matin…
Tous les lundis matin marquent le début de la semaine pour la plupart d'entre nous bien qu'en ce qui me concerne nous avons une activité H24 et 7 jours sur 7… Pour passer une bonne semaine, sans pépins, nous avons mis en place quelques contrôles et procédures hebdomadaires qui, malgré une supervision relativement aboutie, m'ont paru nécessaires au fil des années passées…
Il s'agit de contrôles de « routines » ou de travaux de « maintenance » qui sont difficiles à automatiser et qui pourtant me paraissent indispensables à effectuer régulièrement.
Pourquoi s'astreindre à cette discipline, une fois par semaine ?
- Parce que tout ne peut pas être supervisé ou testé automatiquement,
- Parce que certains matériels ne proposent pas de système automatisé de sauvegarde,
- Parce que certains matériels sont « oubliés » tant ils fonctionnent bien et le jour où l'on a besoin de s'y connecter on s'aperçoit que sa console de management est inopérante ou bien que le mot de passe que l'on avait soigneusement « rangé » n'est pas le bon,
- Parce que dans sa propre équipe informatique, il y a des étourdis qui modifient des choses sans mettre à jour la documentation,
- Parce que certains matériels ne sont plus à l'heure (à la seconde près) et ce malgré un NTP qui paraît bien configuré,
Les sauvegardes
- Faire un point sur les incidents de sauvegardes de la semaine précédente et analyser les dysfonctionnements survenus au « jobs » qui ne se sont pas terminés correctement,
- Faire un ou deux exercices de restauration, sur un fichier au hasard par exemple voire sur une VM (machine virtuelle) complète,
- Contrôler la liste des systèmes à sauvegarder afin d'être sûr que rien n'est oublié.
Les équipements du « réseau »
- Se connecter sur les consoles de management des principaux équipements réseaux (cœur de réseau, contrôleurs wifi, firewalls, proxies…),
- Sauvegarder les configurations manuellement si certains de ces équipements ne proposent rien d'automatisable.
Analyser les tickets de la semaine précédente
- Parcourez les tickets (demandes de support) avec l'équipe chargée du support, histoire de voir si vous n'avez pas loupé quelque chose, dans le sens une application ou un système qui générerait beaucoup plus de demandes de support qu'à l'habitude,
- Jetez un œil sur les réponses apportées aux demandes de support afin de vous assurer qu'elles sont complètes, bien formulées et « courtoises ».
La salle serveurs- rendez-vous dans la salle serveurs (oui, allez-y!) et vérifiez que tout est en ordre (pas de câbles qui traînent, pas de cartons ou de boîtes en vrac…),
- Vérifiez que tous les câbles et équipements fraîchement installés sont étiquetés dans les règles de l'art,
- Tester vos sondes de températures et d'hygrométrie (il suffit de déplacer ces sondes vers une source de chaleur ou de les malmener avec un sèche-cheveux) et vérifier que toutes les alarmes remontent bien,
- Tester les onduleurs (self-test) et les réseaux de courants forts, n'hésitez pas à couper un réseau ou débranchez tout simplement l'alimentation des onduleurs pour observer leur comportement et leurs alarmes associés.
Autres tests divers à réaliser
Vous avez des systèmes redondants (serveurs de load balancing, SAN en miroir, Hyperviseurs ?), alors c'est le moment de jouer un peu non ? Faites au moins un test toutes les semaines, pas sur tout, c'est trop chronophage mais au moins sur un sous-ensemble… (ex. semaine 1 on teste la redondance du stockage, semaine 2 on teste la redondance des serveurs, semaine 3 on teste la redondance du réseau, semaine 4 on teste la redondance des firewalls, etc.). L'objectif étant de tester tous les 1 à 2 mois tous les systèmes de redondance que vous avez mis en place sinon, à quoi cela servirait n'est-ce pas ?
Prenez deux ou trois systèmes au hasard et vérifiez s'ils sont bien à l'heure (l'horloge parlante c'est le 3699!).
Conclusions
Il ne suffit pas de superviser un S.I pour « dormir » tranquille et assurer des services de qualité à vos utilisateurs et clients. La maintenance d'un S.I passe aussi par tout un tas d'opérations et de contrôles qui ne peuvent pas être effectuées automatiquement ou à distance. La discipline est le maître mot d'une organisation bien huilée !
Important : faites un compte-rendu systématique de toutes ces opérations de « maintenance » et de ces contrôles, consignez ces résultats afin que vous puissiez les produire le jour où ce sera nécessaire (audit qualité par exemple).
Alors, prêts à passer une bonne semaine ?