Monitoring et Dépannage des Applications sur Kubernetes

Dans le monde des applications modernes, la simple mise en production ne suffit pas. Pour garantir la robustesse, la performance et la disponibilité de nos services, il est impératif de pouvoir observer leur comportement en temps réel et de réagir rapidement en cas de problème. Sur Kubernetes, un environnement dynamique et distribué, cette capacité à monitorer et dépanner devient non seulement cruciale, mais aussi plus complexe en raison de l'abstraction et de la nature éphémère des ressources.

Cette leçon vous guidera à travers les concepts fondamentaux, les outils et les bonnes pratiques pour surveiller efficacement vos applications et diagnostiquer les problèmes sur Kubernetes.

1. Introduction : Pourquoi Monitorer et Dépanner sur Kubernetes ?

Kubernetes est une plateforme orchestrée qui gère des milliers, voire des millions de conteneurs, sur des centaines de nœuds. Bien que ses mécanismes d'auto-réparation et de planification soient puissants, ils ne peuvent pas résoudre tous les problèmes. Une application mal configurée, un bug, une saturation des ressources ou une dépendance externe défaillante peuvent entraîner des pannes ou des dégradations de service.

Le monitoring et le dépannage sont essentiels pour :

Assurer la disponibilité : Détecter et résoudre les pannes avant qu'elles n'affectent les utilisateurs.
Optimiser les performances : Identifier les goulots d'étranglement et les inefficacités.
Garantir la scalabilité : Comprendre les besoins en ressources pour s'adapter à la charge.
Réduire les coûts : Éviter la sur-provisionnement de ressources inutilisées.
Améliorer l'expérience utilisateur : Maintenir une application fluide et réactive.
Débugger efficacement : Comprendre la cause racine des problèmes complexes dans un environnement distribué.

Dans cette leçon, nous explorerons comment collecter des métriques, des logs et des traces, comment les visualiser et les analyser, et quelles stratégies adopter pour diagnostiquer et résoudre les problèmes courants sur Kubernetes.

2. Les Fondamentaux de l'Observabilité sur Kubernetes

L'observabilité est la capacité à comprendre l'état interne d'un système en examinant les données qu'il expose. Sur Kubernetes, cette observabilité repose principalement sur trois piliers : les métriques, les logs et les traces.

2.1. Les Piliers de l'Observabilité

Métriques : "Que se passe-t-il actuellement ?"
- Les métriques sont des valeurs numériques agrégées qui mesurent le comportement d'un système au fil du temps (ex: utilisation CPU, mémoire, nombre de requêtes HTTP par seconde, latence des requêtes).
- Elles sont idéales pour visualiser des tendances, détecter des anomalies et déclencher des alertes.
- Exemples : http_requests_total, container_cpu_usage_seconds_total, node_memory_utilization.
Logs : "Qu'est-il arrivé ?"
- Les logs sont des enregistrements d'événements discrets (messages textuels) générés par les applications ou les composants du système (ex: INFO, WARN, ERROR d'une application, messages de démarrage/arrêt d'un conteneur).
- Ils sont cruciaux pour le diagnostic détaillé et le débogage d'incidents spécifiques.
- Exemples : "User authenticated successfully", "Database connection failed", "Pod scheduling failed".
Traces : "Comment ma requête a-t-elle traversé le système ?"
- Les traces (ou distributed tracing) suivent le chemin d'une seule requête à travers de multiples services ou composants dans une architecture distribuée (microservices). Chaque étape est un span.
- Elles sont précieuses pour identifier les goulots d'étranglement dans les systèmes distribués et comprendre les flux d'exécution complexes.

2.2. Outils et Concepts Clés

Pour implémenter ces piliers sur Kubernetes, plusieurs outils open-source sont devenus des standards de facto :

Pour les Métriques : Prometheus & Grafana
- Prometheus : Système de surveillance et d'alerte, collecte les métriques par "pull" (les cible et les extrait) et les stocke dans une base de données temporelle.
- Grafana : Outil de visualisation de données multi-sources. Il permet de créer des tableaux de bord interactifs à partir des métriques collectées par Prometheus (ou d'autres sources).
Pour les Logs : EFK/ELK Stack
- Fluentd / Fluent Bit : Agents de collecte de logs qui s'exécutent sur chaque nœud Kubernetes et transmettent les logs des conteneurs. Fluent Bit est une version plus légère de Fluentd.
- Elasticsearch : Moteur de recherche et d'analyse distribué, idéal pour l'indexation et la recherche rapide dans de gros volumes de logs.
- Kibana : Interface utilisateur web pour explorer, visualiser et analyser les données stockées dans Elasticsearch.
Pour les Traces : OpenTelemetry, Jaeger & Zipkin
- OpenTelemetry : Spécification et ensemble d'outils pour instrumenter, générer, collecter et exporter des données de télémétrie (métriques, logs, traces).
- Jaeger / Zipkin : Systèmes de traçage distribué qui reçoivent les traces exportées et permettent de les visualiser et de les analyser.
Outils natifs Kubernetes : kubectl top, kubectl logs, kubectl describe, kubectl events, kubectl exec.

3. Monitoring des Métriques avec Prometheus et Grafana

Prometheus et Grafana forment un tandem puissant pour la surveillance des métriques sur Kubernetes.

3.1. Prometheus : Collecte et Stockage

Prometheus fonctionne sur un modèle de pull, ce qui signifie qu'il va chercher les métriques (les "scrape") auprès de ses cibles configurées (les "targets"). Pour les applications sur Kubernetes, cela implique généralement que les applications exposent un endpoint HTTP (/metrics par convention) où Prometheus peut venir récupérer les métriques.

Mécanismes de Découverte de Services (Service Discovery) : Kubernetes est très dynamique. Prometheus utilise l'API Kubernetes pour découvrir automatiquement les cibles à surveiller (par exemple, tous les Pods avec une certaine annotation ou tous les Services).
Exposition des Métriques :
- Applications : Utilisation de bibliothèques clientes Prometheus (disponibles pour la plupart des langages de programmation) pour instrumenter le code de l'application et exposer des métriques personnalisées.
- Composants Kubernetes : kube-state-metrics exporte des métriques sur l'état des objets Kubernetes (Pods, Deployments, Nodes, etc.).
- Nœuds : node-exporter collecte des métriques système (CPU, mémoire, disque, réseau) de chaque nœud.

Exemple de Code : Exposer des métriques Prometheus dans une application Node.js

Voici comment une application simple en Node.js pourrait exposer des métriques Prometheus.

// app.js
const express = require('express');
const client = require('prom-client'); // Bibliothèque client Prometheus pour Node.js

const app = express();
const port = 3000;

// Crée un registre de métriques par défaut
const register = new client.Registry();

// Activer la collecte de métriques par défaut
client.collectDefaultMetrics({ register });

// Créer un compteur pour le nombre total de requêtes
const httpRequestCounter = new client.Counter({
  name: 'http_requests_total',
  help: 'Total number of HTTP requests',
  labelNames: ['method', 'route', 'status_code'],
  registers: [register],
});

// Créer un histogramme pour la durée des requêtes
const httpRequestDurationMicroseconds = new client.Histogram({
  name: 'http_request_duration_microseconds',
  help: 'Duration of HTTP requests in microseconds',
  labelNames: ['method', 'route', 'status_code'],
  buckets: [0.1, 5, 15, 50, 100, 200, 300, 400, 500, 1000, 2000, 5000, 10000],
  registers: [register],
});

// Middleware pour instrumenter les requêtes
app.use((req, res, next) => {
  const end = httpRequestDurationMicroseconds.startTimer(); // Démarre le timer
  res.on('finish', () => { // Quand la réponse est envoyée
    const labels = {
      method: req.method,
      route: req.path,
      status_code: res.statusCode,
    };
    httpRequestCounter.inc(labels); // Incrémente le compteur
    end(labels); // Arrête le timer et enregistre la durée
  });
  next();
});

// Endpoint simple
app.get('/', (req, res) => {
  res.send('Hello Kubernetes!');
});

// Endpoint pour les métriques Prometheus
app.get('/metrics', async (req, res) => {
  res.set('Content-Type', register.contentType);
  res.end(await register.metrics());
});

app.listen(port, () => {
  console.log(`Application listening at http://localhost:${port}`);
  console.log(`Metrics available at http://localhost:${port}/metrics`);
});

Pour que Prometheus puisse récupérer ces métriques, vous devrez :

Containeriser cette application.
La déployer sur Kubernetes.
Créer un Service Kubernetes qui expose le port 3000 de votre application.
Configurer Prometheus pour qu'il découvre ce Service et scrape l'endpoint /metrics du Pod. Cela se fait généralement en ajoutant des annotations au Service ou au Pod, que Prometheus utilisera pour son ServiceMonitor ou PodMonitor (si vous utilisez le Prometheus Operator).

3.2. Grafana : Visualisation et Alerting

Grafana est l'interface utilisateur par excellence pour visualiser les métriques de Prometheus. Il se connecte à Prometheus comme source de données et permet de construire des tableaux de bord complexes avec des graphiques, des jauges, des tables, etc.

Tableaux de bord : Vous pouvez créer des tableaux de bord personnalisés pour surveiller le CPU, la mémoire, le trafic réseau, les requêtes HTTP, la latence et toute autre métrique collectée. Grafana.com propose également une vaste bibliothèque de tableaux de bord pré-configurés (ex: pour NGINX, Node-exporter, Kubernetes Cluster Monitoring).
Alerting : Grafana peut également être configuré pour déclencher des alertes basées sur des seuils de métriques. Ces alertes peuvent être envoyées via des canaux variés (email, Slack, PagerDuty, etc.), souvent via Prometheus Alertmanager.

L'interaction se fait via une interface graphique intuitive, où l'on utilise le langage de requête de Prometheus, PromQL, pour interroger les métriques et les afficher.

4. Gestion Centralisée des Logs avec l'EFK Stack (Elasticsearch, Fluentd/Fluent Bit, Kibana)

Les conteneurs sont éphémères et leurs logs peuvent disparaître avec eux. Centraliser les logs est donc une nécessité absolue pour le dépannage sur Kubernetes. L'EFK Stack est une solution populaire.

4.1. Fluentd / Fluent Bit : Collecte et Envoi

Rôle : Collecter les logs de tous les conteneurs et nœuds Kubernetes et les envoyer vers une destination centrale (Elasticsearch dans ce cas).
Déploiement : Généralement déployé en tant que DaemonSet sur Kubernetes. Cela signifie qu'une instance de Fluentd ou Fluent Bit s'exécutera sur chaque nœud de votre cluster, collectant les logs locaux.
Fonctionnement : Les runtimes de conteneurs (comme Docker ou containerd) redirigent la sortie standard (stdout) et l'erreur standard (stderr) des applications vers des fichiers sur le nœud hôte. Fluentd/Fluent Bit surveille ces fichiers, enrichit les logs avec des métadonnées Kubernetes (nom du pod, namespace, etc.) et les transmet.

4.2. Elasticsearch : Indexation et Recherche

Rôle : Stocker de manière distribuée les logs collectés et permettre des recherches rapides et complexes.
Fonctionnement : Elasticsearch indexe les logs, les rendant interrogeables en temps réel. Chaque log est traité comme un document JSON.
Scalabilité : Conçu pour la scalabilité horizontale, il peut gérer d'énormes volumes de données.

4.3. Kibana : Visualisation et Exploration

Rôle : Interface utilisateur web pour interroger, visualiser et analyser les logs stockés dans Elasticsearch.
Fonctionnalités :
- Discover : Explorer les logs bruts, filtrer, rechercher.
- Visualize : Créer des graphiques (histogrammes, camemberts) à partir des logs.
- Dashboards : Combiner plusieurs visualisations pour créer des tableaux de bord de logs.
- Dev Tools : Interagir directement avec l'API Elasticsearch.

Exemple Conceptuel : Configuration Fluent Bit pour collecter les logs

Voici un extrait simplifié de la configuration d'un DaemonSet pour Fluent Bit, montrant comment il est monté pour lire les logs et où il les envoie.

# fluent-bit-daemonset.yaml (extrait simplifié)
apiVersion: apps/v1
kind: DaemonSet
metadata:
  name: fluent-bit
  namespace: kube-system
  labels:
    k8s-app: fluent-bit
spec:
  selector:
    matchLabels:
      k8s-app: fluent-bit
  template:
    metadata:
      labels:
        k8s-app: fluent-bit
    spec:
      containers:
      - name: fluent-bit
        image: fluent/fluent-bit:1.9
        ports:
          - containerPort: 24224
        volumeMounts:
          - name: varlog
            mountPath: /var/log
          - name: varlibdockercontainers
            mountPath: /var/lib/docker/containers # Ou /var/log/containers pour containerd
            readOnly: true
          - name: fluentbit-config
            mountPath: /fluent-bit/etc/
        env:
          - name: KUBERNETES_HOST
            value: "kubernetes.default.svc.cluster.local" # Ou l'adresse de votre service Elasticsearch
          - name: KUBERNETES_PORT
            value: "9200" # Port d'Elasticsearch
          # ... autres variables d'environnement pour la configuration
      volumes:
        - name: varlog
          hostPath:
            path: /var/log
        - name: varlibdockercontainers
          hostPath:
            path: /var/lib/docker/containers # Ou le chemin pour containerd
        - name: fluentbit-config
          configMap:
            name: fluent-bit-config # ConfigMap contenant fluent-bit.conf

Le ConfigMap fluent-bit-config contiendrait la logique d'entrée (input), de filtrage (filter) et de sortie (output) des logs, spécifiant la source des logs (ex: tail sur /var/log/containers/*.log) et la destination (ex: elasticsearch).

5. Dépannage des Applications sur Kubernetes

Le dépannage sur Kubernetes est une compétence essentielle. Une approche méthodique combinée à l'utilisation judicieuse des outils natifs peut faire toute la différence.

5.1. Approche Méthodique du Dépannage

Observer :
- Commencez par les alertes s'il y en a.
- Consultez les tableaux de bord Grafana (métriques) pour identifier des anomalies générales (CPU/mémoire élevés, requêtes en échec).
- Vérifiez les logs dans Kibana pour les messages d'erreur ou d'avertissement récents.
- Utilisez kubectl get events pour voir les événements récents dans le cluster.
Diagnostiquer :
- Isoler le problème : Est-ce un seul pod, un déploiement entier, un service, un nœud, ou tout le cluster ?
- Vérifier la configuration : Les ConfigMaps et Secrets sont-ils correctement montés et lus ?
- Dépendances : Le service dépend-il d'une base de données, d'un autre microservice, d'une API externe ? Sont-ils sains ?
- Ressources : Manque-t-il de CPU, mémoire, ou espace disque sur le nœud ?
- Réseau : La connectivité entre les services fonctionne-t-elle ? Les règles de Network Policy sont-elles en cause ?
- Probes : Les liveness et readiness probes sont-elles correctement configurées ?
Corriger :
- Redémarrer le Pod ou le Deployment.
- Mettre à jour la configuration (ConfigMap, Secret).
- Déployer une nouvelle version de l'application.
- Ajuster les requêtes/limites de ressources.
- Mettre à jour la version de l'image de conteneur.
Vérifier :
- Confirmer que la correction a résolu le problème en observant les métriques et les logs.

5.2. Outils Natifs Kubernetes pour le Dépannage

Le CLI kubectl est votre meilleur ami pour le dépannage.

| Commande Kubectl | Description et Cas d'Utilisation | | :-------------------------------- | :-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | | kubectl get pods -o wide | Liste tous les pods avec des informations étendues (adresse IP, nœud hôte, état). Utile pour voir rapidement l'état et l'emplacement des pods. | | kubectl describe pod <nom-pod> | Fournit des informations détaillées sur un pod : événements (création, démarrage, arrêt, échecs), conditions, volumes montés, ressources demandées/limitées, liveness et readiness probes. Indispensable pour comprendre pourquoi un pod ne démarre pas ou se crash. | | kubectl logs <nom-pod> | Affiche les logs du conteneur principal du pod. Ajoutez -c <nom-conteneur> pour un conteneur spécifique, -f pour suivre les logs en temps réel, --since=1h pour les logs de la dernière heure. Première étape pour débugger les erreurs applicatives. | | kubectl exec -it <nom-pod> -- bash | Ouvre une session shell interactive à l'intérieur d'un conteneur. Utile pour inspecter le système de fichiers, vérifier les configurations, les dépendances ou exécuter des commandes de diagnostic (ping, curl, etc.) directement depuis le conteneur. Utilisez -- pour séparer les options de kubectl exec de la commande à exécuter dans le conteneur. | | kubectl top pod | Affiche l'utilisation CPU et mémoire des pods. Requiert le Metrics Server installé dans le cluster. Utile pour identifier les pods gourmands en ressources. | | kubectl top node | Affiche l'utilisation CPU et mémoire des nœuds. Utile pour identifier les nœuds sous pression. | | kubectl get events | Affiche les événements récents dans le cluster (création de ressources, échecs de planification, pull d'images, etc.). --field-selector type!=Normal pour filtrer les événements anormaux. Très utile pour comprendre ce qui se passe au niveau du cluster. | | kubectl port-forward <nom-pod> <local-port>:<pod-port> | Transfère un port local vers un port d'un pod. Permet d'accéder directement à une application ou un service s'exécutant dans un pod depuis votre machine locale, même si ce service n'est pas exposé via un Service Kubernetes. Utile pour le débogage local. | | kubectl debug -it <resource-type>/<name> --image=<debug-image> | Crée un nouveau pod ou un conteneur temporaire (ephemeral container) à côté d'un pod existant avec des outils de débogage. Moins courant mais très puissant pour des diagnostics avancés sans modifier le pod original. (Disponibilité varie selon la version de Kubernetes). | | kubectl get all | Liste toutes les ressources principales (pods, services, deployments, replicasets) dans le namespace courant. Utile pour un aperçu rapide. |

5.3. Scénarios Courants de Dépannage

Pod en Pending :
- Cause : Pas assez de ressources disponibles (CPU, mémoire) sur les nœuds, problème de scheduler, ou PersistentVolumeClaim non provisionné.
- Diagnostic : kubectl describe pod <nom-pod> (rechercher Events pour "FailedScheduling"), kubectl get events, kubectl top node.
Pod en CrashLoopBackOff :
- Cause : L'application à l'intérieur du conteneur démarre et se crashe répétitivement (erreur applicative, manque de dépendances, mauvaise configuration).
- Diagnostic : kubectl logs <nom-pod>, kubectl describe pod <nom-pod> (voir les derniers State et Reason). kubectl exec pour inspecter l'environnement.
Pod en Evicted :
- Cause : Le nœud manque de ressources (généralement espace disque ou mémoire) et Kubernetes a expulsé des pods pour stabiliser le nœud.
- Diagnostic : kubectl describe node <nom-node>, kubectl top node. Vérifier l'utilisation du disque sur le nœud.
Problèmes d'accès à un Service :
- Cause : Service mal configuré, Selector qui ne correspond pas aux labels des pods, règles de Network Policy, firewall, Ingress mal configuré.
- Diagnostic : kubectl describe service <nom-service>, kubectl get endpoints <nom-service> (vérifier si les pods sont listés), kubectl get networkpolicy, kubectl describe ingress <nom-ingress>.
Problèmes de ConfigMap/Secret :
- Cause : Le ConfigMap/Secret n'existe pas, n'est pas dans le bon namespace, les clés sont incorrectes, ou il n'est pas monté correctement dans le pod.
- Diagnostic : kubectl get configmap <nom-cm>, kubectl get secret <nom-secret>, kubectl describe pod <nom-pod> (vérifier Volumes et Env). kubectl exec pour vérifier si les fichiers sont présents dans le conteneur.

6. Stratégies Avancées et Bonnes Pratiques

Pour aller au-delà des bases et construire un système robuste :

Mettre en place des Alertes Pertinentes : Ne pas alerter sur tout et n'importe quoi. Concentrez-vous sur les métriques clés (CPU, mémoire, taux d'erreur HTTP, latence) qui indiquent un problème réel affectant le service. Utilisez Alertmanager pour regrouper et router les alertes.
Health Checks Approfondis (Liveness/Readiness Probes) :
- Liveness Probe : Indique si un conteneur est vivant. Si la probe échoue, Kubernetes redémarre le conteneur. Doit être simple et rapide.
- Readiness Probe : Indique si un conteneur est prêt à recevoir du trafic. Si la probe échoue, le conteneur est retiré du Service et ne reçoit plus de trafic. Utile pour les dépendances externes (DB, autres services).
Gestion des Erreurs et Rétries dans l'Application : Concevez vos applications pour qu'elles soient résilientes aux échecs temporaires (ex: connectivité DB perdue) en implémentant des mécanismes de rétries avec backoff exponentiel.
Adopter l'Observabilité Complète (Logs, Métriques, Traces) : Intégrez les trois piliers dès la conception de vos applications. Cela facilite grandement le débogage des architectures de microservices.
Pratiquer les Post-Mortems : Après chaque incident, même mineur, menez un post-mortem. Identifiez la cause racine, les leçons apprises et les actions préventives pour éviter la récidive. C'est une boucle d'apprentissage continue.
Standardiser les Logs : Utilisez un format de log structuré (ex: JSON) pour faciliter l'analyse automatique et la recherche dans Elasticsearch/Kibana.

7. Conclusion et Résumé

Le monitoring et le dépannage ne sont pas de simples compléments, mais des composantes vitales de la gestion d'applications sur Kubernetes. Ils vous permettent de transformer des boîtes noires en systèmes transparents, où vous pouvez comprendre ce qui se passe, réagir rapidement aux problèmes et anticiper les besoins futurs.

Nous avons couvert les piliers de l'observabilité (métriques, logs, traces) et exploré les outils standards de l'industrie comme Prometheus, Grafana, Elasticsearch, Fluentd et Kibana. Vous avez également appris des stratégies de dépannage méthodiques et des commandes kubectl essentielles pour diagnostiquer les problèmes courants.

Maîtriser ces compétences vous permettra non seulement d'opérer des applications stables et performantes sur Kubernetes, mais aussi de gagner en confiance et en rapidité face aux inévitables imprévus d'un environnement distribué. Continuez à explorer, à expérimenter et à perfectionner vos compétences en observant et en interagissant avec vos propres déploiements.