Kubernetes Monitoring - Self-Healing - KI-Ops

Kubernetes Monitoring: Das klassische Problem

Sie sehen: "Pod ist down." Dann beginnt das Debugging-Theater:

$ kubectl get pods -n production
NAME                    READY   STATUS              RESTARTS   AGE
api-service-xy81f       0/1     CrashLoopBackOff    15         2h

$ kubectl describe pod api-service-xy81f -n production
# 2000 Zeilen lesen, Events studieren, Logs checken...

$ kubectl logs api-service-xy81f -n production --previous
# Vielleicht gibt es einen Hinweis?

$ kubectl get nodes
# Ist es der Node? Resource-Issue?

30 Minuten später haben Sie die Antwort, die KI-Ops in 5 Sekunden findet.

Wie KI-Ops K8s diagnostiziert

Ein einzelner Befehl erfasst alles:

$ ki-ops analyze
[Analyzing cluster...]

Cluster: production (v1.28.1, 47 nodes, 1247 pods)
├─ Nodes: 47 ready, 0 notready, 0 unknown
├─ Namespaces: 12
├─ Workloads: 84 Deployments, 34 StatefulSets, 12 DaemonSets
├─ Storage: 89 PVCs, 3 PVs
└─ Networking: 156 Services, 28 Ingresses

🔴 4 PROBLEME ERKANNT:

1. api-service-xy81f (ns: production)
   Status: CrashLoopBackOff (15 restarts in 2h)
   Root Cause: OOMKilled (Memory Limit: 512Mi, Peak: 687Mi)

   Fix Befehl:
   $ kubectl set resources deployment api-service -n production \
     --limits memory=1Gi --requests memory=750Mi

   Zusätzlich prüfen:
   $ kubectl top pod api-service-xy81f -n production --containers
   (um Memory-Leak zu detektieren)

2. postgres-replica-2 (ns: databases)
   Status: Pending (2h)
   Root Cause: Insufficient memory on nodes
     Available: 2Gi, Required: 4Gi

   Optionen:
   a) Scale down andere Deployments
   b) Add Node zu cluster
   c) Prüfen ob alte PVCs freigegeben werden können

3. backup-job-1234 (ns: tools)
   Status: Failed (exit code 127)
   Root Cause: Image "backup-tool:v2.3" existiert nicht
     Available: v2.2, v2.1, v2.0

   Fix:
   $ kubectl patch job backup-job -n tools \
     -p '{"spec":{"template":{"spec":{"containers":[{"name":"backup","image":"backup-tool:v2.2"}]}}}}'

4. nginx-ingress-ctrl (ns: ingress-nginx)
   Status: High Error Rate (0.5% → 4.2%)
   Issue: 128 "503 Service Unavailable" errors in last 10min
   Cause: Upstream backend (api-service) ist intermittently down

   Abhängiges Problem: #1 oben
   Status: Wird automatisch behoben wenn #1 gelöst ist

Spezifische K8s-Pattern-Erkennung

CrashLoopBackOff Automatische Analyse

Pod: my-app-abc123
Error Logs zeigen:
  "java.lang.OutOfMemoryError: Java heap space"

→ Root Cause: Heap Memory zu klein
→ Suggestion: requests.memory erhöhen oder Heap Flags prüfen
→ Auto-Befehl: kubectl set resources deploy my-app --requests memory=2Gi

ImagePullBackOff Detection

Pod: worker-job-xyz
Error:
  "Failed to pull image 'my-registry.io/worker:latest'"
  "unauthorized: authentication required"

→ Root Cause: ImagePullSecret fehlt oder ist falsch
→ Lösung:
  a) Secret erstellen: kubectl create secret docker-registry gcr-secret ...
  b) In Deployment referenzieren: imagePullSecrets: [name: gcr-secret]
  c) Oder: Private Registry Auth prüfen

Pending Pods Ursachen-Analyse

Pod: postgres-replica-2
Status: Pending (warum?)

Gründe (KI-Ops evaluiert alle):
  ✓ Node Affinity/Anti-Affinity Constraint nicht erfüllbar?
    → Check: topology.kubernetes.io/zone label mismatch
  ✓ PVC Binding failed?
    → PVC Status: Pending (StorageClass existiert nicht)
  ✓ Insufficient Resources?
    → Required: CPU 2, Memory 4Gi
    → Available: CPU 0.5, Memory 2Gi
  ✓ Priority Preemption?
    → Pod Priority höher setzen oder konfliktierenden Pod runterfahren

→ Top 3 Fixes vorschlagen + Befehle

Node Pressure Detection

Node: worker-3
Status: MemoryPressure (Memory: 97% used, 1.2Gi free)

Pods auf diesem Node:
├─ redis (1Gi) → ggf. migrieren?
├─ cache-service (800Mi)
└─ monitoring (200Mi)

Empfehlung:
1. Drain Node: kubectl drain worker-3 --ignore-daemonsets
2. Add Resource: Upgrade Node oder add neuen
3. Oder: Scale down services mit Replicas auf anderen Nodes

HPA & Scaling Insights

HPA Status für api-service:
├─ Current Replicas: 12
├─ Min/Max: 3/50
├─ Target CPU: 70%
├─ Current CPU: 68.5%
├─ Target Memory: (nicht definiert) ← WARNING
└─ Trend: CPU climbing (65% → 68% in 3min)

Probleme erkannt:
  ✗ Memory-basiertes Scaling fehlt
    → HPA wird nicht reagieren wenn Memory vollläuft
  ✗ Scale-down Delay lang (300s)
    → Viele Replicas unnecessary teuer
  ✗ Metrics refresh lag 60s
    → Zyklische CPU-Spikes sichtbar

Verbesserungen:
$ kubectl patch hpa api-service \
  -p '{"spec":{"metrics":[{"type":"Resource","resource":{"name":"memory","target":{"type":"Utilization","averageUtilization":70}}}]}}'

Cluster Health Dashboard

Last analyzed: 14:45:22 UTC

🟢 NODES (47/47 ready)
    5 nodes near memory pressure (>85% used)
    2 nodes with high disk usage (>90%)

🟢 PODS (1247 total)
    47 pending
    12 crashloop/failed
    8 high restart count (>10 restarts/24h)

🟠 WORKLOADS (84 deployments)
    3 deployments with 0 replicas running
    7 deployments missing resource limits
    12 deployments with outdated images (>7 days old)

🔵 STORAGE (89 PVCs)
    8 PVCs >80% capacity
    3 PVCs in Failed state
    2 PVC mounts als read-only (filesystem corrupt?)

🟢 NETWORKING
    28 ingresses OK
    2 ingresses with certificate expiry warning (< 14 days)
    156 services balanced

Was Sie mit K8s-Monitoring gewinnen

Sofortige Diagnose: Keine manuellen kubectl describe Sessions mehr
Automations-Ready: Bekomme exakte Befehle zum Copy/Paste
Proaktives Monitoring: Erkenne Probleme VOR Crash (HPA lag, memory creep, etc.)
Team-Onboarding: Junior Engineers können Cluster-Fehler selbst lösen
Audit-Trail: Alle kubectl-Befehle sind gelogged (wenn Sie Pro/Enterprise nutzen)

Start: ki-ops analyze in Ihrem Cluster. Kostenlos.

Vollständiger Cluster-Überblick in Sekunden