Vollständiger Cluster-Überblick in Sekunden
Automatische Diagnostik aller Pods, Deployments und Nodes. Typische K8s-Fehler sofort erkannt und behoben.
run_kubectlget_podsdescribe_nodecheck_hpa
Kubernetes Monitoring: Das klassische Problem
Sie sehen: "Pod ist down." Dann beginnt das Debugging-Theater:
$ kubectl get pods -n production
NAME READY STATUS RESTARTS AGE
api-service-xy81f 0/1 CrashLoopBackOff 15 2h
$ kubectl describe pod api-service-xy81f -n production
# 2000 Zeilen lesen, Events studieren, Logs checken...
$ kubectl logs api-service-xy81f -n production --previous
# Vielleicht gibt es einen Hinweis?
$ kubectl get nodes
# Ist es der Node? Resource-Issue?
30 Minuten später haben Sie die Antwort, die KI-Ops in 5 Sekunden findet.
Wie KI-Ops K8s diagnostiziert
Ein einzelner Befehl erfasst alles:
$ ki-ops analyze
[Analyzing cluster...]
Cluster: production (v1.28.1, 47 nodes, 1247 pods)
├─ Nodes: 47 ready, 0 notready, 0 unknown
├─ Namespaces: 12
├─ Workloads: 84 Deployments, 34 StatefulSets, 12 DaemonSets
├─ Storage: 89 PVCs, 3 PVs
└─ Networking: 156 Services, 28 Ingresses
🔴 4 PROBLEME ERKANNT:
1. api-service-xy81f (ns: production)
Status: CrashLoopBackOff (15 restarts in 2h)
Root Cause: OOMKilled (Memory Limit: 512Mi, Peak: 687Mi)
Fix Befehl:
$ kubectl set resources deployment api-service -n production \
--limits memory=1Gi --requests memory=750Mi
Zusätzlich prüfen:
$ kubectl top pod api-service-xy81f -n production --containers
(um Memory-Leak zu detektieren)
2. postgres-replica-2 (ns: databases)
Status: Pending (2h)
Root Cause: Insufficient memory on nodes
Available: 2Gi, Required: 4Gi
Optionen:
a) Scale down andere Deployments
b) Add Node zu cluster
c) Prüfen ob alte PVCs freigegeben werden können
3. backup-job-1234 (ns: tools)
Status: Failed (exit code 127)
Root Cause: Image "backup-tool:v2.3" existiert nicht
Available: v2.2, v2.1, v2.0
Fix:
$ kubectl patch job backup-job -n tools \
-p '{"spec":{"template":{"spec":{"containers":[{"name":"backup","image":"backup-tool:v2.2"}]}}}}'
4. nginx-ingress-ctrl (ns: ingress-nginx)
Status: High Error Rate (0.5% → 4.2%)
Issue: 128 "503 Service Unavailable" errors in last 10min
Cause: Upstream backend (api-service) ist intermittently down
Abhängiges Problem: #1 oben
Status: Wird automatisch behoben wenn #1 gelöst ist
Spezifische K8s-Pattern-Erkennung
CrashLoopBackOff Automatische Analyse
Pod: my-app-abc123
Error Logs zeigen:
"java.lang.OutOfMemoryError: Java heap space"
→ Root Cause: Heap Memory zu klein
→ Suggestion: requests.memory erhöhen oder Heap Flags prüfen
→ Auto-Befehl: kubectl set resources deploy my-app --requests memory=2Gi
ImagePullBackOff Detection
Pod: worker-job-xyz
Error:
"Failed to pull image 'my-registry.io/worker:latest'"
"unauthorized: authentication required"
→ Root Cause: ImagePullSecret fehlt oder ist falsch
→ Lösung:
a) Secret erstellen: kubectl create secret docker-registry gcr-secret ...
b) In Deployment referenzieren: imagePullSecrets: [name: gcr-secret]
c) Oder: Private Registry Auth prüfen
Pending Pods Ursachen-Analyse
Pod: postgres-replica-2
Status: Pending (warum?)
Gründe (KI-Ops evaluiert alle):
✓ Node Affinity/Anti-Affinity Constraint nicht erfüllbar?
→ Check: topology.kubernetes.io/zone label mismatch
✓ PVC Binding failed?
→ PVC Status: Pending (StorageClass existiert nicht)
✓ Insufficient Resources?
→ Required: CPU 2, Memory 4Gi
→ Available: CPU 0.5, Memory 2Gi
✓ Priority Preemption?
→ Pod Priority höher setzen oder konfliktierenden Pod runterfahren
→ Top 3 Fixes vorschlagen + Befehle
Node Pressure Detection
Node: worker-3
Status: MemoryPressure (Memory: 97% used, 1.2Gi free)
Pods auf diesem Node:
├─ redis (1Gi) → ggf. migrieren?
├─ cache-service (800Mi)
└─ monitoring (200Mi)
Empfehlung:
1. Drain Node: kubectl drain worker-3 --ignore-daemonsets
2. Add Resource: Upgrade Node oder add neuen
3. Oder: Scale down services mit Replicas auf anderen Nodes
HPA & Scaling Insights
HPA Status für api-service:
├─ Current Replicas: 12
├─ Min/Max: 3/50
├─ Target CPU: 70%
├─ Current CPU: 68.5%
├─ Target Memory: (nicht definiert) ← WARNING
└─ Trend: CPU climbing (65% → 68% in 3min)
Probleme erkannt:
✗ Memory-basiertes Scaling fehlt
→ HPA wird nicht reagieren wenn Memory vollläuft
✗ Scale-down Delay lang (300s)
→ Viele Replicas unnecessary teuer
✗ Metrics refresh lag 60s
→ Zyklische CPU-Spikes sichtbar
Verbesserungen:
$ kubectl patch hpa api-service \
-p '{"spec":{"metrics":[{"type":"Resource","resource":{"name":"memory","target":{"type":"Utilization","averageUtilization":70}}}]}}'
Cluster Health Dashboard
Last analyzed: 14:45:22 UTC
🟢 NODES (47/47 ready)
5 nodes near memory pressure (>85% used)
2 nodes with high disk usage (>90%)
🟢 PODS (1247 total)
47 pending
12 crashloop/failed
8 high restart count (>10 restarts/24h)
🟠 WORKLOADS (84 deployments)
3 deployments with 0 replicas running
7 deployments missing resource limits
12 deployments with outdated images (>7 days old)
🔵 STORAGE (89 PVCs)
8 PVCs >80% capacity
3 PVCs in Failed state
2 PVC mounts als read-only (filesystem corrupt?)
🟢 NETWORKING
28 ingresses OK
2 ingresses with certificate expiry warning (< 14 days)
156 services balanced
Was Sie mit K8s-Monitoring gewinnen
- Sofortige Diagnose: Keine manuellen
kubectl describeSessions mehr - Automations-Ready: Bekomme exakte Befehle zum Copy/Paste
- Proaktives Monitoring: Erkenne Probleme VOR Crash (HPA lag, memory creep, etc.)
- Team-Onboarding: Junior Engineers können Cluster-Fehler selbst lösen
- Audit-Trail: Alle kubectl-Befehle sind gelogged (wenn Sie Pro/Enterprise nutzen)
Start: ki-ops analyze in Ihrem Cluster. Kostenlos.
Jetzt ausprobieren
Starte mit dem Free-Tier und analysiere deinen Cluster in unter 5 Minuten.
Kostenlos starten