Alle Signale an einem Ort

Verbinden Sie Ihre gesamte Observability-Infrastruktur. Logs, Metriken und Traces automatisch korreliert.

query_lokiquery_grafanacorrelate_traces

Das Observability-Problem: Silos überall

Modern Kubernetes-Deployments haben sie oft:

  • Logs: In Loki, ELK oder Splunk
  • Metriken: In Prometheus oder Grafana Cloud
  • Traces: In Jaeger, Zipkin oder Datadog
  • Cluster-Daten: In etcd, nur erreichbar via kubectl

Wenn etwas kaputtgeht, springen Sie zwischen 4-5 verschiedenen UIs herum. Die gleiche Kontext-Information ist überall verteilt. Die meiste Zeit verbringen Sie damit zu suchen, nicht zu fixen.

KI-Ops vereinigt alle Signale in einer kohärenten Analyse.

OpenTelemetry-native Architektur

KI-Ops ist von Grund auf für OpenTelemetry (OTel) gebaut:

# Ihre OTel Collector Konfiguration
receivers:
  otlp:
    protocols:
      grpc: {}
      http: {}
  prometheus: {}
  loki: {}

exporters:
  otlp:
    endpoint: "ki-ops-receiver:4317"

service:
  pipelines:
    traces: [otlp] -> [otlp]
    metrics: [prometheus] -> [otlp]
    logs: [loki] -> [otlp]

Keine Vendor-Lock-in. Alle Standards-Tools sind unterstützt:

| Signal | Unterstützte Systeme | |--------|----------------------| | Logs | Loki, ELK, Splunk, CloudWatch, Stackdriver, syslog, plain files | | Metriken | Prometheus, Grafana Cloud, Datadog, New Relic, CloudWatch | | Traces | Jaeger, Zipkin, Tempo, Datadog APM, Honeycomb | | Cluster | kubectl (lokal), KKE, EKS, GKE, OCP |

Signal-Korrelation: Ein konkretes Beispiel

Sie haben einen Latency-Spike in Ihrer API. Das System findet sofort:

🔴 INCIDENT: Latency P99 von 50ms auf 2500ms (17:23:45 UTC)

📊 METRIKEN (Prometheus)
  ├─ api-service CPU: 15% → 89% in 2 min
  ├─ api-service Memory: 650MB → 1.2GB
  ├─ Outgoing Connections zu Postgres: 120 → 45 (dropped!)
  └─ Error Rate: 0.1% → 12%

📝 LOGS (Loki)
  ├─ 14:23:47 [api-service] "dial tcp 10.0.2.15:5432: i/o timeout"
  ├─ 14:23:52 [api-service] "query timeout: context deadline exceeded"
  ├─ 14:23:55 [postgres] "too many connections (100/100)"
  └─ 14:24:01 [postgres] "some connections closed by client"

🔗 TRACES (Jaeger)
  Request ID: "abc123xyz"
  ├─ api-service.HandleOrder (45ms) → Span 1
  │   └─ postgres.Query (2350ms, timeout!) → Span 2
  │       └─ tcp.connect (2340ms) → BLOCKED
  └─ circuit_breaker [OPEN] after 3 failures

✅ ROOT CAUSE IDENTIFIED
Postgres Connection Pool exhausted.
  → 47 Long-Running Queries blockieren Connection Pool
  → Neue Requests können nicht verbinden
  → API Timeouts cascade zu Postgres Error

Aufgelöst in 30 Sekunden. Ohne manuelles Switching zwischen UIs.

Praktische Integration: 3 einfache Befehle

1. Verbindung zu Ihren Log-Systemen

# Loki
ki-ops connect --logs loki \
  --loki-url http://loki:3100

# Oder Splunk
ki-ops connect --logs splunk \
  --splunk-url https://splunk.company.com \
  --splunk-hec-token $TOKEN

# Oder ELK
ki-ops connect --logs elasticsearch \
  --es-url http://elasticsearch:9200

2. Metrik-Quellen hinzufügen

ki-ops connect --metrics prometheus \
  --prometheus-url http://prometheus:9090

# Pro Tipp: Multiple Prometheus-Instanzen für HA
ki-ops connect --metrics prometheus \
  --prometheus-url http://prom1:9090 \
  --prometheus-url http://prom2:9090

3. Traces aktivieren (Optional)

ki-ops connect --traces jaeger \
  --jaeger-url http://jaeger:16686

Danach? Alles automatisch korreliert.

Trace-Context Propagation

KI-Ops nutzt W3C Trace Context Standard:

  • Jeder Request trägt eindeutige trace-id
  • Die gleiche trace-id erscheint in Logs, Metriken und Traces
  • Claude AI verfolgt die Request-Journey durch alle Services
trace-id: "4bf92f3577b34da6a3ce929d0e0e4736"

api-service [TRACE 1: 45ms]
  └──> postgres-service [TRACE 2: 2340ms]  ← Bottleneck erkannt!
         └──> network [LATENCY SPIKE]      ← Zeigt genaue Stelle

Performance & Datenschutz

  • Keine Cloud-Upload: Alle Daten bleiben lokal (Free & Pro)
  • Streaming Processing: Logs/Metriken werden on-the-fly analysiert, nicht gepuffert
  • Selective Query: Nur relevante Log-Einträge werden abgerufen (Filter-Optimierung)
  • Query-Caching: Häufige Abfragen gecacht, reduziert Prometheus/Loki-Load

Was Sie gewinnen

  • Single Pane of Glass: Alle Daten in einer Analyse
  • Vendor-Unabhängigkeit: Wechsel zwischen Tools ohne Reconfig
  • Schneller Debugging: Trace Request von Entry bis Exit automatisch
  • Bessere Kontextmeldungen: Der LLM sieht die volle Story, nicht Snippets
  • Zukunftssicher: Neue Log/Metric-Systeme einfach hinzufügen

Probieren Sie es aus: ki-ops analyze --with-traces --with-metrics startet die volle Korrelations-Engine.

Jetzt ausprobieren

Starte mit dem Free-Tier und analysiere deinen Cluster in unter 5 Minuten.

Kostenlos starten