instrument-distributed-tracing
정보
이 스킬은 개발자가 분산 추적을 위해 OpenTelemetry로 애플리케이션을 계측하는 데 도움을 주며, 자동 및 수동 계측을 모두 다룹니다. 마이크로서비스 간 요청 흐름 추적, 추적 데이터와 로그 및 메트릭 연관, Jaeger나 Tempo 같은 백엔드와의 통합을 가능하게 합니다. 지연 문제 디버깅, 서비스 종속성 이해, 종단 간 성능 측정, 레거시 추적 시스템에서의 마이그레이션에 활용하세요.
빠른 설치
Claude Code
추천npx skills add pjt222/agent-almanac -a claude-code/plugin add https://github.com/pjt222/agent-almanacgit clone https://github.com/pjt222/agent-almanac.git ~/.claude/skills/instrument-distributed-tracingClaude Code에서 이 명령을 복사하여 붙여넣어 스킬을 설치하세요
문서
name: instrument-distributed-tracing description: > Anwendungen mit OpenTelemetry fuer verteiltes Tracing instrumentieren, einschliesslich automatischer und manueller Instrumentierung, Kontextpropagierung, Sampling-Strategien und Integration mit Jaeger oder Tempo. Verwenden, wenn Latenzprobleme in verteilten Systemen debuggt werden, der Request-Fluss ueber Microservices verstanden werden soll, Traces mit Logs und Metriken fuer eine Ursachenanalyse korreliert werden, die End-to-End-Latenz gemessen wird oder von Legacy-Tracing-Systemen zu OpenTelemetry migriert wird. locale: de source_locale: en source_commit: 6f65f316 translator: claude-opus-4-6 translation_date: 2026-03-16 license: MIT allowed-tools: Read Write Edit Bash Grep Glob metadata: author: Philipp Thoss version: "1.0" domain: observability complexity: advanced language: multi tags: opentelemetry, tracing, jaeger, tempo, instrumentation
Verteiltes Tracing instrumentieren
OpenTelemetry-Distributed-Tracing implementieren, um Anfragen ueber Microservices zu verfolgen und Performance-Engpaesse zu identifizieren.
Wann verwenden
- Latenzprobleme in verteilten Systemen mit mehreren Services debuggen
- Request-Fluss und Abhaengigkeiten zwischen Microservices verstehen
- Langsame Datenbankabfragen oder externe API-Aufrufe innerhalb einer Transaktion identifizieren
- Traces mit Logs und Metriken fuer eine Ursachenanalyse korrelieren
- End-to-End-Latenz von der Benutzeranfrage bis zur Antwort messen
- Von Legacy-Tracing-Systemen (Zipkin, Jaeger) zu OpenTelemetry migrieren
- SLO-Compliance durch detailliertes Latenz-Perzentil-Tracking sicherstellen
Eingaben
- Pflichtfeld: Liste der zu instrumentierenden Services (Sprachen und Frameworks)
- Pflichtfeld: Auswahl des Tracing-Backends (Jaeger, Tempo, Zipkin oder Vendor-SaaS)
- Optional: Vorhandene Instrumentierungsbibliotheken (OpenTracing, Zipkin)
- Optional: Sampling-Strategie-Anforderungen (Prozentuell, Rate-Limiting)
- Optional: Benutzerdefinierte Span-Attribute fuer geschaeftsspezifische Metadaten
Vorgehensweise
Unter Extended Examples sind vollstaendige Konfigurationsdateien und Templates verfuegbar.
Schritt 1: Tracing-Backend einrichten
Jaeger oder Grafana Tempo zum Empfangen und Speichern von Traces bereitstellen.
Option A: Jaeger all-in-one (Entwicklung/Tests):
# docker-compose.yml
version: '3.8'
services:
jaeger:
image: jaegertracing/all-in-one:1.51
ports:
- "5775:5775/udp" # Zipkin compact thrift
- "6831:6831/udp" # Jaeger compact thrift
- "6832:6832/udp" # Jaeger binary thrift
- "5778:5778" # Serve configs
- "16686:16686" # Jaeger UI
- "14268:14268" # Jaeger HTTP thrift
- "14250:14250" # Jaeger GRPC
- "9411:9411" # Zipkin compatible endpoint
environment:
- COLLECTOR_ZIPKIN_HOST_PORT=:9411
- COLLECTOR_OTLP_ENABLED=true
restart: unless-stopped
Option B: Grafana Tempo (Produktion, skalierbar):
# docker-compose.yml
version: '3.8'
services:
tempo:
image: grafana/tempo:2.3.0
command: ["-config.file=/etc/tempo.yaml"]
volumes:
- ./tempo.yaml:/etc/tempo.yaml
- tempo-data:/tmp/tempo
ports:
- "3200:3200" # Tempo HTTP
- "4317:4317" # OTLP gRPC
- "4318:4318" # OTLP HTTP
- "9411:9411" # Zipkin
restart: unless-stopped
volumes:
tempo-data:
Tempo-Konfiguration (tempo.yaml):
server:
http_listen_port: 3200
distributor:
receivers:
jaeger:
# ... (see EXAMPLES.md for complete configuration)
Fuer Produktion mit S3-Speicher:
storage:
trace:
backend: s3
s3:
bucket: tempo-traces
endpoint: s3.amazonaws.com
region: us-east-1
wal:
path: /tmp/tempo/wal
pool:
max_workers: 100
queue_depth: 10000
Erwartet: Tracing-Backend ist zugaenglich, bereit, Traces ueber OTLP zu empfangen, Jaeger-UI oder Grafana zeigt initial "keine Traces" an.
Bei Fehler:
- Pruefen, ob Ports bereits belegt sind:
netstat -tulpn | grep -E '(4317|16686|3200)' - Container-Logs pruefen:
docker logs jaegeroderdocker logs tempo - OTLP-Endpunkt testen:
curl http://localhost:4318/v1/traces -v - Fuer Tempo: Konfigurationssyntax validieren mit
tempo -config.file=/etc/tempo.yaml -verify-config
Schritt 2: Anwendungen instrumentieren (Auto-Instrumentierung)
OpenTelemetry-Auto-Instrumentierung fuer gaengige Frameworks verwenden, um Code-Aenderungen zu minimieren.
Python mit Flask:
pip install opentelemetry-distro opentelemetry-exporter-otlp
opentelemetry-bootstrap -a install
# app.py
from flask import Flask
from opentelemetry import trace
from opentelemetry.sdk.trace import TracerProvider
from opentelemetry.sdk.trace.export import BatchSpanProcessor
from opentelemetry.exporter.otlp.proto.grpc.trace_exporter import OTLPSpanExporter
# ... (see EXAMPLES.md for complete configuration)
Go mit Gin-Framework:
go get go.opentelemetry.io/otel
go get go.opentelemetry.io/otel/exporters/otlp/otlptrace/otlptracegrpc
go get go.opentelemetry.io/otel/sdk/trace
go get go.opentelemetry.io/contrib/instrumentation/github.com/gin-gonic/gin/otelgin
package main
import (
"context"
"github.com/gin-gonic/gin"
"go.opentelemetry.io/otel"
# ... (see EXAMPLES.md for complete configuration)
Node.js mit Express:
npm install @opentelemetry/api \
@opentelemetry/sdk-node \
@opentelemetry/auto-instrumentations-node \
@opentelemetry/exporter-trace-otlp-grpc
// tracing.js
const { NodeSDK } = require('@opentelemetry/sdk-node');
const { OTLPTraceExporter } = require('@opentelemetry/exporter-trace-otlp-grpc');
const { getNodeAutoInstrumentations } = require('@opentelemetry/auto-instrumentations-node');
const { Resource } = require('@opentelemetry/resources');
const { SemanticResourceAttributes } = require('@opentelemetry/semantic-conventions');
# ... (see EXAMPLES.md for complete configuration)
Erwartet: Traces von instrumentierten Services erscheinen in der Jaeger-UI oder in Grafana, HTTP-Anfragen erstellen automatisch Spans.
Bei Fehler:
- Pruefen, ob der Exporter-Endpunkt von der Anwendung erreichbar ist
- Umgebungsvariablen pruefen:
OTEL_EXPORTER_OTLP_ENDPOINT=http://tempo:4317 - Debug-Logging aktivieren:
OTEL_LOG_LEVEL=debug(Python),OTEL_LOG_LEVEL=DEBUG(Node.js) - Mit einem einfachen Span testen: manuell einen Span erstellen, um die Export-Pipeline zu pruefen
- Auf Versionskonflikte zwischen OpenTelemetry-Paketen pruefen
Schritt 3: Manuelle Instrumentierung hinzufuegen
Benutzerdefinierte Spans fuer Geschaeftslogik, Datenbankabfragen und externe Aufrufe erstellen.
Python manuelle Spans:
from opentelemetry import trace
tracer = trace.get_tracer(__name__)
def process_order(order_id):
# Create a span for the entire operation
# ... (see EXAMPLES.md for complete configuration)
Go manuelle Spans:
import (
"context"
"go.opentelemetry.io/otel"
"go.opentelemetry.io/otel/attribute"
"go.opentelemetry.io/otel/codes"
"go.opentelemetry.io/otel/trace"
# ... (see EXAMPLES.md for complete configuration)
Best Practices fuer Span-Attribute:
- Semantische Konventionen verwenden:
http.method,http.status_code,db.system,db.statement - Geschaeftskontext hinzufuegen:
user.id,order.id,product.category - Ressourcenbezeichner einschliessen:
instance.id,region,availability_zone - Fehler aufzeichnen:
span.RecordError(err)undspan.SetStatus(codes.Error, message) - Ereignisse fuer wichtige Meilensteine hinzufuegen:
span.AddEvent("cache_miss")
Erwartet: Benutzerdefinierte Spans erscheinen in der Trace-Ansicht, Eltern-Kind-Beziehungen korrekt, Attribute in Span-Details sichtbar, Fehler hervorgehoben.
Bei Fehler:
- Kontextpropagierung pruefen: uebergeordneter Span-Kontext wird an untergeordneten weitergegeben
- Sicherstellen, dass Span-Namen beschreibend sind und Namenskonventionen folgen
- Spans muessen beendet werden (
defer span.End()in Go,with-Bloecke in Python) - Attributtypen pruefen: nur Strings, Integer, Boolesche Werte, Floats
- Semantische Konventionen validieren: Standard-Attributnamen verwenden, wo anwendbar
Schritt 4: Kontextpropagierung implementieren
Sicherstellen, dass der Trace-Kontext ueber Service-Grenzen und asynchrone Operationen hinweg fliesst.
HTTP-Header-Propagierung (W3C Trace Context):
# Client side (Python with requests)
import requests
from opentelemetry import trace
from opentelemetry.propagate import inject
tracer = trace.get_tracer(__name__)
# ... (see EXAMPLES.md for complete configuration)
// Server side (Go with Gin)
import (
"go.opentelemetry.io/otel"
"go.opentelemetry.io/otel/propagation"
)
# ... (see EXAMPLES.md for complete configuration)
Nachrichtenwarteschlangen-Propagierung (Kafka):
# Producer
from opentelemetry.propagate import inject
from kafka import KafkaProducer
producer = KafkaProducer(bootstrap_servers=['kafka:9092'])
# ... (see EXAMPLES.md for complete configuration)
# Consumer
from opentelemetry.propagate import extract
def process_message(msg):
# Extract trace context from Kafka headers
headers = {k: v.decode('utf-8') for k, v in msg.headers}
ctx = extract(headers)
# Continue the trace
with tracer.start_as_current_span("process_order_event", context=ctx):
order_id = json.loads(msg.value)['order_id']
handle_order(order_id)
Asynchrone Operationen (Python asyncio):
import asyncio
from opentelemetry import trace, context
async def async_operation():
# Capture current context
token = context.attach(context.get_current())
try:
with tracer.start_as_current_span("async_database_query"):
await asyncio.sleep(0.1) # Simulated async work
return "result"
finally:
context.detach(token)
Erwartet: Traces erstrecken sich ueber mehrere Services, Trace-IDs sind ueber Service-Grenzen hinweg konsistent, Eltern-Kind-Beziehungen bleiben erhalten.
Bei Fehler:
- W3C-Trace-Context-Propagator-Konfiguration pruefen:
otel.propagation.set_global_textmap(TraceContextTextMapPropagator()) - Sicherstellen, dass Header in HTTP-Anfragen weitergegeben werden
- Fuer Kafka: Pruefen, ob Header von der Broker-Version unterstuetzt werden (v0.11+)
- Mit Header-Inspektion debuggen:
traceparent-Headerwert protokollieren - Trace-Visualisierung verwenden, um unterbrochene Trace-Links zu identifizieren
Schritt 5: Sampling-Strategien konfigurieren
Sampling implementieren, um das Trace-Volumen und die Kosten zu reduzieren und gleichzeitig die Sichtbarkeit zu erhalten.
Sampling-Strategien:
from opentelemetry.sdk.trace import TracerProvider
from opentelemetry.sdk.trace.sampling import (
ParentBased,
TraceIdRatioBased,
StaticSampler,
Decision
# ... (see EXAMPLES.md for complete configuration)
Tail-basiertes Sampling mit Tempo:
In tempo.yaml konfigurieren:
overrides:
defaults:
metrics_generator:
processors: [service-graphs, span-metrics]
storage:
path: /tmp/tempo/generator/wal
remote_write:
- url: http://prometheus:9090/api/v1/write
send_exemplars: true
# Tail sampling (requires tempo-query)
ingestion_rate_limit_bytes: 5000000
ingestion_burst_size_bytes: 10000000
Grafana Tempo's TraceQL fuer dynamisches Sampling verwenden:
# Sample traces with errors
{ status = error }
# Sample slow traces (>1s)
{ duration > 1s }
# Sample specific services
{ resource.service.name = "checkout-service" }
Erwartet: Trace-Volumen auf Zielprozentsatz reduziert, Fehler-Traces werden immer gesampelt, Sampling-Entscheidung in Trace-Metadaten sichtbar.
Bei Fehler:
- Pruefen, ob der Sampler vor der Initialisierung des Tracer-Providers angewendet wird
- Sampling-Entscheidungsattribut in exportierten Spans pruefen
- Fuer Tail-Sampling: ausreichend Puffer sicherstellen (
ingestion_burst_size_bytes) - Verworfene Traces ueberwachen:
otel_traces_dropped_total-Metrik - Mit synthetischem Hochvolumen-Traffic testen, um die Sampling-Rate zu validieren
Schritt 6: Traces mit Metriken und Logs korrelieren
Traces mit Metriken und Logs fuer einheitliche Observability verknuepfen.
Trace-IDs zu Logs hinzufuegen (Python):
import logging
from opentelemetry import trace
# Custom log formatter with trace context
class TraceFormatter(logging.Formatter):
def format(self, record):
# ... (see EXAMPLES.md for complete configuration)
Metriken aus Traces generieren (Tempo):
# tempo.yaml
metrics_generator:
registry:
external_labels:
cluster: production
storage:
# ... (see EXAMPLES.md for complete configuration)
Dadurch werden Prometheus-Metriken generiert:
traces_service_graph_request_total- Anzahl der Anfragen zwischen Servicestraces_span_metrics_duration_seconds- Span-Dauer-Histogrammtraces_spanmetrics_calls_total- Span-Aufrufzaehler
Traces aus Metriken abfragen (Grafana):
Exemplar-Unterstuetzung fuer Prometheus-Datenquelle in Grafana hinzufuegen:
datasources:
- name: Prometheus
type: prometheus
url: http://prometheus:9090
jsonData:
exemplarTraceIdDestinations:
- name: trace_id
datasourceName: Tempo
In Grafana-Dashboard Exemplare aktivieren:
{
"fieldConfig": {
"defaults": {
"custom": {
"showExemplars": true
}
}
}
}
Erwartet: Das Klicken auf Metrik-Exemplare oeffnet den Trace, Logs zeigen Trace-IDs, Traces verlinken zu Logs, einheitliches Debugging ueber alle Signale hinweg.
Bei Fehler:
- Exemplar-Unterstuetzung in Prometheus pruefen (erfordert v2.26+)
- Trace-ID-Format pruefen (32-stellige Hexadezimalzahl)
- Sicherstellen, dass der Metrik-Generator in der Tempo-Konfiguration aktiviert ist
- Remote-Write-Endpunkt auf Zugaenglichkeit von Tempo aus pruefen
- Exemplar-Abfragen testen:
histogram_quantile(0.95, rate(http_request_duration_seconds_bucket[5m])) and on() exemplar
Validierung
- Tracing-Backend empfaengt Spans von allen instrumentierten Services
- Traces zeigen korrekte Eltern-Kind-Beziehungen ueber Services hinweg
- Span-Attribute enthalten semantische Konventionen und Geschaeftskontext
- Kontext propagiert korrekt ueber HTTP-Aufrufe und Nachrichtenwarteschlangen
- Sampling-Strategie reduziert Trace-Volumen auf Zielprozentsatz
- Fehler-Traces werden immer gesampelt (bei Verwendung von fehlerbewahrtem Sampling)
- Trace-IDs erscheinen in Anwendungslogs mit korrektem Format
- Grafana zeigt Traces, die ueber Exemplare mit Metriken verknuepft sind
- Log-Panels haben Datenlinks zum Trace-Viewer
- Trace-Aufbewahrung entspricht der konfigurierten Speicherrichtlinie
Haeufige Stolperfallen
- Kontext nicht propagiert: Das Vergessen, den
contextan nachgelagerte Aufrufe weiterzugeben, unterbricht Traces. Kontext immer explizit weitergeben. - Spans nie beendet: Fehlendes
defer span.End()(Go) oderwith-Bloecke (Python) fuehrt dazu, dass Spans offen bleiben und Speicherlecks entstehen. - Ueberinstrumentierung: Das Erstellen von Spans fuer jede Funktion verursacht Trace-Ueberfluss. Auf Service-Grenzen, Datenbankaufrufe und externe APIs konzentrieren.
- Fehlende Fehleraufzeichnung: Das Nicht-Aufrufen von
span.RecordError()verliert wertvolle Debug-Informationen. Fehler in Spans immer aufzeichnen. - Attribute mit hoher Kardinalitaet: Unbegrenzte Werte (Benutzer-IDs, Request-Bodies) als Span-Attribute verwenden, verursacht Speicherprobleme. Sampling oder aggregierte Labels verwenden.
- Falscher Span-Typ: Falschen Span-Typ verwenden (CLIENT vs SERVER vs INTERNAL) beeinflusst die Service-Graph-Generierung. Semantische Konventionen befolgen.
- Sampling vor Kontext: Sampling-Entscheidungen muessen den uebergeordneten Trace-Kontext respektieren.
ParentBased-Sampler verwenden, um Upstream-Sampling zu beruecksichtigen.
Verwandte Skills
correlate-observability-signals- Einheitliches Debugging mit Metriken, Logs und Traces, die durch Trace-IDs verknuepft sindsetup-prometheus-monitoring- Metriken aus Traces mit dem Tempo-Metrik-Generator generierenconfigure-log-aggregation- Trace-IDs zu Logs hinzufuegen zur Korrelation mit verteilten Tracesbuild-grafana-dashboards- Trace-abgeleitete Metriken und Exemplar-Links in Dashboards visualisieren
GitHub 저장소
연관 스킬
evaluating-llms-harness
테스팅이 Claude Skill은 MMLU, GSM8K를 포함한 60개 이상의 표준화된 학술 과제에서 LLM 성능을 벤치마크하기 위해 lm-evaluation-harness를 실행합니다. 개발자들이 모델 품질을 비교하고, 학습 진행 상황을 추적하거나 학술 결과를 보고할 수 있도록 설계되었습니다. 이 도구는 HuggingFace와 vLLM 모델을 포함한 다양한 백엔드를 지원합니다.
cloudflare-cron-triggers
테스팅이 스킬은 cron 표현식을 사용하여 Worker를 스케줄링하기 위한 Cloudflare Cron Triggers 구현에 관한 포괄적인 지식을 제공합니다. 주기적 작업, 유지보수 작업, 자동화된 워크플로우 설정 방법을 다루며, 잘못된 cron 표현식이나 시간대 문제 같은 일반적인 이슈들을 해결하는 방법을 포함합니다. 개발자들은 이를 통해 스케줄된 핸들러 구성, cron 트리거 테스트, Workflows 및 Green Compute와의 연동 작업을 수행할 수 있습니다.
webapp-testing
테스팅이 Claude Skill은 Python 스크립트를 통해 로컬 웹 애플리케이션을 테스트하기 위한 Playwright 기반 툴킷을 제공합니다. 프론트엔드 검증, UI 디버깅, 스크린샷 캡처, 로그 확인 기능을 지원하며 서버 라이프사이클을 관리합니다. 브라우저 자동화 작업에 사용하되 컨텍스트 오염을 방지하기 위해 소스 코드를 읽지 않고 스크립트를 직접 실행하세요.
finishing-a-development-branch
테스팅이 스킬은 테스트 통과를 확인한 후 체계적인 통합 옵션을 제시하여 개발자가 완성된 작업을 마무리하도록 돕습니다. 구현이 완료된 후 머지, PR 생성, 브랜치 정리와 같은 워크플로우를 안내합니다. 코드가 준비되고 테스트가 완료되었을 때 개발 프로세스를 체계적으로 마무리하기 위해 사용하세요.
