SKILL·E8B23C

serialize-data-formats

Name: serialize-data-formats
Author: pjt222

pjt222

Mis à jour 1 month ago

9 vues

Développementapidata

À propos

Cette compétence aide les développeurs à sérialiser et désérialiser des données dans des formats courants tels que JSON, XML, YAML, Protobuf et MessagePack. Elle fournit des conseils pour choisir les formats en fonction des besoins de performance, de taille et d'interopérabilité. Utilisez-la lors du choix d'un format de données pour les API, le stockage, l'intégration système ou l'optimisation du transfert de données.

Installation rapide

Claude Code

Recommandé

Principal

npx skills add pjt222/agent-almanac -a claude-code

Commande PluginAlternatif

/plugin add https://github.com/pjt222/agent-almanac

Git CloneAlternatif

git clone https://github.com/pjt222/agent-almanac.git ~/.claude/skills/serialize-data-formats

Copiez et collez cette commande dans Claude Code pour installer cette compétence

Documentation

name: serialize-data-formats description: > Serializar y deserializar datos en formatos comunes incluyendo JSON, XML, YAML, Protocol Buffers, MessagePack y Apache Arrow/Parquet. Cubre criterios de seleccion de formato, patrones de codificacion/decodificacion, compromisos de rendimiento y consideraciones de interoperabilidad. Usar al elegir un formato de transmision para comunicacion API, persistir datos estructurados en disco, intercambiar datos entre sistemas escritos en diferentes lenguajes, optimizar tamano de transferencia o velocidad de analisis, o migrar de un formato de serializacion a otro. license: MIT allowed-tools: Read Write Edit Bash Grep Glob metadata: author: Philipp Thoss version: "1.0" domain: data-serialization complexity: intermediate language: multi tags: json, xml, yaml, protobuf, messagepack, parquet, arrow, serialization locale: es source_locale: en source_commit: 6f65f316 translator: claude-sonnet-4-6 translation_date: 2026-03-16

Serializar Formatos de Datos

Seleccionar e implementar el formato de serializacion de datos correcto para su caso de uso, con codificacion/decodificacion correcta y conciencia de rendimiento.

Cuando Usar

Elegir un formato de transmision para comunicacion API
Persistir datos estructurados en disco o almacenamiento de objetos
Intercambiar datos entre sistemas escritos en diferentes lenguajes
Optimizar el tamano de transferencia de datos o la velocidad de analisis
Migrar de un formato de serializacion a otro

Entradas

Requerido: Estructura de datos a serializar (esquema o ejemplo)
Requerido: Caso de uso (API, almacenamiento, streaming, analitica)
Opcional: Requisitos de rendimiento (tamano, velocidad, aplicacion de esquema)
Opcional: Restricciones del lenguaje/runtime objetivo
Opcional: Requisitos de legibilidad humana

Procedimiento

Paso 1: Seleccionar el Formato Correcto

Formato	Legible	Esquema	Tamano	Velocidad	Mejor para
JSON	Si	Opcional (JSON Schema)	Medio	Media	APIs REST, config, interop amplia
XML	Si	XSD, DTD	Grande	Lenta	Empresarial/legado, SOAP, documentos
YAML	Si	Opcional	Medio	Lenta	Archivos de config, CI/CD, Kubernetes
Protocol Buffers	No	Requerido (.proto)	Pequeno	Rapida	gRPC, microservicios, movil
MessagePack	No	Ninguno	Pequeno	Rapida	Tiempo real, embebido, Redis
Arrow/Parquet	No	Integrado	Muy Pequeno	Muy Rapida	Analitica, consultas columnares, data lakes

Arbol de decision:

Necesita edicion humana? -> YAML (config) o JSON (datos)
Necesita esquema estricto + RPC rapido? -> Protocol Buffers
Necesita el tamano de transmision mas pequeno? -> MessagePack o Protobuf
Necesita analitica columnar? -> Apache Parquet
Necesita intercambio en memoria? -> Apache Arrow
Integracion empresarial legada? -> XML

Esperado: Formato seleccionado con justificacion documentada que coincide con los requisitos del caso de uso. En caso de fallo: Si los requisitos entran en conflicto (ej., legible por humanos Y rapido), priorizar el caso de uso principal y anotar el compromiso.

Paso 2: Implementar Serializacion JSON

import json
from datetime import datetime, date
from dataclasses import dataclass, asdict

@dataclass
class Measurement:
    sensor_id: str
    value: float
    unit: str
    timestamp: datetime

# Custom encoder for non-standard types
class CustomEncoder(json.JSONEncoder):
    def default(self, obj):
        if isinstance(obj, datetime):
            return obj.isoformat()
        if isinstance(obj, date):
            return obj.isoformat()
        if isinstance(obj, bytes):
            import base64
            return base64.b64encode(obj).decode('ascii')
        return super().default(obj)

# Serialize
measurement = Measurement("sensor-01", 23.5, "celsius", datetime.now())
json_str = json.dumps(asdict(measurement), cls=CustomEncoder, indent=2)

# Deserialize
data = json.loads(json_str)

# R: JSON with jsonlite
library(jsonlite)

# Serialize
df <- data.frame(sensor_id = "sensor-01", value = 23.5, unit = "celsius")
json_str <- jsonlite::toJSON(df, auto_unbox = TRUE, pretty = TRUE)

# Deserialize
df_back <- jsonlite::fromJSON(json_str)

Esperado: La serializacion de ida y vuelta preserva todos los tipos de datos con precision. En caso de fallo: Si un tipo se pierde (ej., fechas se convierten en cadenas), agregar conversion de tipo explicita en el paso de deserializacion.

Paso 3: Implementar Protocol Buffers

Definir el esquema (archivo .proto):

syntax = "proto3";
package sensors;

message Measurement {
  string sensor_id = 1;
  double value = 2;
  string unit = 3;
  int64 timestamp_ms = 4;  // Unix milliseconds
}

message MeasurementBatch {
  repeated Measurement measurements = 1;
}

Generar y usar:

# Generate Python code
protoc --python_out=. sensors.proto

# Generate Go code
protoc --go_out=. sensors.proto

from sensors_pb2 import Measurement, MeasurementBatch
import time

# Serialize
m = Measurement(
    sensor_id="sensor-01",
    value=23.5,
    unit="celsius",
    timestamp_ms=int(time.time() * 1000)
)
binary = m.SerializeToString()  # Compact binary

# Deserialize
m2 = Measurement()
m2.ParseFromString(binary)

Esperado: Salida binaria 3-10x mas pequena que el JSON equivalente. En caso de fallo: Si protoc no esta disponible, usar una biblioteca protobuf nativa del lenguaje (ej., betterproto para Python).

Paso 4: Implementar MessagePack

import msgpack
from datetime import datetime

# Custom packing for datetime
def encode_datetime(obj):
    if isinstance(obj, datetime):
        return {"__datetime__": True, "s": obj.isoformat()}
    return obj

def decode_datetime(obj):
    if "__datetime__" in obj:
        return datetime.fromisoformat(obj["s"])
    return obj

data = {"sensor_id": "sensor-01", "value": 23.5, "ts": datetime.now()}

# Serialize (smaller than JSON, faster than JSON)
packed = msgpack.packb(data, default=encode_datetime)

# Deserialize
unpacked = msgpack.unpackb(packed, object_hook=decode_datetime, raw=False)

Esperado: La salida MessagePack es 15-30% mas pequena que JSON para cargas tipicas. En caso de fallo: Si un lenguaje carece de soporte MessagePack, recurrir a JSON con compresion (gzip).

Paso 5: Implementar Apache Parquet (Columnar)

import pyarrow as pa
import pyarrow.parquet as pq
import pandas as pd

# Create data
df = pd.DataFrame({
    "sensor_id": ["s-01", "s-02", "s-01", "s-03"] * 1000,
    "value": [23.5, 18.2, 24.1, 19.8] * 1000,
    "unit": ["celsius"] * 4000,
    "timestamp": pd.date_range("2025-01-01", periods=4000, freq="min")
})

# Write Parquet (columnar, compressed)
table = pa.Table.from_pandas(df)
pq.write_table(table, "measurements.parquet", compression="snappy")

# Read Parquet (can read specific columns without loading all data)
table_back = pq.read_table("measurements.parquet", columns=["sensor_id", "value"])
df_subset = table_back.to_pandas()

# R: Parquet with arrow
library(arrow)

# Write
df <- data.frame(sensor_id = rep("s-01", 1000), value = rnorm(1000))
arrow::write_parquet(df, "measurements.parquet")

# Read (with column selection -- only reads selected columns from disk)
df_back <- arrow::read_parquet("measurements.parquet", col_select = c("value"))

Esperado: Archivos Parquet 5-20x mas pequenos que CSV para datos tabulares tipicos. En caso de fallo: Si Arrow no esta disponible, usar fastparquet (Python) o CSV con gzip como alternativa.

Paso 6: Comparar Rendimiento

Ejecutar benchmarks para sus datos y caso de uso especificos:

import json, msgpack, time
import pyarrow as pa, pyarrow.parquet as pq

data = [{"id": i, "value": i * 0.1, "label": f"item-{i}"} for i in range(10000)]

# JSON
start = time.perf_counter()
json_bytes = json.dumps(data).encode()
json_time = time.perf_counter() - start

# MessagePack
start = time.perf_counter()
msgpack_bytes = msgpack.packb(data)
msgpack_time = time.perf_counter() - start

print(f"JSON:    {len(json_bytes):>8} bytes, {json_time*1000:.1f} ms")
print(f"MsgPack: {len(msgpack_bytes):>8} bytes, {msgpack_time*1000:.1f} ms")

Esperado: Los resultados del benchmark guian la seleccion de formato para uso en produccion. En caso de fallo: Si el rendimiento es insuficiente para cualquier formato, considerar la compresion (zstd, snappy) como una optimizacion ortogonal.

Validacion

Formato seleccionado coincide con los requisitos del caso de uso (justificacion documentada)
La serializacion de ida y vuelta preserva todos los tipos de datos
Casos limite manejados: colecciones vacias, valores null/None, Unicode, numeros grandes
Rendimiento evaluado para tamanos de carga representativos
Manejo de errores para entrada malformada (fallos elegantes, no crashes)
Esquema documentado (JSON Schema, .proto o equivalente)

Errores Comunes

Precision de punto flotante: JSON representa todos los numeros como dobles IEEE 754. Usar codificacion de cadena para precision financiera/decimal.
Manejo de fecha/hora: JSON no tiene tipo datetime nativo. Siempre documentar el formato (ISO 8601) y el manejo de zona horaria.
Evolucion de esquema: Agregar o eliminar campos puede romper consumidores. Protobuf maneja esto bien; JSON requiere versionado cuidadoso.
Datos binarios en JSON: La codificacion Base64 infla los datos binarios en ~33%. Usar un formato binario para cargas con muchos binarios.
Seguridad de YAML: Los analizadores YAML pueden ejecutar codigo arbitrario via etiquetas !!python/object. Siempre usar cargadores seguros.

Habilidades Relacionadas

design-serialization-schema -- diseno de esquema, versionado y estrategias de evolucion
implement-pharma-serialisation -- serializacion farmaceutica (diferente dominio, misma nomenclatura)
create-quarto-report -- formato de salida de datos para informes

Dépôt GitHub

pjt222/agent-almanac

Chemin: i18n/es/skills/serialize-data-formats

agentsagentskillsai-assisted-developmentclaude-codeskillsteams

FAQ

Frequently asked questions

What is the serialize-data-formats skill?

serialize-data-formats is a Claude Skill by pjt222. Skills package instructions and resources that Claude loads on demand, so Claude can perform serialize-data-formats-related tasks without extra prompting.

How do I install serialize-data-formats?

Use the install commands on this page: add serialize-data-formats to Claude Code as a plugin, or clone its repository into your skills directory, then restart Claude so it picks up the skill.

What category does serialize-data-formats belong to?

serialize-data-formats is in the Development category, tagged api and data.

Is serialize-data-formats free to use?

Yes. serialize-data-formats is listed on AIMCP and free to install. It runs inside Claude, so no separate service account is required to use the skill itself.

Compétences associées

qmd

Développement

qmd est un outil CLI de recherche et d'indexation locale qui permet aux développeurs d'indexer et de rechercher dans des fichiers locaux en utilisant une recherche hybride combinant BM25, des embeddings vectoriels et du reranking. Il prend en charge à la fois une utilisation en ligne de commande et un mode MCP (Model Context Protocol) pour l'intégration avec Claude. L'outil utilise Ollama pour les embeddings et stocke les index localement, ce qui le rend idéal pour rechercher dans de la documentation ou des bases de code directement depuis le terminal.

Voir la compétence

subagent-driven-development

Développement

Cette compétence exécute des plans de mise en œuvre en déployant un nouveau sous-agent pour chaque tâche indépendante, avec une revue de code entre les tâches. Elle permet une itération rapide tout en maintenant des contrôles de qualité grâce à ce processus de revue. Utilisez-la lorsque vous travaillez sur des tâches principalement indépendantes au sein d'une même session pour assurer une progression continue avec des vérifications de qualité intégrées.

Voir la compétence

mcporter

Développement

La compétence mcporter permet aux développeurs de gérer et d'appeler des serveurs Model Context Protocol (MCP) directement depuis Claude. Elle fournit des commandes pour lister les serveurs disponibles, appeler leurs outils avec des arguments, et gérer l'authentification ainsi que le cycle de vie du démon. Utilisez cette compétence pour intégrer et tester les fonctionnalités des serveurs MCP dans votre flux de travail de développement.

Voir la compétence

adk-deployment-specialist

Développement

Cette compétence déploie et orchestre des agents Vertex AI ADK en utilisant le protocole A2A, gérant la découverte d'AgentCard, la soumission de tâches, et prenant en charge des outils tels que le bac à sable d'exécution de code et la banque de mémoire. Elle permet de construire des systèmes multi-agents avec des modèles d'orchestration séquentiels, parallèles ou en boucle en Python, Java ou Go. Utilisez-la lorsqu'on vous demande de déployer des agents ADK ou d'orchestrer des flux de travail d'agents sur Google Cloud.

Voir la compétence