MCP HubMCP Hub
스킬 목록으로 돌아가기

serialize-data-formats

pjt222
업데이트됨 Yesterday
7 조회
17
2
17
GitHub에서 보기
개발apidata

정보

이 스킬은 개발자가 JSON, XML, YAML, Protobuf, MessagePack, Arrow/Parquet와 같은 형식 간 데이터 직렬화 및 역직렬화를 수행할 수 있도록 지원합니다. API 통신, 데이터 지속성, 시스템 상호 운용성과 같은 사용 사례를 바탕으로 성능과 인코딩 패턴을 고려하여 적절한 형식을 선택하는 지침을 제공합니다. 전송 형식을 선택하거나 크기/속도 최적화가 필요할 때, 또는 직렬화 방식 간 마이그레이션이 필요할 때 활용하세요.

빠른 설치

Claude Code

추천
기본
npx skills add pjt222/agent-almanac -a claude-code
플러그인 명령대체
/plugin add https://github.com/pjt222/agent-almanac
Git 클론대체
git clone https://github.com/pjt222/agent-almanac.git ~/.claude/skills/serialize-data-formats

Claude Code에서 이 명령을 복사하여 붙여넣어 스킬을 설치하세요

문서


name: serialize-data-formats description: > 跨常见格式进行数据序列化和反序列化,包括 JSON、XML、YAML、Protocol Buffers、 MessagePack 和 Apache Arrow/Parquet。涵盖格式选择标准、编码/解码模式、性能权衡 和互操作性考虑。适用于选择 API 通信的线路格式、将结构化数据持久化到磁盘、在不同 语言编写的系统之间交换数据、优化传输大小或解析速度,以及从一种序列化格式迁移到另一种。 license: MIT allowed-tools: Read Write Edit Bash Grep Glob metadata: author: Philipp Thoss version: "1.0" domain: data-serialization complexity: intermediate language: multi tags: json, xml, yaml, protobuf, messagepack, parquet, arrow, serialization locale: zh-CN source_locale: en source_commit: 6f65f316 translator: claude-sonnet-4-6 translation_date: 2026-03-16

序列化数据格式

为您的用例选择和实现正确的数据序列化格式,确保编码/解码正确且关注性能。

适用场景

  • 选择 API 通信的线路格式
  • 将结构化数据持久化到磁盘或对象存储
  • 在不同语言编写的系统之间交换数据
  • 优化数据传输大小或解析速度
  • 从一种序列化格式迁移到另一种

输入

  • 必需:要序列化的数据结构(模式或示例)
  • 必需:用例(API、存储、流式、分析)
  • 可选:性能要求(大小、速度、模式强制)
  • 可选:目标语言/运行时约束
  • 可选:人类可读性要求

步骤

第 1 步:选择正确的格式

格式人类可读模式大小速度最适用于
JSON可选(JSON Schema)中等中等REST API、配置、广泛互操作
XMLXSD、DTD企业/遗留系统、SOAP、文档
YAML可选中等配置文件、CI/CD、Kubernetes
Protocol Buffers必需(.proto)gRPC、微服务、移动端
MessagePack实时、嵌入式、Redis
Arrow/Parquet内置非常小非常快分析、列式查询、数据湖

决策树:

  1. 需要人工编辑? -> YAML(配置)或 JSON(数据)
  2. 需要严格模式 + 快速 RPC? -> Protocol Buffers
  3. 需要最小线路大小? -> MessagePack 或 Protobuf
  4. 需要列式分析? -> Apache Parquet
  5. 需要内存中交换? -> Apache Arrow
  6. 遗留企业集成? -> XML

预期结果: 格式已选择,并记录了与用例要求匹配的理由。 失败处理: 如果需求冲突(如既要人类可读又要快速),优先考虑主要用例并记录权衡。

第 2 步:实现 JSON 序列化

import json
from datetime import datetime, date
from dataclasses import dataclass, asdict

@dataclass
class Measurement:
    sensor_id: str
    value: float
    unit: str
    timestamp: datetime

# Custom encoder for non-standard types
class CustomEncoder(json.JSONEncoder):
    def default(self, obj):
        if isinstance(obj, datetime):
            return obj.isoformat()
        if isinstance(obj, date):
            return obj.isoformat()
        if isinstance(obj, bytes):
            import base64
            return base64.b64encode(obj).decode('ascii')
        return super().default(obj)

# Serialize
measurement = Measurement("sensor-01", 23.5, "celsius", datetime.now())
json_str = json.dumps(asdict(measurement), cls=CustomEncoder, indent=2)

# Deserialize
data = json.loads(json_str)
# R: JSON with jsonlite
library(jsonlite)

# Serialize
df <- data.frame(sensor_id = "sensor-01", value = 23.5, unit = "celsius")
json_str <- jsonlite::toJSON(df, auto_unbox = TRUE, pretty = TRUE)

# Deserialize
df_back <- jsonlite::fromJSON(json_str)

预期结果: 往返序列化准确保留所有数据类型。 失败处理: 如果类型丢失(如日期变成字符串),在反序列化步骤中添加显式类型转换。

第 3 步:实现 Protocol Buffers

定义模式(.proto 文件):

syntax = "proto3";
package sensors;

message Measurement {
  string sensor_id = 1;
  double value = 2;
  string unit = 3;
  int64 timestamp_ms = 4;  // Unix milliseconds
}

message MeasurementBatch {
  repeated Measurement measurements = 1;
}

生成和使用:

# Generate Python code
protoc --python_out=. sensors.proto

# Generate Go code
protoc --go_out=. sensors.proto
from sensors_pb2 import Measurement, MeasurementBatch
import time

# Serialize
m = Measurement(
    sensor_id="sensor-01",
    value=23.5,
    unit="celsius",
    timestamp_ms=int(time.time() * 1000)
)
binary = m.SerializeToString()  # Compact binary

# Deserialize
m2 = Measurement()
m2.ParseFromString(binary)

预期结果: 二进制输出比等效的 JSON 小 3-10 倍。 失败处理: 如果 protoc 不可用,使用语言原生的 protobuf 库(如 Python 的 betterproto)。

第 4 步:实现 MessagePack

import msgpack
from datetime import datetime

# Custom packing for datetime
def encode_datetime(obj):
    if isinstance(obj, datetime):
        return {"__datetime__": True, "s": obj.isoformat()}
    return obj

def decode_datetime(obj):
    if "__datetime__" in obj:
        return datetime.fromisoformat(obj["s"])
    return obj

data = {"sensor_id": "sensor-01", "value": 23.5, "ts": datetime.now()}

# Serialize (smaller than JSON, faster than JSON)
packed = msgpack.packb(data, default=encode_datetime)

# Deserialize
unpacked = msgpack.unpackb(packed, object_hook=decode_datetime, raw=False)

预期结果: MessagePack 输出对于典型载荷比 JSON 小 15-30%。 失败处理: 如果某种语言缺乏 MessagePack 支持,退回到 JSON 加压缩(gzip)。

第 5 步:实现 Apache Parquet(列式)

import pyarrow as pa
import pyarrow.parquet as pq
import pandas as pd

# Create data
df = pd.DataFrame({
    "sensor_id": ["s-01", "s-02", "s-01", "s-03"] * 1000,
    "value": [23.5, 18.2, 24.1, 19.8] * 1000,
    "unit": ["celsius"] * 4000,
    "timestamp": pd.date_range("2025-01-01", periods=4000, freq="min")
})

# Write Parquet (columnar, compressed)
table = pa.Table.from_pandas(df)
pq.write_table(table, "measurements.parquet", compression="snappy")

# Read Parquet (can read specific columns without loading all data)
table_back = pq.read_table("measurements.parquet", columns=["sensor_id", "value"])
df_subset = table_back.to_pandas()
# R: Parquet with arrow
library(arrow)

# Write
df <- data.frame(sensor_id = rep("s-01", 1000), value = rnorm(1000))
arrow::write_parquet(df, "measurements.parquet")

# Read (with column selection — only reads selected columns from disk)
df_back <- arrow::read_parquet("measurements.parquet", col_select = c("value"))

预期结果: Parquet 文件对于典型表格数据比 CSV 小 5-20 倍。 失败处理: 如果 Arrow 不可用,使用 fastparquet(Python)或 CSV 加 gzip 作为后备。

第 6 步:比较性能

为您的特定数据和用例运行基准测试:

import json, msgpack, time
import pyarrow as pa, pyarrow.parquet as pq

data = [{"id": i, "value": i * 0.1, "label": f"item-{i}"} for i in range(10000)]

# JSON
start = time.perf_counter()
json_bytes = json.dumps(data).encode()
json_time = time.perf_counter() - start

# MessagePack
start = time.perf_counter()
msgpack_bytes = msgpack.packb(data)
msgpack_time = time.perf_counter() - start

print(f"JSON:    {len(json_bytes):>8} bytes, {json_time*1000:.1f} ms")
print(f"MsgPack: {len(msgpack_bytes):>8} bytes, {msgpack_time*1000:.1f} ms")

预期结果: 基准测试结果指导生产环境的格式选择。 失败处理: 如果任何格式的性能不足,考虑将压缩(zstd、snappy)作为正交优化手段。

验证清单

  • 所选格式与用例需求匹配(有文档化的理由)
  • 往返序列化保留所有数据类型
  • 边缘情况已处理:空集合、null/None 值、Unicode、大数字
  • 已针对代表性载荷大小进行性能基准测试
  • 格式错误输入的错误处理(优雅失败,不崩溃)
  • 模式已记录(JSON Schema、.proto 或等效物)

常见问题

  • 浮点精度:JSON 将所有数字表示为 IEEE 754 双精度浮点数。对于金融/十进制精度,使用字符串编码。
  • 日期/时间处理:JSON 没有原生的 datetime 类型。始终记录格式(ISO 8601)和时区处理方式。
  • 模式演进:添加或删除字段可能破坏消费者。Protobuf 很好地处理了这一点;JSON 需要仔细的版本管理。
  • JSON 中的二进制数据:Base64 编码使二进制数据膨胀约 33%。对于二进制密集型载荷,使用二进制格式。
  • YAML 安全性:YAML 解析器可能通过 !!python/object 标签执行任意代码。始终使用安全加载器。

相关技能

  • design-serialization-schema — 模式设计、版本管理和演进策略
  • implement-pharma-serialisation — 药品序列化(不同领域,相同命名)
  • create-quarto-report — 报告的数据输出格式化

GitHub 저장소

pjt222/agent-almanac
경로: i18n/zh-CN/skills/serialize-data-formats
0
agentsagentskillsai-assisted-developmentclaude-codeskillsteams

연관 스킬

qmd

개발

qmd는 BM25, 벡터 임베딩, 재순위화를 결합한 하이브리드 검색을 통해 로컬 파일을 색인화하고 검색할 수 있는 로컬 검색 및 색인화 CLI 도구입니다. 명령줄 사용과 Claude 통합을 위한 MCP(Model Context Protocol) 모드를 모두 지원합니다. 이 도구는 임베딩에 Ollama를 사용하고 색인을 로컬에 저장하여 터미널에서 직접 문서나 코드베이스를 검색하는 데 이상적입니다.

스킬 보기

subagent-driven-development

개발

이 스킬은 각 독립적인 작업마다 새로운 하위 에이전트를 배치하고 작업 사이에 코드 리뷰를 진행하여 구현 계획을 실행합니다. 이 리뷰 프로세스를 통해 품질 게이트를 유지하면서 빠른 반복 작업을 가능하게 합니다. 동일한 세션 내에서 대부분 독립적인 작업을 진행할 때 내장된 품질 검증과 함께 지속적인 진행을 보장하기 위해 사용하세요.

스킬 보기

mcporter

개발

mcporter 스킬은 개발자가 Claude에서 직접 Model Context Protocol(MCP) 서버를 관리하고 호출할 수 있도록 합니다. 이 스킬은 사용 가능한 서버를 나열하고, 인수를 사용해 해당 서버의 도구를 호출하며, 인증 및 데몬 생명주기를 처리하는 명령어를 제공합니다. 개발 워크플로우에서 MCP 서버 기능을 통합하고 테스트할 때 이 스킬을 사용하세요.

스킬 보기

adk-deployment-specialist

개발

이 스킬은 A2A 프로토콜을 사용하여 Vertex AI ADK 에이전트를 배포하고 오케스트레이션하며, AgentCard 검색, 작업 제출, 코드 실행 샌드박스 및 메모리 뱅크와 같은 지원 도구를 관리합니다. Python, Java 또는 Go 언어로 순차, 병렬 또는 루프 오케스트레이션 패턴을 갖춘 다중 에이전트 시스템 구축을 가능하게 합니다. Google Cloud에서 ADK 에이전트 배포 또는 에이전트 워크플로우 오케스트레이션을 요청받았을 때 사용하세요.

스킬 보기