返回技能列表

label-training-data

pjt222
更新于 6 days ago
15 次查看
17
2
17
在 GitHub 上查看
设计aiautomationdesigndata

关于

This skill sets up systematic data labeling workflows using tools like Label Studio, implementing quality controls and managing labeler teams. It helps when starting supervised ML projects, when model performance is limited by insufficient labeled data, or when implementing active learning. Key features include measuring inter-annotator agreement and integrating labeled data into ML training pipelines for text, images, audio, or video.

快速安装

Claude Code

推荐
主要方式
npx skills add pjt222/agent-almanac -a claude-code
插件命令备选方式
/plugin add https://github.com/pjt222/agent-almanac
Git 克隆备选方式
git clone https://github.com/pjt222/agent-almanac.git ~/.claude/skills/label-training-data

在 Claude Code 中复制并粘贴此命令以安装该技能

技能文档

標訓練數據

全配置文件與模板詳見 Extended Examples

以 Label Studio 系統標 ML 監督數據,附質控與高效流程。

  • 啟需標數據之監督 ML 項目
  • 模型因標例不足而性能限
  • 標文、圖、音、視數據
  • 量並改註質
  • 管多技能註者隊
  • 施主動學以擇要例
  • 追進度與本
  • 確多註者間標一致

  • :未標數據集(圖、文、音、視)
  • :標模(類、屬、或註型)
  • :標指南文
  • :既標(質比)
  • :模預測用於預註
  • :預算與期約
  • :難例處有域專家

一:裝並配 Label Studio

以 Label Studio 為標平台:

# Install Label Studio
pip install label-studio

# Or use Docker for production
docker pull heartexlabs/label-studio:latest

# Create project directory
mkdir -p labeling-project/{data,exports,config}
cd labeling-project

# Initialize Label Studio
label-studio init my_project

# Start Label Studio server
label-studio start my_project --port 8080

http://localhost:8080(首訪時造憑)。

生產 Docker 部署:

# docker-compose.yml
version: '3.8'

services:
  label-studio:
    image: heartexlabs/label-studio:latest
    ports:
      - "8080:8080"
# ... (see EXAMPLES.md for complete implementation)
docker-compose up -d

得:Label Studio 運行可訪,生產用 PostgreSQL 已初。

敗:8080 占→改配置;Docker 敗→查守護進程;確磁足容數據卷;查防火牆許 8080。

二:設標接口與模

為任型造標配:

# labeling-project/config/labeling_config.py
"""
Label Studio configuration templates for common tasks.
"""

# Text Classification (single label)
TEXT_CLASSIFICATION = """
<View>
# ... (see EXAMPLES.md for complete implementation)

得:標接口按任型配適當控件,數據導入成,註者可訪接口。

敗:以 Label Studio 配驗器驗 XML;查數據文件格式(JSON 或 CSV);若用外部存→確圖/音 URL 可訪;驗 API 鍵權限正。

三:備數據並施採樣策略

格化數據以導並優先標例:

# labeling-project/prepare_data.py
import pandas as pd
import json
import random
from typing import List, Dict
from sklearn.cluster import KMeans
import numpy as np

# ... (see EXAMPLES.md for complete implementation)

得:數據正格化以導 Label Studio,採樣策略優先信息例,任含追蹤元。

敗:以 jq 或 Python json.load() 驗 JSON 格;若用遠圖→確 URL 可訪;確無特殊字符破 JSON 編;驗列名匹配置。

四:施質控與 IAA 量

立量並改註質之過程:

# labeling-project/quality_control.py
import pandas as pd
import numpy as np
from sklearn.metrics import cohen_kappa_score, confusion_matrix
from typing import Dict, List, Tuple
import logging

logging.basicConfig(level=logging.INFO)
# ... (see EXAMPLES.md for complete implementation)

得:註者間一致量(Cohen's Kappa > 0.6 中,> 0.8 佳),難任識待審,註者性能追。

敗:Kappa 極低(< 0.4)→審標指南之明、再訓註者、簡標模、察歧例、考用專家註為金標。

五:出並合標數據

出標並備 ML 訓:

# labeling-project/export_labels.py
import requests
import pandas as pd
import json
from typing import List, Dict
import logging

logger = logging.getLogger(__name__)
# ... (see EXAMPLES.md for complete implementation)

得:註以訓備格出,標分布平衡或記,訓前驗數據質。

敗:驗 API 鍵權;察出格與 ML 框兼容;優處缺註;驗 JSON 結構匹預期格。

六:立連續標管線

以主動學合自動化標流程:

# labeling-project/active_learning_pipeline.py
import schedule
import time
import logging
from datetime import datetime
from prepare_data import DataSampler, prepare_label_studio_format
from export_labels import LabelStudioExporter, convert_to_training_format
import pandas as pd
# ... (see EXAMPLES.md for complete implementation)

得:主動學自動擇信息例,週備標批,新標足時重訓模。

敗:若不確採樣不改模→試多樣採樣;註者趕不上→減批大;監標隊長;隊過大施反壓。

  • Label Studio 可訪且響應
  • 標接口直觀(試樣註者)
  • 數據導入成且格正
  • 註者間一致(Cohen's Kappa)> 0.6
  • 質控識問題任
  • 標以訓備格出
  • 標分布匹預期(或意偏)
  • 主動學管線無手動運行
  • 註吞吐合項目期

  • 指南不清:歧指示致標不一;投詳指南附例
  • 重疊不足:無多註者→不可量 IAA;用 10-20% 重疊
  • 忽難例:邊緣常略而對模堅健關鍵;標待專家審
  • 批效:註者倦或學致時間不一;隨任序
  • 無質反饋:無反饋註者不改;常精度報告
  • 採樣錯:隨採費預算於易例;用不確或多樣採樣
  • 獨立標:複任需域專家;初新手配專家
  • 不追本:標昂;監任時與總預算耗

  • version-ml-data - 標數據集之版控
  • track-ml-experiments - 追模性能隨標增

GitHub 仓库

pjt222/agent-almanac
路径: i18n/wenyan-ultra/skills/label-training-data
0
agentsagentskillsai-assisted-developmentclaude-codeskillsteams

相关推荐技能

executing-plans

设计

该Skill用于当开发者提供完整实施计划时,以受控批次方式执行代码实现。它会先审阅计划并提出疑问,然后分批次执行任务(默认每批3个任务),并在批次间暂停等待审查。关键特性包括分批次执行、内置检查点和架构师审查机制,确保复杂系统实现的可控性。

查看技能

requesting-code-review

设计

该Skill可在完成任务、实现主要功能或合并代码前自动调度代码审查子代理,确保实现符合需求和计划。它支持通过指定git SHA范围进行精准的代码变更审查,帮助开发者在关键节点及时发现潜在问题。核心原则是"早审查、勤审查",适用于开发流程的各个关键阶段。

查看技能

connect-mcp-server

设计

这个Skill指导开发者如何将MCP服务器连接到Claude Code,支持HTTP、stdio和SSE三种传输协议。它涵盖了从安装配置到认证安全的完整流程,适用于集成GitHub、Notion、数据库等外部服务。当开发者需要添加集成、配置外部工具或提及MCP相关功能时,这个Skill能提供实用的操作指南。

查看技能

web-cli-teleport

设计

该Skill帮助开发者根据任务特性选择Claude Code的Web或CLI界面,并指导如何在两种环境间无缝迁移会话。它能分析任务复杂度、迭代需求等要素,推荐最优工作界面和工作流。关键特性包括会话状态管理、环境切换指导和上下文优化建议。

查看技能