label-training-data
정보
이 스킬은 Label Studio와 같은 도구를 사용하여 체계적인 데이터 라벨링 워크플로우를 설정하고, 품질 관리를 구현하며, 라벨링 담당자 팀을 관리합니다. 이는 지도 학습 ML 프로젝트를 시작할 때, 모델 성능이 불충분한 라벨링 데이터로 인해 제한될 때, 또는 능동 학습을 구현할 때 도움이 됩니다. 주요 기능으로는 주석자 간 일치도 측정과 텍스트, 이미지, 오디오, 비디오용 ML 학습 파이프라인에 라벨링된 데이터를 통합하는 것이 포함됩니다.
빠른 설치
Claude Code
추천npx skills add pjt222/agent-almanac -a claude-code/plugin add https://github.com/pjt222/agent-almanacgit clone https://github.com/pjt222/agent-almanac.git ~/.claude/skills/label-training-dataClaude Code에서 이 명령을 복사하여 붙여넣어 스킬을 설치하세요
문서
標訓練數據
全配置文件與模板詳見 Extended Examples。
以 Label Studio 系統標 ML 監督數據,附質控與高效流程。
用
- 啟需標數據之監督 ML 項目
- 模型因標例不足而性能限
- 標文、圖、音、視數據
- 量並改註質
- 管多技能註者隊
- 施主動學以擇要例
- 追進度與本
- 確多註者間標一致
入
- 必:未標數據集(圖、文、音、視)
- 必:標模(類、屬、或註型)
- 必:標指南文
- 可:既標(質比)
- 可:模預測用於預註
- 可:預算與期約
- 可:難例處有域專家
行
一:裝並配 Label Studio
以 Label Studio 為標平台:
# Install Label Studio
pip install label-studio
# Or use Docker for production
docker pull heartexlabs/label-studio:latest
# Create project directory
mkdir -p labeling-project/{data,exports,config}
cd labeling-project
# Initialize Label Studio
label-studio init my_project
# Start Label Studio server
label-studio start my_project --port 8080
訪 http://localhost:8080(首訪時造憑)。
生產 Docker 部署:
# docker-compose.yml
version: '3.8'
services:
label-studio:
image: heartexlabs/label-studio:latest
ports:
- "8080:8080"
# ... (see EXAMPLES.md for complete implementation)
docker-compose up -d
得:Label Studio 運行可訪,生產用 PostgreSQL 已初。
敗:8080 占→改配置;Docker 敗→查守護進程;確磁足容數據卷;查防火牆許 8080。
二:設標接口與模
為任型造標配:
# labeling-project/config/labeling_config.py
"""
Label Studio configuration templates for common tasks.
"""
# Text Classification (single label)
TEXT_CLASSIFICATION = """
<View>
# ... (see EXAMPLES.md for complete implementation)
得:標接口按任型配適當控件,數據導入成,註者可訪接口。
敗:以 Label Studio 配驗器驗 XML;查數據文件格式(JSON 或 CSV);若用外部存→確圖/音 URL 可訪;驗 API 鍵權限正。
三:備數據並施採樣策略
格化數據以導並優先標例:
# labeling-project/prepare_data.py
import pandas as pd
import json
import random
from typing import List, Dict
from sklearn.cluster import KMeans
import numpy as np
# ... (see EXAMPLES.md for complete implementation)
得:數據正格化以導 Label Studio,採樣策略優先信息例,任含追蹤元。
敗:以 jq 或 Python json.load() 驗 JSON 格;若用遠圖→確 URL 可訪;確無特殊字符破 JSON 編;驗列名匹配置。
四:施質控與 IAA 量
立量並改註質之過程:
# labeling-project/quality_control.py
import pandas as pd
import numpy as np
from sklearn.metrics import cohen_kappa_score, confusion_matrix
from typing import Dict, List, Tuple
import logging
logging.basicConfig(level=logging.INFO)
# ... (see EXAMPLES.md for complete implementation)
得:註者間一致量(Cohen's Kappa > 0.6 中,> 0.8 佳),難任識待審,註者性能追。
敗:Kappa 極低(< 0.4)→審標指南之明、再訓註者、簡標模、察歧例、考用專家註為金標。
五:出並合標數據
出標並備 ML 訓:
# labeling-project/export_labels.py
import requests
import pandas as pd
import json
from typing import List, Dict
import logging
logger = logging.getLogger(__name__)
# ... (see EXAMPLES.md for complete implementation)
得:註以訓備格出,標分布平衡或記,訓前驗數據質。
敗:驗 API 鍵權;察出格與 ML 框兼容;優處缺註;驗 JSON 結構匹預期格。
六:立連續標管線
以主動學合自動化標流程:
# labeling-project/active_learning_pipeline.py
import schedule
import time
import logging
from datetime import datetime
from prepare_data import DataSampler, prepare_label_studio_format
from export_labels import LabelStudioExporter, convert_to_training_format
import pandas as pd
# ... (see EXAMPLES.md for complete implementation)
得:主動學自動擇信息例,週備標批,新標足時重訓模。
敗:若不確採樣不改模→試多樣採樣;註者趕不上→減批大;監標隊長;隊過大施反壓。
驗
- Label Studio 可訪且響應
- 標接口直觀(試樣註者)
- 數據導入成且格正
- 註者間一致(Cohen's Kappa)> 0.6
- 質控識問題任
- 標以訓備格出
- 標分布匹預期(或意偏)
- 主動學管線無手動運行
- 註吞吐合項目期
忌
- 指南不清:歧指示致標不一;投詳指南附例
- 重疊不足:無多註者→不可量 IAA;用 10-20% 重疊
- 忽難例:邊緣常略而對模堅健關鍵;標待專家審
- 批效:註者倦或學致時間不一;隨任序
- 無質反饋:無反饋註者不改;常精度報告
- 採樣錯:隨採費預算於易例;用不確或多樣採樣
- 獨立標:複任需域專家;初新手配專家
- 不追本:標昂;監任時與總預算耗
參
version-ml-data- 標數據集之版控track-ml-experiments- 追模性能隨標增
GitHub 저장소
연관 스킬
executing-plans
디자인executing-plans 스킬은 검토 체크포인트가 포함된 통제된 배치로 실행할 완전한 구현 계획이 있을 때 사용합니다. 이 스킬은 계획을 불러와 비판적으로 검토한 후, 소규모 배치(기본값 3개 작업)로 작업을 실행하면서 각 배치 사이에 진행 상황을 아키텍트 검토를 위해 보고합니다. 이를 통해 내재된 품질 관리 체크포인트를 갖춘 체계적인 구현이 보장됩니다.
requesting-code-review
디자인이 스킬은 코드 변경 사항을 요구 사항에 따라 분석하기 위해 코드 리뷰어 하위 에이전트를 호출합니다. 작업 완료 후, 주요 기능 구현 후, 또는 메인 브랜치에 병합하기 전에 사용해야 합니다. 이 리뷰는 현재 구현체와 원래 계획을 비교하여 문제를 조기에 발견하는 데 도움이 됩니다.
connect-mcp-server
디자인이 스킬은 개발자들이 HTTP, stdio 또는 SSE 전송 방식을 통해 MCP 서버를 Claude Code에 연결하는 포괄적인 가이드를 제공합니다. GitHub, Notion 및 사용자 정의 API와 같은 외부 서비스를 통합하기 위한 설치, 구성, 인증 및 보안을 다룹니다. MCP 통합 설정, 외부 도구 구성 또는 Claude의 모델 컨텍스트 프로토콜 작업 시 활용하세요.
web-cli-teleport
디자인이 스킬은 작업 분석을 기반으로 개발자가 Claude Code 웹 인터페이스와 CLI 인터페이스 중 선택할 수 있도록 돕고, 두 환경 간 원활한 세션 텔레포트를 가능하게 합니다. 웹, CLI 또는 모바일 환경 전환 시 세션 상태와 컨텍스트를 관리하여 워크플로를 최적화합니다. 다양한 단계에서 서로 다른 도구가 필요한 복잡한 프로젝트에 사용하세요.
