SKILL·06B251

fine-tuning-with-trl

Name: fine-tuning-with-trl
Author: davila7

davila7

Обновлено 2 months ago

406 просмотров

18,478

1,685

18,478

Посмотреть на GitHub

ДругоеPost-TrainingTRLReinforcement LearningFine-TuningSFTDPOPPOGRPORLHFPreference AlignmentHuggingFace

О программе

Этот навык позволяет тонкую настройку LLM с использованием методов обучения с подкреплением TRL, включая SFT, DPO и PPO для RLHF и согласования предпочтений. Он предназначен для согласования моделей с обратной связью от людей и работает с HuggingFace Transformers. Используйте его, когда вам необходимо реализовать RLHF, оптимизировать с помощью вознаграждений или обучать на основе человеческих предпочтений.

Быстрая установка

Claude Code

Рекомендуется

Основной

npx skills add davila7/claude-code-templates -a claude-code

Команда плагинаАльтернативный

/plugin add https://github.com/davila7/claude-code-templates

Git клонированиеАльтернативный

git clone https://github.com/davila7/claude-code-templates.git ~/.claude/skills/fine-tuning-with-trl

Скопируйте и вставьте эту команду в Claude Code для установки этого навыка

GitHub репозиторий

davila7/claude-code-templates

Путь: cli-tool/components/skills/ai-research/post-training-trl-fine-tuning

anthropicanthropic-claudeclaudeclaude-code

FAQ

Frequently asked questions

What is the fine-tuning-with-trl skill?

fine-tuning-with-trl is a Claude Skill by davila7. Skills package instructions and resources that Claude loads on demand, so Claude can perform fine-tuning-with-trl-related tasks without extra prompting.

How do I install fine-tuning-with-trl?

Use the install commands on this page: add fine-tuning-with-trl to Claude Code as a plugin, or clone its repository into your skills directory, then restart Claude so it picks up the skill.

What category does fine-tuning-with-trl belong to?

fine-tuning-with-trl is in the Other category, tagged Post-Training, TRL, Reinforcement Learning, Fine-Tuning, SFT and DPO.

Is fine-tuning-with-trl free to use?

Yes. fine-tuning-with-trl is listed on AIMCP and free to install. It runs inside Claude, so no separate service account is required to use the skill itself.

Похожие навыки

llamaguard

Другое

LlamaGuard — это модель от Meta с 7–8 миллиардами параметров для модерации входных и выходных данных больших языковых моделей по шести категориям безопасности, таким как насилие и разжигание ненависти. Она обеспечивает точность 94–95% и может быть развернута с помощью vLLM, Hugging Face или Amazon SageMaker. Используйте этот навык, чтобы легко интегрировать фильтрацию контента и защитные механизмы в ваши ИИ-приложения.

Просмотреть навык

cost-optimization

Другое

Этот навык Claude помогает разработчикам оптимизировать облачные расходы за счет правильного подбора ресурсов, стратегий тегирования и анализа затрат. Он предоставляет framework для сокращения облачных расходов и внедрения управления затратами в AWS, Azure и GCP. Используйте его, когда вам нужно проанализировать расходы на инфраструктуру, оптимизировать ресурсы или уложиться в бюджетные ограничения.

Просмотреть навык

sports-betting-analyzer

Другое

Этот навык Клода анализирует рынки спортивных ставок, включая форы, тоталы и ставки на игроков, изучая исторические тенденции и ситуационную статистику для выявления валуйных ставок. Он предоставляет структурированный вывод в формате markdown с практическими рекомендациями в образовательных целях. Разработчикам следует использовать его для инструментов анализа спортивных ставок, учитывая, что он предназначен исключительно для развлечения и обучения.

Просмотреть навык

quantizing-models-bitsandbytes

Другое

Этот навык выполняет квантизацию LLM до 8-битной или 4-битной точности с использованием библиотеки bitsandbytes, обеспечивая сокращение использования памяти на 50-75% при минимальной потере точности. Он идеально подходит для запуска больших моделей при ограниченной памяти GPU или для ускорения вывода, поддерживая форматы INT8, NF4 и FP4. Навык интегрируется с HuggingFace Transformers и позволяет использовать обучение QLoRA и 8-битные оптимизаторы.

Просмотреть навык