MCP HubMCP Hub
Вернуться к навыкам

ai-multimodal

Microck
Обновлено 6 days ago
12 просмотров
129
15
129
Посмотреть на GitHub
Метаpdfwordaiapidesigndata

О программе

Этот навык обеспечивает мультимодальную обработку с помощью API Google Gemini для анализа аудио, изображений, видео и документов, а также для генерации изображений. Ключевые возможности включают транскрибирование длинных аудиофайлов, выполнение OCR и визуальных вопросно-ответных операций с изображениями, извлечение данных из PDF и анализ видеоконтента. Используйте его, когда вам необходимо реализовать такие функции, как анализ медиа, извлечение структурированных данных из файлов или генерацию изображений в вашем приложении.

Быстрая установка

Claude Code

Рекомендуется
Основной
npx skills add Microck/ordinary-claude-skills -a claude-code
Команда плагинаАльтернативный
/plugin add https://github.com/Microck/ordinary-claude-skills
Git клонированиеАльтернативный
git clone https://github.com/Microck/ordinary-claude-skills.git ~/.claude/skills/ai-multimodal

Скопируйте и вставьте эту команду в Claude Code для установки этого навыка

GitHub репозиторий

Microck/ordinary-claude-skills
Путь: skills_all/ai-multimodal
0
claudeclaude-codeclaude-skillscollectionlist

Похожие навыки

content-collections

Мета

Этот навык предоставляет проверенную в продакшене настройку для Content Collections — TypeScript-ориентированного инструмента, который преобразует файлы Markdown/MDX в типобезопасные коллекции данных с валидацией Zod. Используйте его при создании блогов, сайтов документации или контентных приложений на Vite + React для обеспечения типобезопасности и автоматической проверки содержимого. Он охватывает всё: от настройки плагина Vite и компиляции MDX до оптимизации развертывания и валидации схем.

Просмотреть навык

polymarket

Мета

Этот навык позволяет разработчикам создавать приложения на платформе прогнозных рынков Polymarket, включая интеграцию с API для торговли и получения рыночных данных. Он также обеспечивает потоковую передачу данных в реальном времени через WebSocket для отслеживания текущих сделок и рыночной активности. Используйте его для реализации торговых стратегий или создания инструментов, обрабатывающих обновления рынка в реальном времени.

Просмотреть навык

creating-opencode-plugins

Мета

Этот навык помогает разработчикам создавать плагины OpenCode, которые подключаются к более чем 25 типам событий, таким как команды, файлы и операции LSP. Он предоставляет структуру плагина, спецификации API событий и шаблоны реализации для модулей на JavaScript/TypeScript. Используйте его, когда вам нужно перехватывать, отслеживать или расширять жизненный цикл ассистента OpenCode AI с помощью пользовательской событийно-ориентированной логики.

Просмотреть навык

sglang

Мета

SGLang — это высокопроизводительный фреймворк для обслуживания больших языковых моделей (LLM), специализирующийся на быстрой структурированной генерации JSON, regex и рабочих процессов агентов с использованием кэширования префиксов RadixAttention. Он обеспечивает значительно более высокую скорость вывода, особенно для задач с повторяющимися префиксами, что делает его идеальным для сложных структурированных результатов и многократных диалогов. Выбирайте SGLang вместо альтернатив, таких как vLLM, когда вам требуется ограниченное декодирование или вы создаете приложения с интенсивным совместным использованием префиксов.

Просмотреть навык