スキル一覧に戻る

blip-2-vision-language

davila7
更新日 27 days ago
532 閲覧
18,478
1,685
18,478
GitHubで表示
デザインMultimodalVision-LanguageImage CaptioningVQAZero-Shot

について

BLIP-2は、マルチモーダルタスクのために、固定された画像エンコーダーと大規模言語モデルを接続する視覚言語フレームワークです。タスク固有のファインチューニングなしで、ゼロショット画像キャプション生成、視覚的質問応答、画像-テキスト検索に使用できます。LLMベースのアプリケーションに最先端の視覚理解機能を追加する必要がある開発者に最適です。

クイックインストール

Claude Code

推奨
メイン
npx skills add davila7/claude-code-templates -a claude-code
プラグインコマンド代替
/plugin add https://github.com/davila7/claude-code-templates
Git クローン代替
git clone https://github.com/davila7/claude-code-templates.git ~/.claude/skills/blip-2-vision-language

このコマンドをClaude Codeにコピー&ペーストしてスキルをインストールします

GitHub リポジトリ

davila7/claude-code-templates
パス: cli-tool/components/skills/ai-research/multimodal-blip-2
0
anthropicanthropic-claudeclaudeclaude-code

関連スキル

executing-plans

デザイン

executing-plansスキルは、完全な実装計画があり、それを管理されたバッチでレビューチェックポイントを設けながら実行する場合に使用します。このスキルは計画を読み込んで批判的にレビューした後、小さなバッチ(デフォルトは3タスク)でタスクを実行し、各バッチの間に進捗状況を報告してアーキテクトのレビューを受けます。これにより、品質管理チェックポイントが組み込まれた体系的な実装が保証されます。

スキルを見る

requesting-code-review

デザイン

このスキルは、コードレビュアーサブエージェントを起動し、処理を進める前に要件に対してコード変更を分析します。タスク完了後、主要な機能の実装後、またはmainブランチへのマージ前などに使用すべきです。このレビューは、現在の実装と元の計画を比較することで、問題を早期に発見するのに役立ちます。

スキルを見る

connect-mcp-server

デザイン

このスキルは、開発者がHTTP、stdio、またはSSEトランスポートを使用してMCPサーバーをClaude Codeに接続するための包括的なガイドを提供します。GitHub、Notion、カスタムAPIなどの外部サービスを統合するためのインストール、設定、認証、セキュリティについて解説しています。MCP統合のセットアップ、外部ツールの設定、またはClaudeのModel Context Protocolを扱う際にご利用ください。

スキルを見る

web-cli-teleport

デザイン

このスキルは、タスク分析に基づいて開発者がClaude Code WebとCLIインターフェースの選択を支援し、これらの環境間でのシームレスなセッションテレポーテーションを可能にします。Web、CLI、モバイル環境を切り替える際のセッション状態とコンテキストを管理することで、ワークフローを最適化します。様々な段階で異なるツールを必要とする複雑なプロジェクトにご活用ください。

スキルを見る