スキル一覧に戻る

tensorrt-llm

zechenzhangAGI
更新日 28 days ago
255 閲覧
62
2
62
GitHubで表示
その他ai

について

TensorRT-LLMは、NVIDIA GPU上で大規模言語モデル(LLM)の推論を最大スループットと最低レイテンシに向けて最適化するNVIDIA製ライブラリです。量子化やマルチGPUスケーリングなどの機能をサポートし、PyTorch比10~100倍高速な性能が求められるプロダクション環境での導入に最適です。NVIDIAハードウェア上で最高のパフォーマンスが必要な場合にご利用ください。よりシンプルな設定の場合はvLLMを、CPUまたはApple Siliconの場合はllama.cppなどの代替手段を選択することをお勧めします。

クイックインストール

Claude Code

推奨
メイン
npx skills add zechenzhangAGI/AI-research-SKILLs -a claude-code
プラグインコマンド代替
/plugin add https://github.com/zechenzhangAGI/AI-research-SKILLs
Git クローン代替
git clone https://github.com/zechenzhangAGI/AI-research-SKILLs.git ~/.claude/skills/tensorrt-llm

このコマンドをClaude Codeにコピー&ペーストしてスキルをインストールします

GitHub リポジトリ

zechenzhangAGI/AI-research-SKILLs
パス: 12-inference-serving/tensorrt-llm
0
aiai-researchclaudeclaude-codeclaude-skillscodex

関連スキル

llamaguard

その他

LlamaGuardは、暴力やヘイトスピーチなど6つの安全性カテゴリーにおいて、LLMの入力と出力をモデレートするMetaの70-80億パラメータモデルです。94〜95%の精度を提供し、vLLM、Hugging Face、Amazon SageMakerを使用してデプロイ可能です。このスキルを使用して、AIアプリケーションにコンテンツフィルタリングと安全策を簡単に統合できます。

スキルを見る

cost-optimization

その他

このClaudeスキルは、リソースの適正サイジング、タグ付け戦略、支出分析を通じて、開発者がクラウドコストを最適化することを支援します。AWS、Azure、GCPにわたるクラウド支出の削減とコストガバナンスの実施のためのフレームワークを提供します。インフラコストの分析、リソースの適正サイジング、または予算制約への対応が必要な際にご利用ください。

スキルを見る

quantizing-models-bitsandbytes

その他

このスキルは、bitsandbytesを使用してLLMを8ビットまたは4ビット精度に量子化し、精度の低下を最小限に抑えつつ50〜75%のメモリ削減を実現します。限られたGPUメモリでより大規模なモデルを実行したり、推論を高速化するのに理想的で、INT8、NF4、FP4などのフォーマットをサポートしています。HuggingFace Transformersと統合され、QLoRAトレーニングや8ビットオプティマイザーを可能にします。

スキルを見る

dispatching-parallel-agents

その他

このClaudeスキルは、複数のエージェントを配備し、3つ以上の独立した問題を並行して調査・修正します。共有状態や依存関係がなく解決可能な、無関係な障害が発生するシナリオ向けに設計されています。中核となる機能は並列問題解決であり、効率を最大化するために独立した問題領域ごとに1つのエージェントを割り当てます。

スキルを見る