pdf-extractor
について
pdf-extractorは、PDFファイルからテキスト、表、画像を抽出し、開発者が静的な文書を利用可能なデータに変換できるようにします。レポートの処理、表のCSVへの変換、プレゼンテーションからの画像の抽出、およびバッチテキスト変換に最適です。このスキルはpdfplumberを使用して、PDFの内容を構造化された実用的な形式に変換します。
クイックインストール
Claude Code
推奨npx skills add guia-matthieu/clawfu-skills -a claude-code/plugin add https://github.com/guia-matthieu/clawfu-skillsgit clone https://github.com/guia-matthieu/clawfu-skills.git ~/.claude/skills/pdf-extractorこのコマンドをClaude Codeにコピー&ペーストしてスキルをインストールします
ドキュメント
PDF Extractor
Extract text, tables, and images from PDF files using pdfplumber - turn static PDFs into usable data.
When to Use This Skill
- Report processing - Extract data from PDF reports
- Table extraction - Convert PDF tables to CSV
- Image collection - Pull images from presentations
- Text mining - Bulk convert PDFs to searchable text
- Research - Process academic papers and whitepapers
What Claude Does vs What You Decide
| Claude Does | You Decide |
|---|---|
| Structures analysis frameworks | Metric definitions |
| Identifies patterns in data | Business interpretation |
| Creates visualization templates | Dashboard design |
| Suggests optimization areas | Action priorities |
| Calculates statistical measures | Decision thresholds |
Dependencies
pip install pdfplumber pypdf click pandas
# For image extraction:
pip install Pillow
Commands
Extract Text
python scripts/main.py text document.pdf
python scripts/main.py text document.pdf --pages 1-5
Extract Tables
python scripts/main.py tables report.pdf --output tables.csv
python scripts/main.py tables financial.pdf --page 3
Extract Images
python scripts/main.py images presentation.pdf --output ./images/
Merge PDFs
python scripts/main.py merge doc1.pdf doc2.pdf --output combined.pdf
PDF Info
python scripts/main.py info document.pdf
Examples
Example 1: Extract Financial Tables
python scripts/main.py tables annual-report.pdf --output financials.csv
# Output: financials.csv with all tables found
# Also creates individual CSVs: table_page3_1.csv, table_page5_1.csv
Example 2: Batch Convert to Text
python scripts/main.py batch ./pdfs/ --output ./text/
# Converts all PDFs in folder to .txt files
Example 3: Extract Specific Pages
python scripts/main.py text whitepaper.pdf --pages 1,5-10,15
# Extracts only pages 1, 5-10, and 15
Skill Boundaries
What This Skill Does Well
- Structuring data analysis
- Identifying patterns and trends
- Creating visualization frameworks
- Calculating statistical measures
What This Skill Cannot Do
- Access your actual data
- Replace statistical expertise
- Make business decisions
- Guarantee prediction accuracy
Related Skills
- web-scraper - Scrape web content
- content-repurposer - Repurpose extracted content
Skill Metadata
- Mode: centaur
category: automation
subcategory: document-processing
dependencies: [pdfplumber, pypdf, pandas]
difficulty: beginner
time_saved: 4+ hours/week
GitHub リポジトリ
関連スキル
railway-docs
ドキュメントこのスキルは、Railwayの機能や仕様、特定のドキュメントURLに関する質問に答えるために、最新のRailwayドキュメントを取得します。開発者がRailwayの公式情報源から正確かつ最新の情報を直接受け取れるようにします。ユーザーがRailwayの動作方法について尋ねたり、Railwayドキュメントを参照する際にご利用ください。
n8n-code-python
ドキュメントこのClaudeスキルは、n8nのコードノードでPythonコードを記述するための専門的なガイダンスを提供します。具体的には、Pythonの標準ライブラリの使用方法や、`_input`、`_json`、`_node`といったn8n独自の構文の扱い方を解説します。n8n環境内におけるPythonの制限事項を開発者が理解できるよう支援し、ほとんどのワークフローではJavaScriptの使用を推奨しながらも、特定のデータ変換ニーズに対応するPythonソリューションを提案します。
archon
ドキュメントArchonスキルは、RAGを活用したセマンティック検索とプロジェクト管理をREST APIを通じて提供します。ドキュメントの検索、階層的なプロジェクト/タスクの管理、ドキュメントアップロード機能を備えたナレッジ検索の実行にご利用いただけます。外部ドキュメントを検索する際は、他の情報源を利用する前に常にArchonを最優先で使用してください。
n8n-code-javascript
ドキュメントこのClaudeスキルは、n8nのCodeノードでJavaScriptコードを書くための専門的なガイダンスを提供します。`$input`/`$json`変数、HTTPヘルパー、DateTime処理などの重要なn8n固有の構文を網羅し、一般的なエラーのトラブルシューティングも行います。CodeノードでカスタムJavaScript処理を必要とするn8nワークフローを開発する際にご利用ください。
