pdf-extractor
Über
pdf-extractor extrahiert Text, Tabellen und Bilder aus PDF-Dateien und ermöglicht Entwicklern, statische Dokumente in nutzbare Daten umzuwandeln. Es ist ideal für die Verarbeitung von Berichten, die Umwandlung von Tabellen in CSV, das Extrahieren von Bildern aus Präsentationen und die Stapelkonvertierung von Text. Diese Skill verwendet pdfplumber, um PDF-Inhalte in strukturierte, verwertbare Formate zu überführen.
Schnellinstallation
Claude Code
Empfohlennpx skills add guia-matthieu/clawfu-skills -a claude-code/plugin add https://github.com/guia-matthieu/clawfu-skillsgit clone https://github.com/guia-matthieu/clawfu-skills.git ~/.claude/skills/pdf-extractorKopieren Sie diesen Befehl und fügen Sie ihn in Claude Code ein, um diese Fähigkeit zu installieren
Dokumentation
PDF Extractor
Extract text, tables, and images from PDF files using pdfplumber - turn static PDFs into usable data.
When to Use This Skill
- Report processing - Extract data from PDF reports
- Table extraction - Convert PDF tables to CSV
- Image collection - Pull images from presentations
- Text mining - Bulk convert PDFs to searchable text
- Research - Process academic papers and whitepapers
What Claude Does vs What You Decide
| Claude Does | You Decide |
|---|---|
| Structures analysis frameworks | Metric definitions |
| Identifies patterns in data | Business interpretation |
| Creates visualization templates | Dashboard design |
| Suggests optimization areas | Action priorities |
| Calculates statistical measures | Decision thresholds |
Dependencies
pip install pdfplumber pypdf click pandas
# For image extraction:
pip install Pillow
Commands
Extract Text
python scripts/main.py text document.pdf
python scripts/main.py text document.pdf --pages 1-5
Extract Tables
python scripts/main.py tables report.pdf --output tables.csv
python scripts/main.py tables financial.pdf --page 3
Extract Images
python scripts/main.py images presentation.pdf --output ./images/
Merge PDFs
python scripts/main.py merge doc1.pdf doc2.pdf --output combined.pdf
PDF Info
python scripts/main.py info document.pdf
Examples
Example 1: Extract Financial Tables
python scripts/main.py tables annual-report.pdf --output financials.csv
# Output: financials.csv with all tables found
# Also creates individual CSVs: table_page3_1.csv, table_page5_1.csv
Example 2: Batch Convert to Text
python scripts/main.py batch ./pdfs/ --output ./text/
# Converts all PDFs in folder to .txt files
Example 3: Extract Specific Pages
python scripts/main.py text whitepaper.pdf --pages 1,5-10,15
# Extracts only pages 1, 5-10, and 15
Skill Boundaries
What This Skill Does Well
- Structuring data analysis
- Identifying patterns and trends
- Creating visualization frameworks
- Calculating statistical measures
What This Skill Cannot Do
- Access your actual data
- Replace statistical expertise
- Make business decisions
- Guarantee prediction accuracy
Related Skills
- web-scraper - Scrape web content
- content-repurposer - Repurpose extracted content
Skill Metadata
- Mode: centaur
category: automation
subcategory: document-processing
dependencies: [pdfplumber, pypdf, pandas]
difficulty: beginner
time_saved: 4+ hours/week
GitHub Repository
Verwandte Skills
railway-docs
DokumentationDiese Fähigkeit ruft aktuelle Railway-Dokumentation ab, um Fragen zu Funktionen, Funktionalität oder spezifischen Dokumentations-URLs zu beantworten. Sie stellt sicher, dass Entwickler genaue, aktuelle Informationen direkt aus den offiziellen Quellen von Railway erhalten. Nutzen Sie sie, wenn Nutzer fragen, wie Railway funktioniert oder auf Railway-Dokumentation verweisen.
n8n-code-python
DokumentationDieses Claude Skill bietet fachkundige Anleitung zum Schreiben von Python-Code in n8n-Code-Nodes, insbesondere für die Verwendung der Python-Standardbibliothek und den Umgang mit n8ns spezieller Syntax wie `_input`, `_json` und `_node`. Es hilft Entwicklern, die Grenzen von Python innerhalb von n8n zu verstehen, empfiehlt JavaScript für die meisten Workflows und bietet gleichzeitig Python-Lösungen für spezifische Datenumwandlungsanforderungen.
archon
DokumentationDie Archon-Funktion bietet semantische Suche auf RAG-Basis und Projektmanagement über eine REST-API. Nutzen Sie sie für das Abfragen von Dokumentation, die Verwaltung hierarchischer Projekte/Aufgaben und die Durchführung von Wissenabruf mit Dokumenten-Upload-Fähigkeiten. Priorisieren Sie stets Archon zuerst bei der Suche in externer Dokumentation, bevor Sie andere Quellen verwenden.
n8n-code-javascript
DokumentationDiese Claude-Skill bietet fachkundige Anleitung für das Schreiben von JavaScript-Code in n8n-Code-Nodes. Sie behandelt wesentliche n8n-spezifische Syntax wie `$input`/`$json`-Variablen, HTTP-Helfer und DateTime-Verarbeitung und hilft bei der Fehlerbehebung häufiger Probleme. Nutzen Sie sie bei der Entwicklung von n8n-Workflows, die eine benutzerdefinierte JavaScript-Verarbeitung in Code-Nodes erfordern.
