pdf-extractor
Acerca de
pdf-extractor extrae texto, tablas e imágenes de archivos PDF, permitiendo a los desarrolladores convertir documentos estáticos en datos utilizables. Es ideal para procesar informes, convertir tablas a CSV, extraer imágenes de presentaciones y realizar conversiones de texto por lotes. Esta habilidad utiliza pdfplumber para transformar el contenido de PDF en formatos estructurados y procesables.
Instalación rápida
Claude Code
Recomendadonpx skills add guia-matthieu/clawfu-skills -a claude-code/plugin add https://github.com/guia-matthieu/clawfu-skillsgit clone https://github.com/guia-matthieu/clawfu-skills.git ~/.claude/skills/pdf-extractorCopia y pega este comando en Claude Code para instalar esta habilidad
Documentación
PDF Extractor
Extract text, tables, and images from PDF files using pdfplumber - turn static PDFs into usable data.
When to Use This Skill
- Report processing - Extract data from PDF reports
- Table extraction - Convert PDF tables to CSV
- Image collection - Pull images from presentations
- Text mining - Bulk convert PDFs to searchable text
- Research - Process academic papers and whitepapers
What Claude Does vs What You Decide
| Claude Does | You Decide |
|---|---|
| Structures analysis frameworks | Metric definitions |
| Identifies patterns in data | Business interpretation |
| Creates visualization templates | Dashboard design |
| Suggests optimization areas | Action priorities |
| Calculates statistical measures | Decision thresholds |
Dependencies
pip install pdfplumber pypdf click pandas
# For image extraction:
pip install Pillow
Commands
Extract Text
python scripts/main.py text document.pdf
python scripts/main.py text document.pdf --pages 1-5
Extract Tables
python scripts/main.py tables report.pdf --output tables.csv
python scripts/main.py tables financial.pdf --page 3
Extract Images
python scripts/main.py images presentation.pdf --output ./images/
Merge PDFs
python scripts/main.py merge doc1.pdf doc2.pdf --output combined.pdf
PDF Info
python scripts/main.py info document.pdf
Examples
Example 1: Extract Financial Tables
python scripts/main.py tables annual-report.pdf --output financials.csv
# Output: financials.csv with all tables found
# Also creates individual CSVs: table_page3_1.csv, table_page5_1.csv
Example 2: Batch Convert to Text
python scripts/main.py batch ./pdfs/ --output ./text/
# Converts all PDFs in folder to .txt files
Example 3: Extract Specific Pages
python scripts/main.py text whitepaper.pdf --pages 1,5-10,15
# Extracts only pages 1, 5-10, and 15
Skill Boundaries
What This Skill Does Well
- Structuring data analysis
- Identifying patterns and trends
- Creating visualization frameworks
- Calculating statistical measures
What This Skill Cannot Do
- Access your actual data
- Replace statistical expertise
- Make business decisions
- Guarantee prediction accuracy
Related Skills
- web-scraper - Scrape web content
- content-repurposer - Repurpose extracted content
Skill Metadata
- Mode: centaur
category: automation
subcategory: document-processing
dependencies: [pdfplumber, pypdf, pandas]
difficulty: beginner
time_saved: 4+ hours/week
Repositorio GitHub
Habilidades relacionadas
railway-docs
DocumentaciónEsta habilidad obtiene la documentación actual de Railway para responder preguntas sobre características, funcionalidad o URLs específicas de documentación. Garantiza que los desarrolladores reciban información precisa y actualizada directamente de las fuentes oficiales de Railway. Úsala cuando los usuarios pregunten cómo funciona Railway o hagan referencia a la documentación de Railway.
n8n-code-python
DocumentaciónEsta Skill de Claude proporciona orientación experta para escribir código Python en los nodos Code de n8n, específicamente para usar la biblioteca estándar de Python y trabajar con la sintaxis especial de n8n como `_input`, `_json` y `_node`. Ayuda a los desarrolladores a comprender las limitaciones de Python dentro de n8n y recomienda usar JavaScript para la mayoría de los flujos de trabajo, mientras ofrece soluciones en Python para necesidades específicas de transformación de datos.
archon
DocumentaciónLa habilidad Archon proporciona búsqueda semántica con tecnología RAG y gestión de proyectos a través de una API REST. Úsala para consultar documentación, gestionar proyectos/tareas jerárquicos y realizar recuperación de conocimiento con capacidades de carga de documentos. Prioriza siempre a Archon en primer lugar al buscar en documentación externa antes de utilizar otras fuentes.
n8n-code-javascript
DocumentaciónEsta habilidad de Claude proporciona orientación experta para escribir código JavaScript en los nodos de Código de n8n. Cubre sintaxis esencial específica de n8n como las variables `$input`/`$json`, ayudantes HTTP y manejo de DateTime, mientras soluciona errores comunes. Úsela al desarrollar flujos de trabajo en n8n que requieran procesamiento personalizado de JavaScript en los nodos de Código.
