スキル一覧に戻る

liteparse

K-Dense-AI
更新日 Today
26,534
2,743
26,534
GitHubで表示
メタpdfword

について

LiteParseは、PDF、Officeファイル、画像から空間的なバウンディングボックス付きでテキストを抽出するローカル文書パーサーです。スキャン画像に対してはOCR機能を含みます。レイアウトを保持したJSONを出力し、RAGパイプラインに最適です。また、マルチモーダルエージェント向けにPNG形式のページレンダリングも提供します。高速なローカル処理、バウンディングボックスデータ、または文書の結合・分割などの操作が必要な場合は、他のツールよりもLiteParseの使用をお勧めします。

クイックインストール

Claude Code

推奨
メイン
npx skills add K-Dense-AI/claude-scientific-skills -a claude-code
プラグインコマンド代替
/plugin add https://github.com/K-Dense-AI/claude-scientific-skills
Git クローン代替
git clone https://github.com/K-Dense-AI/claude-scientific-skills.git ~/.claude/skills/liteparse

このコマンドをClaude Codeにコピー&ペーストしてスキルをインストールします

ドキュメント

LiteParse — Local Document Parsing

Overview

LiteParse is a fast, open-source document parser (Rust core, Python/Node bindings) focused on local, layout-aware text extraction with bounding boxes. It does not produce Markdown and does not call cloud LLMs. Outputs are plain text (layout-preserved) or structured JSON with per-page text_items (position, font metadata, optional confidence).

Version note: Examples target liteparse 2.0.0 (PyPI, May 2026). The upstream V1 branch is legacy; this skill documents V2 / main only.

For parser selection vs MarkItDown, the pdf skill, or LlamaParse, see references/choosing_a_parser.md.

When to Use This Skill

Use LiteParse when you need:

  • Fast local parsing of PDFs or converted Office/image files without cloud dependencies
  • Spatial text with bounding boxes for layout-aware RAG, citation grounding, or figure/table region logic
  • OCR on scanned PDFs or images (bundled Tesseract, or a user-run HTTP OCR server)
  • Page screenshots (PNG) for multimodal agents that must see charts, figures, or handwriting
  • Batch ingestion of literature folders, supplementary PDFs, or protocol libraries
  • Page subsets or password-protected PDFs

When Not to Use

TaskUse instead
Markdown for LLM ingestion (EPUB, audio, YouTube, HTML)markitdown skill
Merge/split PDFs, forms, watermarks, rotationpdf skill
Dense tables, handwriting, production cloud pipelinesLlamaParse (cloud; sign up separately)

Installation

uv pip install "liteparse==2.0.0"

This installs the Python bindings and the lit CLI. Verify:

lit --help
python -c "import liteparse; print(liteparse.__version__)"

Optional system tools (for non-PDF inputs):

  • LibreOffice — Word, Excel, PowerPoint, OpenDocument, CSV/TSV
  • ImageMagick — PNG, JPEG, TIFF, WebP, SVG, etc.

Install commands are in references/ocr_and_formats.md.

Node.js / TypeScript (optional): npm i @llamaindex/liteparse — see references/api_reference.md.


Quick Start

Python

from liteparse import LiteParse

parser = LiteParse(quiet=True)
result = parser.parse("paper.pdf")
print(result.text)

for page in result.pages:
    print(f"Page {page.page_num}: {len(page.text_items)} items")

CLI

# Layout-preserved text (default)
lit parse paper.pdf

# Structured JSON with bounding boxes
lit parse paper.pdf --format json -o paper.json

# Disable OCR on text-native PDFs (faster)
lit parse paper.pdf --no-ocr

Core Workflows

1. Parse to layout-preserved text

Best for quick full-document text or feeding chunkers that do not need coordinates.

parser = LiteParse(ocr_enabled=True, quiet=True)
result = parser.parse("document.pdf")
full_text = result.text
lit parse document.pdf -o output.txt

2. Parse to structured JSON (bounding boxes)

Use when building layout-aware RAG, highlighting source regions, or joining text with screenshots.

import json
from liteparse import LiteParse

parser = LiteParse(output_format="json", quiet=True)
result = parser.parse("document.pdf")

# Programmatic access
for page in result.pages:
    for item in page.text_items:
        bbox = (item.x, item.y, item.width, item.height)
        # item.text, item.confidence, item.font_name, item.font_size
lit parse document.pdf --format json -o document.json

JSON field layout: references/output_formats.md.

3. Parse specific pages

parser = LiteParse(target_pages="1-5,10,15-20", quiet=True)
result = parser.parse("long_paper.pdf")
lit parse long_paper.pdf --target-pages "1-5,10"

4. Parse from bytes or stdin

Useful for uploads, S3 downloads, or piping remote PDFs.

with open("document.pdf", "rb") as f:
    result = parser.parse(f.read())
curl -sL https://example.com/report.pdf | lit parse -

5. Page screenshots for multimodal agents

Screenshots capture visual content that text extraction alone misses (figures, complex tables, handwriting).

from pathlib import Path

parser = LiteParse(dpi=150, quiet=True)
shots = parser.screenshot("document.pdf", page_numbers=[1, 2, 3])
out = Path("screenshots")
out.mkdir(exist_ok=True)
for s in shots:
    (out / f"page_{s.page_num}.png").write_bytes(s.image_bytes)
lit screenshot document.pdf --target-pages "1,3,5" -o ./screenshots
lit screenshot document.pdf --dpi 300 -o ./screenshots

Combine JSON parse + screenshots when an agent needs both coordinates and pixels for the same pages.

6. Batch-parse a directory

For large corpora, prefer the CLI (parallel OCR workers) or the bundled script.

lit batch-parse ./papers ./parsed --format json --recursive
lit batch-parse ./papers ./parsed --extension .pdf --no-ocr
python scripts/batch_parse_dir.py ./papers ./parsed --format json --recursive

See scripts/batch_parse_dir.py for a Python batch wrapper without network calls.

7. OCR configuration

OCR is on by default. Tesseract is bundled; no extra install for basic English OCR.

parser = LiteParse(
    ocr_enabled=True,
    ocr_language="eng",       # Tesseract codes: fra, deu, etc.
    num_workers=4,            # parallel OCR (default: CPU cores - 1)
    dpi=150,                  # higher DPI → better OCR, slower
)
lit parse scan.pdf --ocr-language fra
lit parse scan.pdf --no-ocr
lit parse scan.pdf --ocr-server-url http://localhost:8080/ocr

Offline / air-gapped: set TESSDATA_PREFIX to a directory of .traineddata files, or pass --tessdata-path. Details: references/ocr_and_formats.md.

8. Encrypted PDFs

parser = LiteParse(password="secret", quiet=True)
result = parser.parse("protected.pdf")
lit parse protected.pdf --password secret

9. Search text items by phrase

Merge adjacent items and return combined bounding boxes for a phrase (e.g. section titles).

from liteparse import search_items

page = result.get_page(1)
matches = search_items(page.text_items, "Materials and Methods", case_sensitive=False)

Multi-Format Inputs

CategoryExtensions (examples)Requirement
PDF.pdfNative
Office.docx, .xlsx, .pptx, .doc, .odt, …LibreOffice
Images.png, .jpg, .tiff, .webp, .svg, …ImageMagick

Files are converted to PDF internally, then parsed. If conversion tools are missing, parsing fails with an actionable error — install the dependency and retry.


Performance Tips

  • --no-ocr on born-digital PDFs — largest speedup
  • target_pages — parse only methods/supplement sections
  • num_workers — scale OCR across CPU cores
  • max_pages — cap very large files (default 1000)
  • lit batch-parse — directory-scale jobs with --recursive and --extension
  • Lower dpi (e.g. 100) when OCR quality is already sufficient

Reference Files

FileRead when
references/choosing_a_parser.mdUnsure whether to use LiteParse, MarkItDown, pdf, or LlamaParse
references/api_reference.mdPython/TypeScript API, types, search_items
references/cli_reference.mdFull lit command flags
references/output_formats.mdJSON schema, bboxes, confidence scores
references/ocr_and_formats.mdTesseract, HTTP OCR, LibreOffice, ImageMagick

Troubleshooting

IssueFix
Office file failsInstall LibreOffice; ensure soffice is on PATH (Windows: add LibreOffice program dir)
Image failsInstall ImageMagick; verify convert or magick works
OCR poor qualityIncrease --dpi; try --ocr-language; or HTTP OCR server
OCR slow--no-ocr if not needed; reduce pages; increase num_workers
Air-gapped OCRexport TESSDATA_PREFIX=/path/to/tessdata or --tessdata-path
ParseError on bytesEnsure input is valid PDF bytes (Office bytes need a file path + conversion)

Resources

GitHub リポジトリ

K-Dense-AI/claude-scientific-skills
パス: skills/liteparse
0
agent-skillsai-scientistbioinformaticschemoinformaticsclaudeclaude-skills

関連スキル

content-collections

メタ

このスキルは、Content Collections(Markdown/MDXファイルを型安全なデータコレクションに変換するTypeScriptファーストのツール)の本番環境でテストされた設定を提供します。Zodバリデーションによる型安全性を実現し、ブログ、ドキュメントサイト、コンテンツ重視のVite + Reactアプリケーション構築時にご利用ください。Viteプラグインの設定、MDXコンパイルから、デプロイ最適化、スキーマバリデーションまで、すべてを網羅しています。

スキルを見る

polymarket

メタ

このスキルは、開発者がPolymarket予測市場プラットフォームを活用したアプリケーション構築を可能にします。API統合による取引や市場データの取得に加え、WebSocketを介したリアルタイムデータストリーミングにより、ライブ取引や市場活動を監視できます。取引戦略の実装や、ライブ市場更新を処理するツールの作成にご利用ください。

スキルを見る

creating-opencode-plugins

メタ

このスキルは、開発者がコマンド、ファイル、LSP操作など25種類以上のイベントタイプにフックするOpenCodeプラグインを作成することを支援します。JavaScript/TypeScriptモジュール向けに、プラグイン構造、イベントAPI仕様、および実装パターンを提供します。カスタムイベント駆動ロジックでOpenCode AIアシスタントのライフサイクルをインターセプト、監視、または拡張する必要がある場合にご利用ください。

スキルを見る

sglang

メタ

SGLangは、高性能なLLMサービングフレームワークであり、RadixAttentionプレフィックスキャッシュを活用したJSON、正規表現、エージェントワークフロー向けの高速で構造化された生成を特長とします。特にプレフィックスが繰り返されるタスクにおいて、大幅に高速な推論を実現し、複雑な構造化出力やマルチターン対話に最適です。制約付きデコードが必要な場合や、広範なプレフィックス共有を伴うアプリケーションを構築する場合は、vLLMなどの代替案ではなくSGLangを選択してください。

スキルを見る