SKILL·866DC6

pysam

Name: pysam
Author: K-Dense-AI

K-Dense-AI

업데이트됨 1 month ago

31,025

3,113

31,025

GitHub에서 보기

문서data

정보

Pysam은 SAM/BAM/CRAM, VCF/BCF, FASTA/FASTQ 파일을 읽고, 쓰고, 분석하기 위한 파이썬 유전체 파일 툴킷입니다. 이는 영역 추출, 커버리지 계산, samtools 명령어 실행과 같은 작업을 위해 htslib에 대한 파이썬 방식의 인터페이스를 제공합니다. 이 스킬을 NGS 데이터 처리 파이프라인에서 정렬 분석, 변이 검출, 시퀀싱 데이터 품질 관리에 활용하세요.

빠른 설치

Claude Code

문서

Pysam

Overview

Pysam is a Python module for reading, manipulating, and writing genomic datasets. Read/write SAM/BAM/CRAM alignment files, VCF/BCF variant files, and FASTA/FASTQ sequences with a Pythonic interface to htslib. Query tabix-indexed files, perform pileup analysis for coverage, and execute samtools/bcftools commands.

When to Use This Skill

This skill should be used when:

Working with sequencing alignment files (BAM/CRAM)
Analyzing genetic variants (VCF/BCF)
Extracting reference sequences or gene regions
Processing raw sequencing data (FASTQ)
Calculating coverage or read depth
Implementing bioinformatics analysis pipelines
Quality control of sequencing data
Variant calling and annotation workflows

Quick Start

Installation

uv pip install pysam

Basic Examples

Read alignment file:

import pysam

# Open BAM file and fetch reads in region
samfile = pysam.AlignmentFile("example.bam", "rb")
for read in samfile.fetch("chr1", 1000, 2000):
    print(f"{read.query_name}: {read.reference_start}")
samfile.close()

Read variant file:

# Open VCF file and iterate variants
vcf = pysam.VariantFile("variants.vcf")
for variant in vcf:
    print(f"{variant.chrom}:{variant.pos} {variant.ref}>{variant.alts}")
vcf.close()

Query reference sequence:

# Open FASTA and extract sequence
fasta = pysam.FastaFile("reference.fasta")
sequence = fasta.fetch("chr1", 1000, 2000)
print(sequence)
fasta.close()

Core Capabilities

1. Alignment File Operations (SAM/BAM/CRAM)

Use the AlignmentFile class to work with aligned sequencing reads. This is appropriate for analyzing mapping results, calculating coverage, extracting reads, or quality control.

Common operations:

Open and read BAM/SAM/CRAM files
Fetch reads from specific genomic regions
Filter reads by mapping quality, flags, or other criteria
Write filtered or modified alignments
Calculate coverage statistics
Perform pileup analysis (base-by-base coverage)
Access read sequences, quality scores, and alignment information

Reference: See references/alignment_files.md for detailed documentation on:

Opening and reading alignment files
AlignedSegment attributes and methods
Region-based fetching with fetch()
Pileup analysis for coverage
Writing and creating BAM files
Coordinate systems and indexing
Performance optimization tips

2. Variant File Operations (VCF/BCF)

Use the VariantFile class to work with genetic variants from variant calling pipelines. This is appropriate for variant analysis, filtering, annotation, or population genetics.

Common operations:

Read and write VCF/BCF files
Query variants in specific regions
Access variant information (position, alleles, quality)
Extract genotype data for samples
Filter variants by quality, allele frequency, or other criteria
Annotate variants with additional information
Subset samples or regions

Reference: See references/variant_files.md for detailed documentation on:

Opening and reading variant files
VariantRecord attributes and methods
Accessing INFO and FORMAT fields
Working with genotypes and samples
Creating and writing VCF files
Filtering and subsetting variants
Multi-sample VCF operations

3. Sequence File Operations (FASTA/FASTQ)

Use FastaFile for random access to reference sequences and FastxFile for reading raw sequencing data. This is appropriate for extracting gene sequences, validating variants against reference, or processing raw reads.

Common operations:

Query reference sequences by genomic coordinates
Extract sequences for genes or regions of interest
Read FASTQ files with quality scores
Validate variant reference alleles
Calculate sequence statistics
Filter reads by quality or length
Convert between FASTA and FASTQ formats

Reference: See references/sequence_files.md for detailed documentation on:

FASTA file access and indexing
Extracting sequences by region
Handling reverse complement for genes
Reading FASTQ files sequentially
Quality score conversion and filtering
Working with tabix-indexed files (BED, GTF, GFF)
Common sequence processing patterns

4. Integrated Bioinformatics Workflows

Pysam excels at integrating multiple file types for comprehensive genomic analyses. Common workflows combine alignment files, variant files, and reference sequences.

Common workflows:

Calculate coverage statistics for specific regions
Validate variants against aligned reads
Annotate variants with coverage information
Extract sequences around variant positions
Filter alignments or variants based on multiple criteria
Generate coverage tracks for visualization
Quality control across multiple data types

Reference: See references/common_workflows.md for detailed examples of:

Quality control workflows (BAM statistics, reference consistency)
Coverage analysis (per-base coverage, low coverage detection)
Variant analysis (annotation, filtering by read support)
Sequence extraction (variant contexts, gene sequences)
Read filtering and subsetting
Integration patterns (BAM+VCF, VCF+BED, etc.)
Performance optimization for complex workflows

Key Concepts

Coordinate Systems

Critical: Pysam uses 0-based, half-open coordinates (Python convention):

Start positions are 0-based (first base is position 0)
End positions are exclusive (not included in the range)
Region 1000-2000 includes bases 1000-1999 (1000 bases total)

Exception: Region strings in fetch() follow samtools convention (1-based):

samfile.fetch("chr1", 999, 2000)      # 0-based: positions 999-1999
samfile.fetch("chr1:1000-2000")       # 1-based string: positions 1000-2000

VCF files: Use 1-based coordinates in the file format, but VariantRecord.start is 0-based.

Indexing Requirements

Random access to specific genomic regions requires index files:

BAM files: Require .bai index (create with pysam.index())
CRAM files: Require .crai index
FASTA files: Require .fai index (create with pysam.faidx())
VCF.gz files: Require .tbi tabix index (create with pysam.tabix_index())
BCF files: Require .csi index

Without an index, use fetch(until_eof=True) for sequential reading.

File Modes

Specify format when opening files:

"rb" - Read BAM (binary)
"r" - Read SAM (text)
"rc" - Read CRAM
"wb" - Write BAM
"w" - Write SAM
"wc" - Write CRAM

Performance Considerations

Always use indexed files for random access operations
Use pileup() for column-wise analysis instead of repeated fetch operations
Use count() for counting instead of iterating and counting manually
Process regions in parallel when analyzing independent genomic regions
Close files explicitly to free resources
Use until_eof=True for sequential processing without index
Avoid multiple iterators unless necessary (use multiple_iterators=True if needed)

Common Pitfalls

Coordinate confusion: Remember 0-based vs 1-based systems in different contexts
Missing indices: Many operations require index files—create them first
Partial overlaps: fetch() returns reads overlapping region boundaries, not just those fully contained
Iterator scope: Keep pileup iterator references alive to avoid "PileupProxy accessed after iterator finished" errors
Quality score editing: Cannot modify query_qualities in place after changing query_sequence—create a copy first
Stream limitations: Only stdin/stdout are supported for streaming, not arbitrary Python file objects
Thread safety: While GIL is released during I/O, comprehensive thread-safety hasn't been fully validated

Command-Line Tools

Pysam provides access to samtools and bcftools commands:

# Sort BAM file
pysam.samtools.sort("-o", "sorted.bam", "input.bam")

# Index BAM
pysam.samtools.index("sorted.bam")

# View specific region
pysam.samtools.view("-b", "-o", "region.bam", "input.bam", "chr1:1000-2000")

# BCF tools
pysam.bcftools.view("-O", "z", "-o", "output.vcf.gz", "input.vcf")

Error handling:

try:
    pysam.samtools.sort("-o", "output.bam", "input.bam")
except pysam.SamtoolsError as e:
    print(f"Error: {e}")

Resources

references/

Detailed documentation for each major capability:

alignment_files.md - Complete guide to SAM/BAM/CRAM operations, including AlignmentFile class, AlignedSegment attributes, fetch operations, pileup analysis, and writing alignments
variant_files.md - Complete guide to VCF/BCF operations, including VariantFile class, VariantRecord attributes, genotype handling, INFO/FORMAT fields, and multi-sample operations
sequence_files.md - Complete guide to FASTA/FASTQ operations, including FastaFile and FastxFile classes, sequence extraction, quality score handling, and tabix-indexed file access
common_workflows.md - Practical examples of integrated bioinformatics workflows combining multiple file types, including quality control, coverage analysis, variant validation, and sequence extraction

Getting Help

For detailed information on specific operations, refer to the appropriate reference document:

Working with BAM files or calculating coverage → alignment_files.md
Analyzing variants or genotypes → variant_files.md
Extracting sequences or processing FASTQ → sequence_files.md
Complex workflows integrating multiple file types → common_workflows.md

Official documentation: https://pysam.readthedocs.io/

GitHub 저장소

K-Dense-AI/claude-scientific-skills

경로: skills/pysam

agent-skillsai-scientistbioinformaticschemoinformaticsclaudeclaude-skills

FAQ

Frequently asked questions

What is the pysam skill?

pysam is a Claude Skill by K-Dense-AI. Skills package instructions and resources that Claude loads on demand, so Claude can perform pysam-related tasks without extra prompting.

How do I install pysam?

Use the install commands on this page: add pysam to Claude Code as a plugin, or clone its repository into your skills directory, then restart Claude so it picks up the skill.

What category does pysam belong to?

pysam is in the Documentation category, tagged data.

Is pysam free to use?

Yes. pysam is listed on AIMCP and free to install. It runs inside Claude, so no separate service account is required to use the skill itself.

연관 스킬

railway-docs

문서

이 스킬은 Railway의 기능, 작동 방식 또는 특정 문서 URL에 대한 질문에 답하기 위해 최신 Railway 문서를 가져옵니다. 개발자들이 Railway의 공식 소스로부터 정확하고 최신 정보를 직접 받을 수 있도록 보장합니다. 사용자가 Railway의 작동 방식을 묻거나 Railway 문서를 참조할 때 사용하세요.

스킬 보기

n8n-code-python

문서

이 Claude Skill은 n8n의 Code 노드에서 Python 코드를 작성할 때 전문적인 지침을 제공하며, 특히 Python 표준 라이브러리 사용과 n8n의 특수 구문인 `_input`, `_json`, `_node` 작업에 중점을 둡니다. 이는 개발자가 n8n 내에서 Python의 제한 사항을 이해하도록 돕고, 대부분의 워크플로에는 JavaScript 사용을 권장하면서도 특정 데이터 변환 요구사항에 대한 Python 솔루션을 제안합니다.

스킬 보기

archon

문서

Archon 스킬은 REST API를 통해 RAG 기반 시맨틱 검색과 프로젝트 관리를 제공합니다. 이 스킬을 사용하여 문서 검색, 계층적 프로젝트/태스크 관리, 문서 업로드 기능을 갖춘 지식 검색을 수행할 수 있습니다. 외부 문서를 검색할 때는 다른 소스를 사용하기 전에 항상 Archon을 최우선으로 활용하세요.

스킬 보기

n8n-code-javascript

문서

이 Claude Skill은 n8n의 Code 노드에서 JavaScript 코드 작성에 대한 전문적인 지침을 제공합니다. `$input`/`$json` 변수, HTTP 헬퍼, DateTime 처리와 같은 필수적인 n8n 특정 구문을 다루며 일반적인 오류를 해결합니다. Code 노드에서 사용자 정의 JavaScript 처리가 필요한 n8n 워크플로우를 개발할 때 활용하세요.

스킬 보기