MCP HubMCP Hub
Retour aux compétences

rotate-scraping-proxies

pjt222
Mis à jour 6 days ago
18 vues
17
2
17
Voir sur GitHub
Développementaiapidata

À propos

Cette compétence offre une rotation de proxies pour le web scraping lorsque les techniques de furtivité de base échouent. Elle permet aux développeurs de choisir entre des pools de proxies de centres de données, résidentiels et mobiles, d'intégrer la rotation avec les outils de scraping et de gérer la persistance de session. Utilisez-la pour contourner les blocages tout en conservant le contrôle des coûts et en respectant les limites éthiques pour des campagnes de scraping légitimes.

Installation rapide

Claude Code

Recommandé
Principal
npx skills add pjt222/agent-almanac -a claude-code
Commande PluginAlternatif
/plugin add https://github.com/pjt222/agent-almanac
Git CloneAlternatif
git clone https://github.com/pjt222/agent-almanac.git ~/.claude/skills/rotate-scraping-proxies

Copiez et collez cette commande dans Claude Code pour installer cette compétence

Documentation

輪代

擷阻時代之輪。末計也,貴、難、易誤用。教知不用之時亦如善用。

  • headless-web-scraping(Fetcher → StealthyFetcher → DynamicFetcher)已試而仍 403/429/地阻→用
  • 限速已 ≥ 3 秒、robots.txt 許→用
  • UA、TLS 印已逼真→用
  • 擷合法:公訊、無破權、無越牆、無私訊→用
  • 可承代費與運繁→用

勿用:公 API 存(用之)、ToS 禁自動、越地授、欺詐、堆證、鞋機、盜版。

  • :標 URL 與擷之法基
  • :代池憑(讀環境,勿硬碼)
  • :池類—中心、宅、行
  • :地標(國/區/市)
  • :輪粒—請求(默)或粘
  • :日量/費限
  • :限速秒(默:1,雖輪猶用)

一:法倫察

文錄之法倫察為閘。略此為害源。

# Inputs to confirm before writing any code:
# 1. Is the data public (no login required)?
# 2. Does robots.txt permit the path?
# 3. Does the site's ToS prohibit automated access? (read it)
# 4. Would the scraping process personal data? If yes, what is the legal basis?
# 5. Could this access circumvent geo-licensing, paywalls, or auth?
# 6. Is there a public API or data dump that would make scraping unnecessary?
# 7. Have you contacted the site owner if scope is large?

得:諸問皆有可辯之答。首「否」/「未知」即停。

敗:

  • ToS 禁→勿行;聯主或用官 API/授集
  • 私訊無基→勿行;徵隱私顧問
  • 越權/越地→無論何況勿行

二:擇池類

各類費、可察、倫殊。擇可解阻之最廉。

池類可察
中心$無真反機之站、僅地遷
$$$阻中心 ASN 之站
極低$$$$阻宅之站(罕)

宅、行倫慮:經真消費連線。供商徵同模殊—有付用者,有「免 VPN」EULA 暗包者。宜選審計、入式同意。汝若不願外人擷流經汝家,勿經他人。

得:文錄擇—最廉可行、附拒高之故。

敗:

  • 中心阻、宅超預→縮擷範前升
  • 無入式同意供→重思擷之必

三:合 scrapling

接代於 scrapling 擷。讀環境憑—勿硬碼,勿提交 .env

import os
import random
from scrapling import Fetcher, StealthyFetcher

PROXY_URL = os.environ["SCRAPING_PROXY_URL"]

fetcher = StealthyFetcher()
fetcher.configure(
    headless=True,
    timeout=60,
    network_idle=True,
    proxy=PROXY_URL,
)

POOL = os.environ["SCRAPING_PROXY_POOL"].split(",")

def fetch_with_rotation(url):
    proxy = random.choice(POOL)
    fetcher = StealthyFetcher()
    fetcher.configure(headless=True, timeout=60, proxy=proxy)
    return fetcher.get(url)

得:請求成、出口 IP 變。實擷前以 IP 回顯端(如 https://api.ipify.org)驗。

敗:

  • 407 Proxy Authentication Required→憑誤或密碼編碼壞
  • 諸請同 IP→默粘;查 -rotating 或請求標
  • 大延→可期;輪加 200–2000ms

四:粘會與池健

按工選輪粒,繼保池健。

def check_pool(pool, sample_size=5):
    sample = random.sample(pool, min(sample_size, len(pool)))
    alive = []
    for proxy in sample:
        try:
            r = StealthyFetcher().configure(proxy=proxy, timeout=10).get(
                "https://api.ipify.org"
            )
            if r.status == 200:
                alive.append(proxy)
        except Exception:
            pass
    return alive

def fetch_with_backoff(url, max_attempts=3):
    for attempt in range(max_attempts):
        try:
            r = fetch_with_rotation(url)
            if r.status not in (407, 502, 503):
                return r
        except Exception:
            pass
        time.sleep(2 ** attempt)
    return None

得:態流保 cookie;匿擷示 IP 變;死代跳過。

敗:

  • 登中斷→會內輪→改粘憑
  • 樣皆敗→池盡或憑期;轉憑/聯供

五:察、費控、急停

代流按 GB 與請求計費。失控擷生失控賬。必設限與停。

import time

class ScrapeBudget:
    def __init__(self, max_requests, max_duration_seconds, max_failures):
        self.max_requests = max_requests
        self.max_duration = max_duration_seconds
        self.max_failures = max_failures
        self.requests = 0
        self.failures = 0
        self.start = time.monotonic()

    def allow(self):
        if self.requests >= self.max_requests:
            return False, "request cap reached"
        if time.monotonic() - self.start >= self.max_duration:
            return False, "time cap reached"
        if self.failures >= self.max_failures:
            return False, "failure cap reached (circuit breaker)"
        return True, None

    def record(self, success):
        self.requests += 1
        if not success:
            self.failures += 1

budget = ScrapeBudget(max_requests=1000, max_duration_seconds=3600, max_failures=20)

for url in target_urls:
    ok, reason = budget.allow()
    if not ok:
        print(f"Aborting: {reason}")
        break
    response = fetch_with_backoff(url)
    budget.record(success=response is not None)
    time.sleep(1)

得:限觸先於失控費。日誌示代功率以辨除。

敗:

  • 敗率 > 20%→停;站察輪式(IP 同網段);轉池或停
  • 單錄費超期 5 倍→積極緩存、去重、批處

  • 步一法察文錄於碼前
  • 無代憑、池 URL、會 ID 入追檔(grep gateway.proxy=、供主機)
  • .env.gitignore
  • 池選有理:最廉可行、宅/行同意已驗
  • IP 變於回顯端驗於實擷前
  • 態流用粘;匿擷用每請求
  • 限(請求、時、敗)已接已測
  • 限速(≥1s)保—輪非洪泛之由
  • robots.txt 仍守—輪不蓋之

  • 隱前輪:站常需新印(UA、TLS、緩)非新 IP。先試 StealthyFetcher 與限速;輪貴而倫
  • 硬碼憑:源檔含代 URL→泄於 git、容像、棧蹤。必讀環境或秘管
  • 會中輪:每請求輪破依 cookie、CSRF、車態之流。態工用粘
  • 以輪為「倫匿」:輪藏汝於標,不令害擷為倫。ToS、版、私法、限倫仍適
  • 以宅代為高險動:堆證、鞋機、地盜、欺—明出此技範。若汝用例似之,停
  • 「有輪故忽 robots.txt:輪不予許。指即指
  • 無急停:計量代池上無監循生四位賬於夜。必限請、時、敗
  • 擇暗同意宅池:有供以「免 VPN」EULA 採出口節(真用戶未讀)。付溢價得審計入式同意

Dépôt GitHub

pjt222/agent-almanac
Chemin: i18n/wenyan-ultra/skills/rotate-scraping-proxies
0
agentsagentskillsai-assisted-developmentclaude-codeskillsteams

Compétences associées

qmd

Développement

qmd est un outil CLI de recherche et d'indexation locale qui permet aux développeurs d'indexer et de rechercher dans des fichiers locaux en utilisant une recherche hybride combinant BM25, des embeddings vectoriels et du reranking. Il prend en charge à la fois une utilisation en ligne de commande et un mode MCP (Model Context Protocol) pour l'intégration avec Claude. L'outil utilise Ollama pour les embeddings et stocke les index localement, ce qui le rend idéal pour rechercher dans de la documentation ou des bases de code directement depuis le terminal.

Voir la compétence

subagent-driven-development

Développement

Cette compétence exécute des plans de mise en œuvre en déployant un nouveau sous-agent pour chaque tâche indépendante, avec une revue de code entre les tâches. Elle permet une itération rapide tout en maintenant des contrôles de qualité grâce à ce processus de revue. Utilisez-la lorsque vous travaillez sur des tâches principalement indépendantes au sein d'une même session pour assurer une progression continue avec des vérifications de qualité intégrées.

Voir la compétence

mcporter

Développement

La compétence mcporter permet aux développeurs de gérer et d'appeler des serveurs Model Context Protocol (MCP) directement depuis Claude. Elle fournit des commandes pour lister les serveurs disponibles, appeler leurs outils avec des arguments, et gérer l'authentification ainsi que le cycle de vie du démon. Utilisez cette compétence pour intégrer et tester les fonctionnalités des serveurs MCP dans votre flux de travail de développement.

Voir la compétence

adk-deployment-specialist

Développement

Cette compétence déploie et orchestre des agents Vertex AI ADK en utilisant le protocole A2A, gérant la découverte d'AgentCard, la soumission de tâches, et prenant en charge des outils tels que le bac à sable d'exécution de code et la banque de mémoire. Elle permet de construire des systèmes multi-agents avec des modèles d'orchestration séquentiels, parallèles ou en boucle en Python, Java ou Go. Utilisez-la lorsqu'on vous demande de déployer des agents ADK ou d'orchestrer des flux de travail d'agents sur Google Cloud.

Voir la compétence