🛰️请耐心等待，正在努力加载站点资源🚀

加载中

Scrapling — 3.7万Stars的Python爬虫框架，Cloudflare 反爬都能绕过！

aniyakkbi 2026年4月17日 5

产品介绍

Scrapling 是一个自适应 Web Scraping 框架，能处理从单个请求到大规模爬取的一切需求。Scrapling Github地址

它的解析器能够从网站变化中学习，并在页面更新时自动重新定位您的元素。它的 Fetcher 能够开箱即用地绕过 Cloudflare Turnstile 等反机器人系统。它的 Spider 框架让您可以扩展到并发、多 Session 爬取，支持暂停/恢复和自动 Proxy 轮换–只需几行 Python 代码。一个库，零妥协。

极速爬取，实时统计和 Streaming。由 Web Scraper 为 Web Scraper 和普通用户而构建，每个人都能找到适合自己的功能。

from scrapling.fetchers import Fetcher, AsyncFetcher, StealthyFetcher, DynamicFetcher
StealthyFetcher.adaptive = True
p = StealthyFetcher.fetch('https://example.com', headless=True, network_idle=True) # 隐秘地获取网站！
products = p.css('.product', auto_save=True) # 抓取在网站设计变更后仍能存活的数据！
products = p.css('.product', adaptive=True) # 之后，如果网站结构改变，传递 `adaptive=True` 来找到它们！

或扩展为完整爬取

from scrapling.spiders import Spider, Response
class MySpider(Spider):
name = "demo"
start_urls = ["https://example.com/"]
async def parse(self, response: Response):
for item in response.css('.product'):
yield {"title": item.css('h2::text').get()}
MySpider().start()

主要特性

Spider – 完整的爬取框架

🕷️ 类 Scrapy 的 Spider API：使用 start_urls、async parse callback 和Request/Response 对象定义 Spider。
⚡ 并发爬取：可配置的并发限制、按域名节流和下载延迟。
🔄 多 Session 支持：统一接口，支持 HTTP 请求和隐秘无头浏览器在同一个 Spider 中使用–通过 ID 将请求路由到不同的 Session。
💾 暂停与恢复：基于 Checkpoint 的爬取持久化。按 Ctrl+C 优雅关闭；重启后从上次停止的地方继续。
📡 Streaming 模式：通过 async for item in spider.stream() 以实时统计 Streaming 抓取的数据–非常适合 UI、管道和长时间运行的爬取。
🛡️ 被阻止请求检测：自动检测并重试被阻止的请求，支持自定义逻辑。
🤖 robots.txt 合规：可选的 robots_txt_obey 标志，支持 Disallow、Crawl-delay 和 Request-rate 指令，并按域名缓存。
🧪 开发模式：首次运行时将响应缓存到磁盘，后续运行时直接回放 – 在不重新请求目标服务器的情况下迭代你的 parse() 逻辑。
📦 内置导出：通过钩子和您自己的管道导出结果，或使用内置的 JSON/JSONL，分别通过 result.items.to_json()/result.items.to_jsonl()。

支持 Session 的高级网站获取

HTTP 请求：使用 Fetcher 类进行快速和隐秘的 HTTP 请求。可以模拟浏览器的 TLS fingerprint、标头并使用 HTTP/3。
动态加载：通过 DynamicFetcher 类使用完整的浏览器自动化获取动态网站，支持 Playwright 的 Chromium 和 Google Chrome。
反机器人绕过：使用 StealthyFetcher 的高级隐秘功能和 fingerprint 伪装。可以轻松自动绕过所有类型的 Cloudflare Turnstile/Interstitial。
Session 管理：使用 FetcherSession、StealthySession 和 DynamicSession 类实现持久化 Session 支持，用于跨请求的 cookie 和状态管理。
Proxy 轮换：内置 ProxyRotator，支持轮询或自定义策略，适用于所有 Session 类型，并支持按请求覆盖 Proxy。
域名和广告屏蔽：在基于浏览器的 Fetcher 中屏蔽对特定域名（及其子域名）的请求，或启用内置广告屏蔽（约 3,500 个已知广告/追踪域名）。
DNS 泄漏防护：可选的 DNS-over-HTTPS 支持，通过 Cloudflare 的 DoH 路由 DNS 查询，防止使用代理时的 DNS 泄漏。
Async 支持：所有 Fetcher 和专用 async Session 类的完整 async 支持。

自适应抓取和 AI 集成

🔄 智能元素跟踪：使用智能相似性算法在网站更改后重新定位元素。
🎯 智能灵活选择：CSS 选择器、XPath 选择器、基于过滤器的搜索、文本搜索、正则表达式搜索等。
🔍 查找相似元素：自动定位与已找到元素相似的元素。
🤖 与 AI 一起使用的 MCP 服务器：内置 MCP 服务器用于 AI 辅助 Web Scraping 和数据提取。MCP 服务器具有强大的自定义功能，利用 Scrapling 在将内容传递给 AI（Claude/Cursor 等）之前提取目标内容，从而加快操作并通过最小化 token 使用来降低成本。（演示视频）

高性能和经过实战测试的架构

🚀 闪电般快速：优化性能超越大多数 Python 抓取库。
🔋 内存高效：优化的数据结构和延迟加载，最小内存占用。
⚡ 快速 JSON 序列化：比标准库快 10 倍。
🏗️ 经过实战测试：Scrapling 不仅拥有 92% 的测试覆盖率和完整的类型提示覆盖率，而且在过去一年中每天被数百名 Web Scraper 使用。

对开发者/Web Scraper 友好的体验

🎯 交互式 Web Scraping Shell：可选的内置 IPython Shell，具有 Scrapling 集成、快捷方式和新工具，可加快 Web Scraping 脚本开发，例如将 curl 请求转换为 Scrapling 请求并在浏览器中查看请求结果。
🚀 直接从终端使用：可选地，您可以使用 Scrapling 抓取 URL 而无需编写任何代码！
🛠️ 丰富的导航 API：使用父级、兄弟级和子级导航方法进行高级 DOM 遍历。
🧬 增强的文本处理：内置正则表达式、清理方法和优化的字符串操作。
📝 自动选择器生成：为任何元素生成强大的 CSS/XPath 选择器。
🔌 熟悉的 API：类似于 Scrapy/BeautifulSoup，使用与 Scrapy/Parsel 相同的伪元素。
📘 完整的类型覆盖：完整的类型提示，出色的 IDE 支持和代码补全。整个代码库在每次更改时都会自动使用PyRight和MyPy扫描。
🔋 现成的 Docker 镜像：每次发布时，包含所有浏览器的 Docker 镜像会自动构建和推送。

上述内容均摘自Scrapling Github官方内容

上一次更新已经跑远了✨ 计算中...

(‾◡◝) 本内容里的一些消息，可能已经跟不上时间啦～

查看评论列表

暂无评论

加载中

Scrapling — 3.7万Stars的Python爬虫框架，Cloudflare 反爬都能绕过！

产品介绍

主要特性

Spider – 完整的爬取框架

支持 Session 的高级网站获取

自适应抓取和 AI 集成

高性能和经过实战测试的架构

对开发者/Web Scraper 友好的体验

评论（0）

发表评论取消回复

插入代码

请查看时间~

搜索酱

有你想要的标签吗

最新文章

阿尼亚的小站✨｜技术崽的可爱博客正式营业啦！

【超详细】新手学习渗透测试靶场——Pikachu的安装与使用

Scrapling — 3.7万Stars的Python爬虫框架，Cloudflare 反爬都能绕过！

RTK-AI 降低 Token 消耗的命令行工具

随机文章

阿尼亚的小站✨｜技术崽的可爱博客正式营业啦！

Scrapling — 3.7万Stars的Python爬虫框架，Cloudflare 反爬都能绕过！

【超详细】新手学习渗透测试靶场——Pikachu的安装与使用

RTK-AI 降低 Token 消耗的命令行工具

加载中

Scrapling — 3.7万Stars的Python爬虫框架，Cloudflare 反爬都能绕过！

产品介绍

主要特性

Spider – 完整的爬取框架

支持 Session 的高级网站获取

自适应抓取和 AI 集成

高性能和经过实战测试的架构

对开发者/Web Scraper 友好的体验

感谢您的支持

评论（0）

发表评论 取消回复

插入代码

请查看时间~

搜索酱

有你想要的标签吗

最新文章

随机文章

💿 音乐控制窗口

🎼 歌词

🪗 歌曲信息

🎚️ 播放控制

🎶 播放进度

🔊 音量控制

📋 歌单

发表评论取消回复