Scrapy2.3中文文档 – 最优秀的Python网络爬虫库
-
Scrapy – 下载和处理文件和图像
Scrapy 可重复使用 item pipelines 用于下载附加到特定项目的文件(例如,当您 爬取 产品并希望在本地下载其图像时)。这些管道共享一些功能和结构(我们将…… -
-
Scrapy – AutoThrottle 扩展
这是一个扩展,基于Scrapy服务器和您正在爬行的网站的负载,自动限制爬行速度。 设计目标¶ 对站点更好,而不是使用默认的下载延迟为零 自动调整Scrapy到…… -
-
-
Scrapy – 协同程序
2.0 新版功能. 刮痧 partial support 对于 coroutine syntax . 支持的可调用项¶ 以下可调用项可以定义为使用 async def ,因此使用协同程序语法(例如。 a…… -
Scrapy – asyncio
2.0 新版功能. 刮痧有部分支持 asyncio . 在你之后 install the asyncio reactor ,您可以使用 asyncio 和 asyncio -任何 coroutine . 警告 asyncio Scrapy…… -
-
-
Scrapy – 蜘蛛中间件
Spider中间件是一个钩子框架,可以钩住Scrapy的Spider处理机制,在该机制中,您可以插入自定义功能来处理发送到的响应。 蜘蛛 用于处理和处理由spider生成的请…… -
Scrapy – 扩展
扩展框架提供了一种将您自己的自定义功能插入到Scrapy中的机制。 扩展只是在初始化扩展时,在scrapy启动时实例化的常规类。 扩展设置¶ 扩展使用 Scrapy sett…… -
Scrapy – 核心API
本节记录了Scrapy核心API,它是为扩展和中间件的开发人员设计的。 爬虫API¶ Scrapy API的主要入口点是 Crawler 对象,通过 from_crawler 类方法。这个对象提…… -
-
-
Scrapy – 发行说明
刮痧2.3.0(2020-08-04)¶ 亮点: Feed exports 现在支持 Google Cloud Storage 作为存储后端 新的 FEED_EXPORT_BATCH_ITEM_COUNT 设置允许批量传递输出…… -
Scrapy – 为 Scrapy 贡献
重要 请仔细检查您是否正在阅读本文档的最新版本,网址为https://docs.scrapy.org/en/master/contributing.html 有很多方法可以为Scrapy做出贡献。 这里是其…… -
Scrapy – 版本控制和API稳定性
版本¶ Scrapy 版本号有3个数字:A.B.C A 是主要版本。这将很少改变,并将意味着非常大的变化。 B 是发行号。这将包括许多变化,包括可能破坏向后兼容性……