AyugeSpiderTools 3.14 documentation
在此之前,我们需要了解 Scrapy 是一个快速的高级 网络爬虫 和 网页抓取 的框架,用于抓取网站并从其网页中提取结构化数据。它可以用于广泛的目的,从数据挖掘到监控和自动化测试。
AyugeSpiderTools 是充分发挥 Scrapy 的模板功能的一个工具库,可以很方便地管理 Scrapy 项目,比如可以使得我们方便地生成 Scrapy 项目结构,当使用本库内置工具时可以不用每次手动创建 items,middlewares,pipelines,settings 等,内置了比较通用和常见的 middlewares 和 pipelines。但如果你常用的功能不在此库中,你可以自行添加修改后 build 成为你专属的工具库。
Getting help
遇到麻烦?请优先尝试使用以下方式提问!
请在本库 ayugespidertools github 上提
issues。除非一些功能性
bug,其它的功能依赖于scrapy,你或许能在 scrapy issues 或社区中找到答案。若有其它问题也可尝试 邮箱 联系。
第一步
- AyugeSpiderTools 一目了然
了解什么是 AyugeSpiderTools 以及它如何为您提供帮助。
- 安装指南
在您的设备上安装 AyugeSpiderTools。
- AyugeSpiderTools 教程
编写您的第一个 AyugeSpiderTools 项目。
- 例子
通过一个简单示例来了解一些信息。
基本概念
- 命令行工具
了解用于管理
Scrapy项目的命令行工具。- Item
定义要采集的数据。
- Item Loaders
用提取的数据填充你的
item。- Settings
了解如何配置
AyugeSpiderTools并查看所有可用设置。- Configuration
了解如何配置
AyugeSpiderTools的.conf内容。
内置服务
- Logging
在
ayugespidertools上学习如何使用日志。- Deduplicate
在
ayugespidertools上的去重方式介绍。- RabbitSpider
使用 AyuRabbitMQSpider 来实现基于 rabbitmq 的(任务分发)分布式部署,基于此和不同的 pipeline 或 ayugespidertools.utils.database 可以根据 mq 任务来实现不同数据的存储。
扩展 scrapy
- downloader-middleware
了解本库中的下载中间件及使用方法。
- pipelines
了解本库中的管道及使用方法。
构建你的专属库
- How-To-Build-Your-Own-Library
如何将本库构建成为你的专属库。
- How-To-Build-Your-Own-Template
如何快速创建
AyugeSpiderTools或Scrapy工程项目结构。
贡献指南
补充说明
- Release notes
查看最近的
AyugeSpiderTools版本中有哪些变化。