AyugeSpiderTools 3.15 documentation

在此之前，我们需要了解 Scrapy 是一个快速的高级网络爬虫和网页抓取的框架，用于抓取网站并从其网页中提取结构化数据。它可以用于广泛的目的，从数据挖掘到监控和自动化测试。

AyugeSpiderTools 是充分发挥 Scrapy 的模板功能的一个工具库，可以很方便地管理 Scrapy 项目，比如可以使得我们方便地生成 Scrapy 项目结构，当使用本库内置工具时可以不用每次手动创建 items，middlewares，pipelines，settings 等，内置了比较通用和常见的 middlewares 和 pipelines。但如果你常用的功能不在此库中，你可以自行添加修改后 build 成为你专属的工具库。

Getting help

遇到麻烦？请优先尝试使用以下方式提问！

请在本库 ayugespidertools github 上提 issues。
除非一些功能性 bug，其它的功能依赖于 scrapy，你或许能在 scrapy issues 或社区中找到答案。
若有其它问题也可尝试邮箱联系。

第一步

AyugeSpiderTools 一目了然: 了解什么是 AyugeSpiderTools 以及它如何为您提供帮助。
安装指南: 在您的设备上安装 AyugeSpiderTools。
AyugeSpiderTools 教程: 编写您的第一个 AyugeSpiderTools 项目。
例子: 通过一个简单示例来了解一些信息。

基本概念

命令行工具: 了解用于管理 Scrapy 项目的命令行工具。
Item: 定义要采集的数据。
Item Loaders: 用提取的数据填充你的 item。
Settings: 了解如何配置 AyugeSpiderTools 并查看所有可用设置。
Configuration: 了解如何配置 AyugeSpiderTools 的 .conf 内容。

内置服务

Logging: 在 ayugespidertools 上学习如何使用日志。
Deduplicate: 在 ayugespidertools 上的去重方式介绍。
RabbitSpider: 使用 AyuRabbitMQSpider 来实现基于 rabbitmq 的(任务分发)分布式部署，基于此和不同的 pipeline 或 ayugespidertools.utils.database 可以根据 mq 任务来实现不同数据的存储。

扩展 scrapy

downloader-middleware: 了解本库中的下载中间件及使用方法。
pipelines: 了解本库中的管道及使用方法。

构建你的专属库

How-To-Build-Your-Own-Library: 如何将本库构建成为你的专属库。
How-To-Build-Your-Own-Template: 如何快速创建 AyugeSpiderTools 或 Scrapy 工程项目结构。

贡献指南

贡献: 对项目做出贡献。
错误报告: 错误报告。
文档: 完善文档。
微信赞赏: 捐赠。

补充说明

Release notes: 查看最近的 AyugeSpiderTools 版本中有哪些变化。