小白学 Python 爬虫（33）：爬虫框架 Scrapy 入门基础（一）

Engine 引擎：引擎负责控制系统所有组件之间的数据流，并在发生某些操作时触发事件。
Item 项目：它定义了爬取结果的数据结构，爬取的数据会被赋值成该对象。
Scheduler 调度器：用来接受引擎发过来的请求并加入队列中，并在引擎再次请求的时候提供给引擎。
Downloader 下载器：下载器负责获取网页并将其馈送到引擎，引擎又将其馈给蜘蛛。
Spiders 蜘蛛：其内定义了爬取的逻辑和网页的解析规则，它主要负责解析响应并生成提取结果和新的请求。
Item Pipeline 项目管道：负责处理由蜘蛛从网页中抽取的项目，它的主要任务是清洗、验证和存储数据。
Downloader Middlewares 下载器中间件：下载器中间件是位于引擎和Downloader之间的特定挂钩，它们在从引擎传递到Downloader时处理请求，以及从Downloader传递到Engine的响应。
Spider Middlewares 蜘蛛中间件：蜘蛛中间件是位于引擎和蜘蛛之间的特定挂钩，并且能够处理蜘蛛的输入（响应）和输出（项目和请求）。

上面这张图的数据流程如下：

该引擎获取从初请求爬行蜘蛛。
该引擎安排在请求调度程序和要求下一个请求爬行。
该计划返回下一请求的引擎。
该引擎发送请求到下载器，通过下载器中间件。
页面下载完成后， Downloader会生成一个带有该页面的响应，并将其发送到Engine，并通过 Downloader Middlewares。
该引擎接收来自响应下载器并将其发送到所述蜘蛛进行处理，通过蜘蛛中间件。
该蜘蛛处理响应并返回刮下的项目和新的要求（跟随）的引擎，通过蜘蛛中间件。
该引擎发送处理的项目，以项目管道，然后把处理的请求的调度，并要求今后可能请求爬行。
重复该过程（从步骤1开始），直到不再有Scheduler的请求为止。

这张图的名词有些多，记不住实属正常，不过没关系，后续小编会配合着示例代码，和各位同学一起慢慢的学习。

基础示例

先来个简单的示例项目，在创建项目之前，请确定自己的环境已经正确安装了 Scrapy ，如果没有安装的同学可以看下前面的文章，其中有介绍 Scrapy 的安装配置。

首先需要创建一个 Scrapy 的项目，创建项目需要使用命令行，在命令行中输入以下命令：

scrapy startproject first_scrapy复制代码

然后一个名为 first_scrapy 的项目就创建成功了，项目文件结构如下：

first_scrapy/
    scrapy.cfg            # deploy configuration file

    first_scrapy/             # project's Python module, you'll import your code from here
        __init__.py

        items.py          # project items definition file

        middlewares.py    # project middlewares file

        pipelines.py      # project pipelines file

        settings.py       # project settings file

        spiders/          # a directory where you'll later put your spiders
            __init__.py复制代码

scrapy.cfg：它是 Scrapy 项目的配置文件，其内定义了项目的配置文件路径、部署相关信息等内容。
items.py：它定义 Item 数据结构，所有的 Item 的定义都可以放这里。
pipelines.py：它定义 Item Pipeline 的实现，所有的 Item Pipeline 的实现都可以放这里。
settings.py：它定义项目的全局配置。
middlewares.py：它定义 Spider Middlewares 和 Downloader Middlewares 的实现。
spiders：其内包含一个个 Spider 的实现，每个 Spider 都有一个文件。

到此，我们已经成功创建了一个 Scrapy 项目，但是这个项目目前是空的，我们需要再手动添加一只 Spider 。

Scrapy 用它来从网页里抓取内容，并解析抓取的结果。不过这个类必须继承 Scrapy 提供的 Spider 类 scrapy.Spider，还要定义 Spider 的名称和起始请求，以及怎样处理爬取后的结果的方法。

创建 Spider 可以使用手动创建，也可以使用命令创建，小编这里演示一下如何使用命令来创建，如下：

scrapy genspider quotes quotes.toscrape.com复制代码

将会看到在 spider 目录下新增了一个 QuotesSpider.py 的文件，里面的内容如下：

# -*- coding: utf-8 -*-
import scrapy


class QuotesSpider(scrapy.Spider):
    name = 'quotes'
    allowed_domains = ['quotes.toscrape.com']
    start_urls = ['http://quotes.toscrape.com/']

    def parse(self, response):
        pass
复制代码

可以看到，这个类里面有三个属性 name 、 allowed_domains 、 start_urls 和一个 parse() 方法。

name，它是每个项目的名字，用来区分不同的 Spider。
allowed_domains，它是允许爬取的域名，如果初始或后续的请求链接不是这个域名下的，则请求链接会被过滤掉。
start_urls，它包含了 Spider 在启动时爬取的 url 列表，初始请求是由它来定义的。
parse，它是 Spider 的一个方法。默认情况下，被调用时 start_urls 里面的链接构成的请求完成下载执行后，返回的响应就会作为的参数传递给这个函数。该方法负责解析返回的响应、提取数据或者进一步生成要处理的请求。

到这里我们就清楚了， parse() 方法中的 response 是前面的 start_urls 中链接的爬取结果，所以在 parse() 方法中，我们可以直接对爬取的结果进行解析。

先看下网页的 DOM 结构：

接下来要做的事情就比较简单了，获取其中的数据，然后将其打印出来。

数据提取的方式可以是 CSS 选择器也可以是 XPath 选择器，小编这里使用的是 CSS 选择器，将我们刚才的 parse() 方法进行一些简单的改动，如下：

def parse(self, response):
    quotes = response.css('.quote')
    for quote in quotes:
        text = quote.css('.text::text').extract_first()
        author = quote.css('.author::text').extract_first()
        tags = quote.css('.tags .tag::text').extract()
        print("text:", text)
        print("author:", author)
        print("tags:", tags)复制代码

首先是获取到所有的 class 为 quote 的元素，然后将所有元素进行循环后取出其中的数据，后对这些数据进行打印。

程序到这里就写完了，那么接下来的问题是，我们如何运行这只爬虫？

Scrapy 的运行方式同样适用适用命令行的，首先要到这个项目的根目录下，然后执行以下代码：

scrapy crawl quotes复制代码

结果如下：

可以看到，我们刚才 print() 的内容正常的打印在了命令行中。

除了我们 print() 中的内容的打印，还可以看到在 Scrapy 启动的过程中， Scrapy 输出了当前的版本号以及正在启动的项目名称，并且在爬取网页的过程中，首先访问了 http://quotes.toscrape.com/robots.txt 机器人协议，虽然这个协议在当前这个示例中响应了 404的状态码，但是 Scrapy 会根据机器人协议中的内容进行爬取。