Scrapy架构 | 徐顺的博客

Java

Java 强/软/弱/虚引用介绍 Java 虚拟机栈深度测试 SpringMVC 重定向 Java注解与拦截器实例(二) Java注解与拦截器实例(一) ArrayBlockingQueue 模拟Future模式数组复制性能比较 CentOS6.6 上安装MySQL5.6 Java容器ArrayList MySQL主从复制 windows环境中mysql忘记root密码的解决办法 ByteBuffer Solr添加中文分词 Windows7下安装Solr

Other

微信支付API的不一致性用户自动登陆微信公众号编译BOOST1.55.0 win7下查看被占用端口持续写作的重要性

NoSQL

MongoDB基本操作 Win7下安装MongoDB

Memcached

Memcached安装与调试 Memcached一致性哈希 Memcached Hash机制 Memcached线程分析 Memcached内存管理 Memcached源码结构 Memcached实战 Memcached简介

Tool

sublime text2 配置ctags sublime插件安装 Sublime Text 2 编辑Markdown

python

Scrapy架构 Scrapy抓取topit.me Scrapy 抓取图片 Scrapy Demo

Redis

Redis应用场景调试Redis 内存管理协议格式 Redis网络事件框架及Demo Redis数据结构 Redis 工作流程解析 Redis 笔记

Book

2017阅读书单 2015阅读书单 2014阅读书单

Hadoop

Hadoop 集群OS环境配置 CentOS使用Eclipse开发Hadoop应用程序 Hadoop HDFS 漫画 Hadoop 名字节点读写数据 Hadoop NameNode数据结构 Hadoop 数据节点之写数据 Hadoop 数据节点之读数据 Hadoop 流式接口 Hadoop 远程过程调用接口 —— 客户端接口 Hadoop 远程过程调用接口-服务器间接口 Hadoop FileSystem & ChecksumFileSystem Hadoop HDFS设计 Hadoop IPC原理 Hadoop 安装 Hadoop笔记大纲

Linux

Windows编译OpenSSL Mac下编译OpenSSL Linux core dump调试案例

Netty

Netty简介及Demo

标签

Solr 2

Solr添加中文分词 Windows7下安装Solr

安装 4

Hadoop 安装调试Redis Win7下安装MongoDB Windows7下安装Solr

生活 1

持续写作的重要性

NoSQL 2

MongoDB基本操作 Win7下安装MongoDB

sublime 3

sublime text2 配置ctags sublime插件安装 Sublime Text 2 编辑Markdown

内存管理 1

Memcached内存管理

多线程 1

Memcached线程分析

主从架构 1

Memcached线程分析

Hash 1

Memcached Hash机制

Slab 1

Memcached Hash机制

爬虫 4

Scrapy架构 Scrapy抓取topit.me Scrapy 抓取图片 Scrapy Demo

一致性哈希 1

Memcached一致性哈希

Redis 4

Redis应用场景协议格式 Redis 工作流程解析 Redis 笔记

事件处理 1

Redis网络事件框架及Demo

协议 4

Hadoop 名字节点读写数据 Hadoop 数据节点之写数据 Hadoop 流式接口协议格式

Linux 1

Linux core dump调试案例

源码 1

Hadoop 安装

Hadoop 10

Hadoop 集群OS环境配置 CentOS使用Eclipse开发Hadoop应用程序 Hadoop 名字节点读写数据 Hadoop 数据节点之写数据 Hadoop 数据节点之读数据 Hadoop 流式接口 Hadoop 远程过程调用接口 —— 客户端接口 Hadoop 远程过程调用接口-服务器间接口 Hadoop FileSystem & ChecksumFileSystem Hadoop IPC原理

RPC 3

Hadoop 远程过程调用接口 —— 客户端接口 Hadoop 远程过程调用接口-服务器间接口 Hadoop IPC原理

HDFS 2

Hadoop HDFS 漫画 Hadoop HDFS设计

FileSystem 1

Hadoop FileSystem & ChecksumFileSystem

Buffer 1

ByteBuffer

MySQL 3

CentOS6.6 上安装MySQL5.6 MySQL主从复制 windows环境中mysql忘记root密码的解决办法

C++ 1

编译BOOST1.55.0

Boost 1

编译BOOST1.55.0

Java 1

Java容器ArrayList

CentOS 1

CentOS6.6 上安装MySQL5.6

数组复制 1

数组复制性能比较

Future 1

模拟Future模式

Memcached 1

Memcached安装与调试

OpenSSL 2

Windows编译OpenSSL Mac下编译OpenSSL

ArrayBlockingQueue 1

ArrayBlockingQueue

注解，反射 2

Java注解与拦截器实例(二) Java注解与拦截器实例(一)

SpringMVC 1

SpringMVC 重定向

微信 1

用户自动登陆微信公众号

微信, 1

微信支付API的不一致性

微信支付 1

微信支付API的不一致性

JVM 1

Java 虚拟机栈深度测试

Netty 1

Netty简介及Demo

Scrapy架构

2013年09月14日

概述

Scrapy是一个基于Twisted异步网络库的爬虫框架，用Python编写，结构清晰，使用灵活。它的整体架构如下图所示，绿色箭头表示数据流向。

组件

Scrapy Engine

Scrapy引擎是用来控制整个系统的数据处理流程，并进行一些事件的触发。

Scheduler

调度器接受从Scrapy引擎的请求并将其入列，并在Scarpy引擎请求它们时，返回相应的请求。

Downloader

下载器负责抓取网页，并将相应的结果返回给Scrapy引擎和Spider

Spiders

Spider是用户自定义的爬虫类，用来解析响应并检索items添加额外的请求。每个Spider都能处理一个或者一组域名。

Item Pipeline

Pipeline主要负责处理Spider检索的items，典型的任务是清理、校验和持久化(如存储item至数据库)。

Downloader middlewares

Downloader middlewares(下载中间件)是位于Scrapy引擎和下载器之间的一个钩子，主要是处理Scrapy引擎与下载器之间的请求及响应，它提供了一种易于扩展Scrapy功能的机制。

Spider middlewares

Spider middlewares(Spider中间件)是介于Scrapy引擎和Spider之间的一个钩子，处理Spider的输入和输出，同样提供了一种易于扩展Scrapy功能的机制。

数据处理流程

Scrapy引擎打开一个域名，并让Spider从start_urls中的url请求数据
引擎将从Spider传过来的URLs传递给Scheduler
引擎向Scheduler请求下一条需要爬取的url
Scheduler向引擎返回url，引擎将它们发送给Downloader(通过Downloader Middleware)
当下Downloader下载完网页后，生成响应并通过Downloader Middleware发送给引擎。
引擎接收从Downloader发送过来的响应，并发送给Spider处理(通过Spider Middleware)
Spider处理响应，将爬取到的item和新的请求发送给引擎
引擎将Spider返回的item发送到Item Pipeline，将Spider返回的请求发送到Scheduler
重复第二步，直到Scheduler没有新的请求可用，然后引擎断开与域之间的联系

参考资料

http://doc.scrapy.org/en/0.18/topics/architecture.html