Scrapy抓取topit.me | 徐顺的博客

Java

Java 强/软/弱/虚引用介绍 Java 虚拟机栈深度测试 SpringMVC 重定向 Java注解与拦截器实例(二) Java注解与拦截器实例(一) ArrayBlockingQueue 模拟Future模式数组复制性能比较 CentOS6.6 上安装MySQL5.6 Java容器ArrayList MySQL主从复制 windows环境中mysql忘记root密码的解决办法 ByteBuffer Solr添加中文分词 Windows7下安装Solr

Other

微信支付API的不一致性用户自动登陆微信公众号编译BOOST1.55.0 win7下查看被占用端口持续写作的重要性

NoSQL

MongoDB基本操作 Win7下安装MongoDB

Memcached

Memcached安装与调试 Memcached一致性哈希 Memcached Hash机制 Memcached线程分析 Memcached内存管理 Memcached源码结构 Memcached实战 Memcached简介

Tool

sublime text2 配置ctags sublime插件安装 Sublime Text 2 编辑Markdown

python

Scrapy架构 Scrapy抓取topit.me Scrapy 抓取图片 Scrapy Demo

Redis

Redis应用场景调试Redis 内存管理协议格式 Redis网络事件框架及Demo Redis数据结构 Redis 工作流程解析 Redis 笔记

Book

2017阅读书单 2015阅读书单 2014阅读书单

Hadoop

Hadoop 集群OS环境配置 CentOS使用Eclipse开发Hadoop应用程序 Hadoop HDFS 漫画 Hadoop 名字节点读写数据 Hadoop NameNode数据结构 Hadoop 数据节点之写数据 Hadoop 数据节点之读数据 Hadoop 流式接口 Hadoop 远程过程调用接口 —— 客户端接口 Hadoop 远程过程调用接口-服务器间接口 Hadoop FileSystem & ChecksumFileSystem Hadoop HDFS设计 Hadoop IPC原理 Hadoop 安装 Hadoop笔记大纲

Linux

Windows编译OpenSSL Mac下编译OpenSSL Linux core dump调试案例

Netty

Netty简介及Demo

标签

Solr 2

Solr添加中文分词 Windows7下安装Solr

安装 4

Hadoop 安装调试Redis Win7下安装MongoDB Windows7下安装Solr

生活 1

持续写作的重要性

NoSQL 2

MongoDB基本操作 Win7下安装MongoDB

sublime 3

sublime text2 配置ctags sublime插件安装 Sublime Text 2 编辑Markdown

内存管理 1

Memcached内存管理

多线程 1

Memcached线程分析

主从架构 1

Memcached线程分析

Hash 1

Memcached Hash机制

Slab 1

Memcached Hash机制

爬虫 4

Scrapy架构 Scrapy抓取topit.me Scrapy 抓取图片 Scrapy Demo

一致性哈希 1

Memcached一致性哈希

Redis 4

Redis应用场景协议格式 Redis 工作流程解析 Redis 笔记

事件处理 1

Redis网络事件框架及Demo

协议 4

Hadoop 名字节点读写数据 Hadoop 数据节点之写数据 Hadoop 流式接口协议格式

Linux 1

Linux core dump调试案例

源码 1

Hadoop 安装

Hadoop 10

Hadoop 集群OS环境配置 CentOS使用Eclipse开发Hadoop应用程序 Hadoop 名字节点读写数据 Hadoop 数据节点之写数据 Hadoop 数据节点之读数据 Hadoop 流式接口 Hadoop 远程过程调用接口 —— 客户端接口 Hadoop 远程过程调用接口-服务器间接口 Hadoop FileSystem & ChecksumFileSystem Hadoop IPC原理

RPC 3

Hadoop 远程过程调用接口 —— 客户端接口 Hadoop 远程过程调用接口-服务器间接口 Hadoop IPC原理

HDFS 2

Hadoop HDFS 漫画 Hadoop HDFS设计

FileSystem 1

Hadoop FileSystem & ChecksumFileSystem

Buffer 1

ByteBuffer

MySQL 3

CentOS6.6 上安装MySQL5.6 MySQL主从复制 windows环境中mysql忘记root密码的解决办法

C++ 1

编译BOOST1.55.0

Boost 1

编译BOOST1.55.0

Java 1

Java容器ArrayList

CentOS 1

CentOS6.6 上安装MySQL5.6

数组复制 1

数组复制性能比较

Future 1

模拟Future模式

Memcached 1

Memcached安装与调试

OpenSSL 2

Windows编译OpenSSL Mac下编译OpenSSL

ArrayBlockingQueue 1

ArrayBlockingQueue

注解，反射 2

Java注解与拦截器实例(二) Java注解与拦截器实例(一)

SpringMVC 1

SpringMVC 重定向

微信 1

用户自动登陆微信公众号

微信, 1

微信支付API的不一致性

微信支付 1

微信支付API的不一致性

JVM 1

Java 虚拟机栈深度测试

Netty 1

Netty简介及Demo

Scrapy抓取topit.me

2013年09月11日

定义Item for `http://topit.me/`

class TopitImageItem(Item):
	image_urls = Field()
	images = Field()
	title = Field()
	author = Field()
	image_paths = Field()

自定义CrawSpider

class TopitSpider(CrawlSpider):
	name = 'topit_spider'
	allowed_domains = ['topit.me']
	start_urls = ['http://www.topit.me']

	rules = (			
		Rule(SgmlLinkExtractor(allow = (r'(\?p=(\d)+)+'), deny = ('user', 'album')), follow = True),
		Rule(SgmlLinkExtractor(allow = (r'item/(\d)+$')), callback='parse_item'),
	)

	def parse_start_url(self, response):
		return self.parse_item(response)

	def parse_item(self, response):
		self.log('Hi, item image url: %s' % response.url)
		hxs = HtmlXPathSelector(response)
		item = TopitImageItem()
		item['title'] = hxs.select('//div[@id="content"]/div/h2/text()').extract()
		item['author'] = hxs.select('//div[@id="content"]//p/a//text()').extract()
		item['image_urls'] = hxs.select('//div[@id="content"]/a/img/@src').extract()
		yield item

通过rules对连接进行过滤和设定相应的回调函数，我们抓取item页面的大图
parse_item通过XPath提取页面信息

Pipeline保存图片和信息

定义两个Pipeline，TopitImagePipeline保存图片,JsonWriterPipeline保存图片相关信息至json文件

ITEM_PIPELINES = ['demo.pipelines.TopitImagePipeline', 'demo.pipelines.JsonWriterPipeline']
IMAGES_STORE = 'D:\\info\\data\\imgs\\crawl\\topit'

TopitImagePipeline

class TopitImagePipeline(ImagesPipeline):

	def get_media_request(self, item, info):
		for image_url in item['image_urls']:
			yield Request(image_url)

	def item_completed(self, results, item, info):
		image_paths = [x['path'] for ok, x in results if ok]
		if not image_paths:
			raise DropItem('Item contains no images')
		item['image_paths'] = image_paths
		return item

JsonWriterPipeline

class JsonWriterPipeline(object):
	def __init__(self):
		self.file = open('topit.json', 'wb')

	def process_item(self, item, spider):
		line = json.dumps(dict(item)) + "\n"
		self.file.write(line)
		return item

将数据保存到topit.json