Scrapy定时关闭

之前转载过一篇介绍定时执行Scrapy方法的博文：scrapy定时执行抓取任务，并且一直在使用这个方法做增量爬虫。

但是问题来了，假设如下情景：某一天，我要爬的网站更新了非常非常多的内容，以至于一天过去了，我的爬虫还没有停止工作。但是我的Ubuntu系统并不知道，于是它又定时的去crontab中执行了定时任务。于是就出现了如下尴尬的情景：

我的系统里同时运行着两只有同样功能的爬虫。

这太尴尬了，即浪费系统资源，又得不到什么好的效果，还给别人的服务器造成双倍的负担。

所以，如果有什么办法能保证爬虫在第二天开启前已经关闭就好了。

怎么说，Scrapy这框架，很舒服。只需要配置一个扩展就好了，打开settings.py，添加一个配置项：

1	CLOSESPIDER_TIMEOUT = 82800 # 23小时后结束爬虫

这个配置项的意思：

CLOSESPIDER_TIMEOUT

默认值: 0
一个整数值，单位为秒。如果一个spider在指定的秒数后仍在运行，它将以 closespider_timeout 的原因被自动关闭。如果值设置为0（或者没有设置），spiders不会因为超时而关闭。

配好了之后，我们的增量爬虫就可以每天运行23小时，休息一小时，继续工作，这样周而往复了。

相关的扩展还有很多，比如可以配置获得了一定数量的item则退出等等，详见文档扩展(Extensions)。