• linkedu视频
  • 平面设计
  • 电脑入门
  • 操作系统
  • 办公应用
  • 电脑硬件
  • 动画设计
  • 3D设计
  • 网页设计
  • CAD设计
  • 影音处理
  • 数据库
  • 程序设计
  • 认证考试
  • 信息管理
  • 信息安全
菜单
linkedu.com
  • 网页制作
  • 数据库
  • 程序设计
  • 操作系统
  • CMS教程
  • 游戏攻略
  • 脚本语言
  • 平面设计
  • 软件教程
  • 网络安全
  • 电脑知识
  • 服务器
  • 视频教程
  • JavaScript
  • ASP.NET
  • PHP
  • 正则表达式
  • AJAX
  • JSP
  • ASP
  • Flex
  • XML
  • 编程技巧
  • Android
  • swift
  • C#教程
  • vb
  • vb.net
  • C语言
  • Java
  • Delphi
  • 易语言
  • vc/mfc
  • 嵌入式开发
  • 游戏开发
  • ios
  • 编程问答
  • 汇编语言
  • 微信小程序
  • 数据结构
  • OpenGL
  • 架构设计
  • qt
  • 微信公众号
您的位置:首页 > 程序设计 >编程问答 > pyspider如果抓取增量信息?

pyspider如果抓取增量信息?

作者:佚名 字体:[增加 减小] 来源:互联网 时间:2017-06-07

佚名通过本文主要向大家介绍了pyspider,pyspider教程,pyspider安装,pyspider下载,pyspider爬虫教程等相关知识,希望对您有所帮助,也希望大家支持linkedu.com www.linkedu.com
问题:pyspider如果抓取增量信息?
描述:

大家新年快乐

最近在做一个爬虫相关的项目
业务需求是这样的,拿抓取微博信息为例:
抓取某个微博号,抓取他的每一条微博信息,然后获取每一条微博信息的转发数、评论数、点赞数等等信息。需要有周期性的任务抓取每一条微博信息的转发数、评论数、点赞数的增量,当然,不同的需求,可能是每个号一周更新一次,或者一天更新一次,或者一个月更新一次等等。偶尔会有临时的任务,抓取指定的微博的信息(也就是我现在想看到这个微博号的最新的所有信息)。

现在我们用的是自己用python写的,后来我还尝试过scrapy。但是,为了能达到周期性抓取增量的话,scrapy好像还需要扩展。刚刚接触pyspider,好像觉得还不错。但是还是有些不太会使用。大家能不能提供一些相关例子?

def on_start(self):
    // 抓取url,每10秒一次
    self.crawl('someurl',
        callback=self.index_page,
        age=10, auto_recrawl=True, force_update=True,
    )
def close_crawl(self):
    pass
def index_page(self, response):
    // 如果抓取次数大于某个值,就把该任务停止抓取
    if ... > xxx:
        self.crawl('someurl',
            callback=self.close_crawl, age=-1,
            force_update=True)
    return response.text
    

请问还有其它方式关掉这个crawl吗?我现在利用的是age=-1

因为有一些页面需要key去访问,如果在一定的时间内,访问次数过多的话,会被封掉,或者有验证码,如果这些页面,需要每3-5秒抓取一次的话,那么应该如果做?


解决方案1:

def index_page(self, response, task), 修改 task['schedule']['auto_recrawl'] = False 也可以

如果毎 3-5 秒抓取一次会触发验证码的话, 没有办法.


分享到:QQ空间新浪微博腾讯微博微信百度贴吧QQ好友复制网址打印

您可能想查找下面的文章:

  • (python)安装pyspider时出错:Nospaceleftondevice:
  • python爬虫(python)pyspider定时爬取问题
  • pyspider爬取了接近1G的数据,无法导出csv?
  • (python)pyspider链接redis时可以切换到其他的db么,默认时db0
  • (python)pyspider运行和age参数问题?
  • (python)为什么感觉pyspider爬取的速度好慢
  • (python)pyspider如何获取某个列表中的第n个元素
  • (python)请问pyspider爬虫可以实现下载pdf功能吗?
  • (python)求进PySpider启动时OSError:[Errno28]Nospaceleftondevice
  • (python)pyspider默认存入sqlite数据库时一定会先转化为Unicode吗?

相关文章

  • 2017-06-07 (golang)go代码疑惑,usbPhoneConnector是何意?
  • 2017-06-07 字体生成器-用CSS美化中文网站-裁剪TTF生成WOFF
  • 2017-06-07 vagrantup报错
  • 2017-06-07 c语言问题。求救~~~~
  • 2017-06-07 laravel使用orm时运用渴求式加载with方法,怎么在多条件中使用with方法
  • 2017-06-07 (ruby)方法可变参数(如options)之后的参数,不可以设置默认值吗?
  • 2017-06-07 (python)哪里有错误?
  • 2017-06-07 各位大神,请看下面代码,求怎么实现求平均成绩?
  • 2017-06-07 求PHP上传BASE64图片字符窜,上后能能访问图片
  • 2017-06-07 上传策略中的文件大小限制的问题

文章分类

  • JavaScript
  • ASP.NET
  • PHP
  • 正则表达式
  • AJAX
  • JSP
  • ASP
  • Flex
  • XML
  • 编程技巧
  • Android
  • swift
  • C#教程
  • vb
  • vb.net
  • C语言
  • Java
  • Delphi
  • 易语言
  • vc/mfc
  • 嵌入式开发
  • 游戏开发
  • ios
  • 编程问答
  • 汇编语言
  • 微信小程序
  • 数据结构
  • OpenGL
  • 架构设计
  • qt
  • 微信公众号

最近更新的内容

    • 如何根据给定值,生成一个固定的随机数?
    • 关于尾递归的问题
    • Python做爬虫,经常返回HTTPError503,请问要怎么解决?
    • 值值值复合语句赋值问题
    • python3xfromxxximport,入口python中无法访问引入的函数
    • 表1是名单,表2是更大的名单并有成绩,如何快速将成绩复制到表1?
    • netty在linux上报错,高手帮帮忙!
    • 假如我上传两个微信游戏,但index相同的名称,会不会被覆盖的?
    • 以太网没有有效的ip配置请问没有对以太网通信进行封装的python库?
    • C文件读写问题

关于我们 - 联系我们 - 免责声明 - 网站地图

©2020-2025 All Rights Reserved. linkedu.com 版权所有