• linkedu视频
  • 平面设计
  • 电脑入门
  • 操作系统
  • 办公应用
  • 电脑硬件
  • 动画设计
  • 3D设计
  • 网页设计
  • CAD设计
  • 影音处理
  • 数据库
  • 程序设计
  • 认证考试
  • 信息管理
  • 信息安全
菜单
linkedu.com
  • 网页制作
  • 数据库
  • 程序设计
  • 操作系统
  • CMS教程
  • 游戏攻略
  • 脚本语言
  • 平面设计
  • 软件教程
  • 网络安全
  • 电脑知识
  • 服务器
  • 视频教程
  • JavaScript
  • ASP.NET
  • PHP
  • 正则表达式
  • AJAX
  • JSP
  • ASP
  • Flex
  • XML
  • 编程技巧
  • Android
  • swift
  • C#教程
  • vb
  • vb.net
  • C语言
  • Java
  • Delphi
  • 易语言
  • vc/mfc
  • 嵌入式开发
  • 游戏开发
  • ios
  • 编程问答
  • 汇编语言
  • 微信小程序
  • 数据结构
  • OpenGL
  • 架构设计
  • qt
  • 微信公众号
您的位置:首页 > 程序设计 >编程问答 > 为什么每次爬虫获取的数据量都不一样?

为什么每次爬虫获取的数据量都不一样?

作者:佚名 字体:[增加 减小] 来源:互联网 时间:2017-06-07

佚名通过本文主要向大家介绍了爬虫访问量,爬虫获取数据,爬虫数据采集,股票历史数据爬虫,网络爬虫抓取数据等相关知识,希望对您有所帮助,也希望大家支持linkedu.com www.linkedu.com
问题:为什么每次爬虫获取的数据量都不一样?
描述:

目标页面上有100个url,爬虫会顺着这些url进去爬取内容,有时会返回二十几条内容,有时三十几条,每次都不一样,这是什么原因造成的?

程序结构如下:

start_urls = [domain_url]

def parse(self, response):
   for link in links:
          yield Request(link,callback=self.parse2)
          
 def parse2(self,response):
        sel =Selector(response)
        print sel
        

当然,我也设置了DOWNLOAD_DELAY、DOWNLOAD_TIMEOUT、retrymiddleware、UserAgentMiddleware用来改善爬取效果。

但效果不好,怎么去做?谢!


解决方案1:

感谢邀请。我想确认一下你的效果不好指的是如何效果不好呢?20~30有没有可能有些页面一开始就没有100条数据,比如说到了最后一页只有20条之类的

解决方案2:

先要确定你的目标网站没有进行过内容更新,然后再看你的程序在异常处理上有没有漏洞,比如有些网站在某些时候打开的时间会比较长,而你设置的请求等待时间过短,或是没有对请求失败(一般是超时)的链接进行多次再请求确认,都可能导致获取数据不一致。这里只是举一个例子而已,每一个网站的情况都不一样,题主还是要仔细捋一捋自己的代码。


分享到:QQ空间新浪微博腾讯微博微信百度贴吧QQ好友复制网址打印

您可能想查找下面的文章:

  • 为什么每次爬虫获取的数据量都不一样?

相关文章

  • 2017-06-07 七牛的私密空间加密之后的生成的url可以再加参数Center/crop之类的吗?
  • 2017-06-07 有哪些可视化编程的平台?分别有什么特色?
  • 2017-06-07 div指令的问题,得数可能比reg位数大不能保存,怎么办?
  • 2017-06-07 如何打开php文件Mac如何给自带的PHP进行大版本升级?
  • 2017-06-07 (python)游戏服务器开发,对redis缓存同步数据库问题
  • 2017-06-07 matplotlib画图时出错,大家帮忙啊
  • 2017-06-07 VC6制作DLL问题
  • 2017-06-07 七牛现在是否有魔法变量能在server的callback里知道上传的id/key?
  • 2017-06-07 flask调试的时候,不另开httpserver怎样提供静态文件?
  • 2017-06-07 七牛forWordPressV10非镜像直接上传

文章分类

  • JavaScript
  • ASP.NET
  • PHP
  • 正则表达式
  • AJAX
  • JSP
  • ASP
  • Flex
  • XML
  • 编程技巧
  • Android
  • swift
  • C#教程
  • vb
  • vb.net
  • C语言
  • Java
  • Delphi
  • 易语言
  • vc/mfc
  • 嵌入式开发
  • 游戏开发
  • ios
  • 编程问答
  • 汇编语言
  • 微信小程序
  • 数据结构
  • OpenGL
  • 架构设计
  • qt
  • 微信公众号

最近更新的内容

    • 持久化处理时报错"executefopcmdfailed:Theoriginalimageabnormal"
    • 客户支持系统密码和网站的不一样
    • 当接口的协议变化时,为了保证不影响到原先逻辑的代码,需要用到哪些设计模式?
    • 用Eclipse如何调试jbossseam,低级问题请不啬指教啊
    • 使用JWT进行登录认证的一些问题
    • pythonstmplib库发邮件如何知道成功发送到对方服务器
    • 算法求教~Python
    • python里fromimportas和afunc=modulefunc会导致什么不同吗?
    • 一个简单的Hibernate实体生成工具和模板,有兴趣的朋友可以下载来试下!
    • JBPM与spring和hibernate集成使用出现的问题

关于我们 - 联系我们 - 免责声明 - 网站地图

©2020-2025 All Rights Reserved. linkedu.com 版权所有