为什么每次爬虫获取的数据量都不一样？

作者：佚名字体：[增加减小] 来源：互联网时间：2017-06-07

佚名通过本文主要向大家介绍了爬虫访问量,爬虫获取数据,爬虫数据采集,股票历史数据爬虫,网络爬虫抓取数据等相关知识,希望对您有所帮助,也希望大家支持linkedu.com www.linkedu.com

问题：为什么每次爬虫获取的数据量都不一样？
描述:

目标页面上有100个url,爬虫会顺着这些url进去爬取内容，有时会返回二十几条内容，有时三十几条，每次都不一样，这是什么原因造成的？

程序结构如下：

start_urls = [domain_url]

def parse(self, response):
   for link in links:
          yield Request(link,callback=self.parse2)
          
 def parse2(self,response):
        sel =Selector(response)
        print sel

当然，我也设置了DOWNLOAD_DELAY、DOWNLOAD_TIMEOUT、retrymiddleware、UserAgentMiddleware用来改善爬取效果。

但效果不好，怎么去做？谢！

解决方案1:

感谢邀请。我想确认一下你的效果不好指的是如何效果不好呢？20~30有没有可能有些页面一开始就没有100条数据，比如说到了最后一页只有20条之类的

解决方案2:

先要确定你的目标网站没有进行过内容更新，然后再看你的程序在异常处理上有没有漏洞，比如有些网站在某些时候打开的时间会比较长，而你设置的请求等待时间过短，或是没有对请求失败（一般是超时）的链接进行多次再请求确认，都可能导致获取数据不一致。这里只是举一个例子而已，每一个网站的情况都不一样，题主还是要仔细捋一捋自己的代码。

分享到：QQ空间新浪微博腾讯微博微信百度贴吧 QQ好友复制网址打印

您可能想查找下面的文章:

为什么每次爬虫获取的数据量都不一样？

2017-06-07 七牛的私密空间加密之后的生成的url可以再加参数Center/crop之类的吗？
2017-06-07 有哪些可视化编程的平台？分别有什么特色？
2017-06-07 div指令的问题,得数可能比reg位数大不能保存，怎么办?
2017-06-07 如何打开php文件Mac如何给自带的PHP进行大版本升级？
2017-06-07 (python)游戏服务器开发，对redis缓存同步数据库问题
2017-06-07 matplotlib画图时出错，大家帮忙啊
2017-06-07 VC6制作DLL问题
2017-06-07 七牛现在是否有魔法变量能在server的callback里知道上传的id/key？
2017-06-07 flask调试的时候,不另开httpserver怎样提供静态文件?
2017-06-07 七牛forWordPressV10非镜像直接上传

为什么每次爬虫获取的数据量都不一样？

您可能想查找下面的文章:

相关文章

文章分类

最近更新的内容