• linkedu视频
  • 平面设计
  • 电脑入门
  • 操作系统
  • 办公应用
  • 电脑硬件
  • 动画设计
  • 3D设计
  • 网页设计
  • CAD设计
  • 影音处理
  • 数据库
  • 程序设计
  • 认证考试
  • 信息管理
  • 信息安全
菜单
linkedu.com
  • 网页制作
  • 数据库
  • 程序设计
  • 操作系统
  • CMS教程
  • 游戏攻略
  • 脚本语言
  • 平面设计
  • 软件教程
  • 网络安全
  • 电脑知识
  • 服务器
  • 视频教程
  • dedecms
  • ecshop
  • z-blog
  • UcHome
  • UCenter
  • drupal
  • WordPress
  • 帝国cms
  • phpcms
  • 动易cms
  • phpwind
  • discuz
  • 科汛cms
  • 风讯cms
  • 建站教程
  • 运营技巧
您的位置:首页 > CMS教程 >运营技巧 > SEO案例:浅析爬虫的不重复抓取策略

SEO案例:浅析爬虫的不重复抓取策略

作者:查字典编辑 字体:[增加 减小] 来源:互联网 时间:2022-05-05

查字典编辑向大家介绍了SEO案例:浅析爬虫的不重复抓取策略,自学教程,网站运营教程等相关知识,希望对您有所帮助
SEO案例:浅析爬虫的不重复抓取策略1

不重复抓取?有很多初学者可能会觉得。爬虫不是有深度优先和广度优先两种抓取策略吗?你这怎么又多出来一个不重复抓取策略呢?其实我这几天有不止一次听到了有人说要在不同页面增加同一页面链接,才能保证收录。我想真能保证吗?涉及收录问题的不止是抓没抓吧?也从而延伸出今天的这篇文章,不重复抓取策略,以说明在一定时间内的爬虫抓取是有这样规则的,当然还有很多其他的规则策略,以后有机会再说,例如优先抓取策略、网页重访策略等等。

回归正题,不重复抓取,就需要去判断是否重复。那么就需要记住之前的抓取行为,我们举一个简单的例子。你在我的QQ群(9060800)里看到我发了一个URL链接,然后你是先看到了我发的这个链接,然后才会点击并在浏览器打开看到具体内容。这个等于爬虫看到了后才会进行抓取。那怎么记录呢?我们下面看一张图:

如上图,假设这是一个网页上所有的链接,当爬虫爬取这个页面的链接时就全部发现了。当然爬取(理解为发现链接)与抓取(理解为抓取网页)是同步进行的。一个发现了就告诉了另外一个,然后前面的继续爬,后面的继续抓。抓取完了就存起来,并标记上,如上图,我们发现第2条记录和第6条记录是重复的。那么当爬虫抓取第二条后,又爬取到了第6条就发现这条信息已经抓取过了,那么就不再抓取了。爬虫不是尽可能抓更多的东西吗?为什么还要判断重复的呢?

其实,我们可以想一下。互联网有多少网站又有多少网页呢?赵彦刚是真没查证过,但这个量级应该大的惊人了。而本身搜索引擎的爬取和抓取都是需要执行一段代码或一个函数。执行一次就代表着要耗费一丁点资源。如果抓取的重复量级达到百亿级别又会让爬虫做多少的无用功?耗费搜索引擎多大的成本?这成本就是钱,降低成本就是减少支出。当然不重复抓取不光体现在这里,但这个是最显而易见的。你要知道的就是类似于内容详情页的热门推荐、相关文章、随机推荐、最新文章的重复度有多大?是不是所有页面都一样?如果都一样,那么可以适当调整下,在不影响网站本身的用户体验前提下,去适当做一些调整。毕竟网站是给用户看的,搜索引擎只是获取流量的一个重要入口,一种营销较为重要的途径!

分享到:QQ空间新浪微博腾讯微博微信百度贴吧QQ好友复制网址打印

您可能想查找下面的文章:

  • SEO案例:浅析爬虫的不重复抓取策略

相关文章

  • 2022-05-05什么是蜘蛛池/SEO蜘蛛池如何养?蜘蛛池的原理和作用解答
  • 2022-05-05企业建站需要怎样的建站工具呢?
  • 2022-05-05营销网站服务器日志怎么看?
  • 2022-05-05只需做好这10点移动网站排名迅速上升
  • 2022-05-05阿里云的NoSQL存储服务OTS的应用分析
  • 2022-05-05企业网站内容如何部署关键词才是最佳?
  • 2022-05-05用户行为会影响SEO排名么
  • 2022-05-052016外链新解:做用户认可、参与、推荐的高质量外链
  • 2022-05-05SEO技术中关键词上的概念、分类、选择所有知识
  • 2022-05-05百度索引量下降原因分析及解决方案

文章分类

  • dedecms
  • ecshop
  • z-blog
  • UcHome
  • UCenter
  • drupal
  • WordPress
  • 帝国cms
  • phpcms
  • 动易cms
  • phpwind
  • discuz
  • 科汛cms
  • 风讯cms
  • 建站教程
  • 运营技巧

最近更新的内容

    • 让网站打开更快 减少域名dns解析时间(TTL多大比较好)
    • 什么是文案策划落脚点?网站运营中文案策划3大落脚点
    • 移动站点站内优化Checklist
    • 用户行为会影响SEO排名么
    • 网站搜索引擎优化的二十四条小技巧分享
    • 浅析几点写高质量原创内容所带来的好处
    • crazydomains域名转移Namesilo详细图文教程
    • 公众号运营干货分享
    • 如何从框架上理解内容运营
    • 网站定期更新内容的理由

关于我们 - 联系我们 - 免责声明 - 网站地图

©2020-2025 All Rights Reserved. linkedu.com 版权所有