• linkedu视频
  • 平面设计
  • 电脑入门
  • 操作系统
  • 办公应用
  • 电脑硬件
  • 动画设计
  • 3D设计
  • 网页设计
  • CAD设计
  • 影音处理
  • 数据库
  • 程序设计
  • 认证考试
  • 信息管理
  • 信息安全
菜单
linkedu.com
  • 网页制作
  • 数据库
  • 程序设计
  • 操作系统
  • CMS教程
  • 游戏攻略
  • 脚本语言
  • 平面设计
  • 软件教程
  • 网络安全
  • 电脑知识
  • 服务器
  • 视频教程
  • JavaScript
  • ASP.NET
  • PHP
  • 正则表达式
  • AJAX
  • JSP
  • ASP
  • Flex
  • XML
  • 编程技巧
  • Android
  • swift
  • C#教程
  • vb
  • vb.net
  • C语言
  • Java
  • Delphi
  • 易语言
  • vc/mfc
  • 嵌入式开发
  • 游戏开发
  • ios
  • 编程问答
  • 汇编语言
  • 微信小程序
  • 数据结构
  • OpenGL
  • 架构设计
  • qt
  • 微信公众号
您的位置:首页 > 程序设计 >编程问答 > BloomFilter在爬虫里该如何用?

BloomFilter在爬虫里该如何用?

作者:佚名 字体:[增加 减小] 来源:互联网 时间:2017-06-07

佚名通过本文主要向大家介绍了bloomfilter,bloomfilter算法,hbase bloomfilter,爬虫有什么用,网络爬虫有什么用等相关知识,希望对您有所帮助,也希望大家支持linkedu.com www.linkedu.com
问题:BloomFilter 在爬虫里该如何用?
描述:

最近在练习爬虫,有人推荐用 BloomFilter 算法来判断url是否已经抓过,看了一些资料,还是不太明白该怎么写出来,求大牛指导。


解决方案1:

http://blog.csdn.net/lemon_tree12138/article/details/47973715

解决方案2:

bloom 简单的说就是 K 个hash函数,对于一个key可以算出k个hask(key),然后将数组arr(hask(key)) = 1。判断一个key是否已经抓过,就按照上面的流程再算一遍,所有的hask(key)都是1就是已经爬过的。


推荐你用bloom filter的人,估计也就随口说,你搞不定这个,你用KV把所有爬过的Url存下来也行啊。。。


分享到:QQ空间新浪微博腾讯微博微信百度贴吧QQ好友复制网址打印

您可能想查找下面的文章:

  • scrapy的dupefilter和bloomfilter有什么区别
  • 求一种数据结构能够存储大量字符串分类信息类似bloomfilter,但是要存储的数据更多
  • pybloomfilter在python3中是否无法使用
  • pip安装bloomfilter出问题
  • BloomFilter在爬虫里该如何用?

相关文章

  • 2017-06-07 laravel读取Excel的插件LaravelExcel不能读取Excel数据?
  • 2017-06-07 请问以下Flask数据库配置哪里出错了呢?我是根据教程一步一步来做的:
  • 2017-06-07 (python)apache2在ubuntu中出现这个错误怎么解决?django的网站
  • 2017-06-07 vagrant如何手动下载box并放到指定位置
  • 2017-06-07 (flask)用Socketio实现当用户关闭页面时更新其他用户的用户列表?
  • 2017-06-07 python+selenium使用的问题
  • 2017-06-07 JavaScript语言精粹关于解析URL正则问题
  • 2017-06-07 邮箱收到七牛激活邮件后怎么办?
  • 2017-06-07 JavaScript正则表达式
  • 2017-06-07 七牛有流媒体直播服务吗?

文章分类

  • JavaScript
  • ASP.NET
  • PHP
  • 正则表达式
  • AJAX
  • JSP
  • ASP
  • Flex
  • XML
  • 编程技巧
  • Android
  • swift
  • C#教程
  • vb
  • vb.net
  • C语言
  • Java
  • Delphi
  • 易语言
  • vc/mfc
  • 嵌入式开发
  • 游戏开发
  • ios
  • 编程问答
  • 汇编语言
  • 微信小程序
  • 数据结构
  • OpenGL
  • 架构设计
  • qt
  • 微信公众号

最近更新的内容

    • 一条python的作业题
    • python中有没有像scapy一样支持http包伪造的库?
    • 求python处理mp3文件的模块
    • 88分求JBOSSSEAM操作数据库,保存数据
    • 视频的横竖问题
    • wordpress改了Stylecss把无论是把空间的内容删了或者刷新缓存都不生效。用的插件是wpsupercatch
    • 我记得在哪看到,网站加上七牛的LOGO会有啥奖励?
    • 如何清理空间缓存
    • python爬虫(python)关于property
    • pythonflask如何实现指定时间执行函数

关于我们 - 联系我们 - 免责声明 - 网站地图

©2020-2025 All Rights Reserved. linkedu.com 版权所有