• linkedu视频
  • 平面设计
  • 电脑入门
  • 操作系统
  • 办公应用
  • 电脑硬件
  • 动画设计
  • 3D设计
  • 网页设计
  • CAD设计
  • 影音处理
  • 数据库
  • 程序设计
  • 认证考试
  • 信息管理
  • 信息安全
菜单
linkedu.com
  • 网页制作
  • 数据库
  • 程序设计
  • 操作系统
  • CMS教程
  • 游戏攻略
  • 脚本语言
  • 平面设计
  • 软件教程
  • 网络安全
  • 电脑知识
  • 服务器
  • 视频教程
  • dedecms
  • ecshop
  • z-blog
  • UcHome
  • UCenter
  • drupal
  • WordPress
  • 帝国cms
  • phpcms
  • 动易cms
  • phpwind
  • discuz
  • 科汛cms
  • 风讯cms
  • 建站教程
  • 运营技巧
您的位置:首页 > CMS教程 >建站教程 > 聊聊node中怎么借助第三方开源库实现网站爬取功能

聊聊node中怎么借助第三方开源库实现网站爬取功能

作者:站长图库 字体:[增加 减小] 来源:互联网 时间:2022-04-29

站长图库向大家介绍了第三方开源库,网站爬取功能等相关知识,希望对您有所帮助

本篇文章给大家介绍一下node中借助第三方开源库轻松实现网站爬取功能的方法,希望对大家有所帮助!


聊聊node中怎么借助第三方开源库实现网站爬取功能


nodejs实现网站爬取功能

第三方库介绍

request 对网络请求的封装

cheerio node 版本的 jQuery

mkdirp 创建多层的文件夹目录

实现思路

通过request获取指定 url 内容

通过cheerio找到页面中跳转的路径(去重)

通过mkdirp创建目录

通过fs创建文件,将读取的内容写入

拿到没有访问的路径重复以上执行步骤

代码实现

const fs = require("fs");const path = require("path");const request = require("request");const cheerio = require("cheerio");const mkdirp = require("mkdirp");// 定义入口urlconst homeUrl = "https://www.baidu.com";// 定义set存储已经访问过的路径,避免重复访问const set = new Set([homeUrl]);function grab(url) {  // 校验url规范性  if (!url) return;  // 去空格  url = url.trim();  // 自动补全url路径  if (url.endsWith("/")) {    url += "index.html";  }  const chunks = [];  // url可能存在一些符号或者中文,可以通过encodeURI编码  request(encodeURI(url))    .on("error", (e) => {      // 打印错误信息      console.log(e);    })    .on("data", (chunk) => {      // 接收响应内容      chunks.push(chunk);    })    .on("end", () => {      // 将相应内容转换成文本      const html = Buffer.concat(chunks).toString();      // 没有获取到内容      if (!html) return;      // 解析url      let { host, origin, pathname } = new URL(url);      pathname = decodeURI(pathname);      // 通过cheerio解析html      const $ = cheerio.load(html);      // 将路径作为目录      const dir = path.dirname(pathname);      // 创建目录      mkdirp.sync(path.join(__dirname, dir));      // 往文件写入内容      fs.writeFile(path.join(__dirname, pathname), html, "utf-8", (err) => {        // 打印错误信息        if (err) {          console.log(err);          return;        }        console.log(`[${url}]保存成功`);      });      // 获取到页面中所有a元素      const aTags = $("a");      Array.from(aTags).forEach((aTag) => {        // 获取到a标签中的路径        const href = $(aTag).attr("href");        // 此处可以校验href的合法或者控制爬去的网站范围,比如必须都是某个域名下的        // 排除空标签        if (!href) return;        // 排除锚点连接        if (href.startsWith("#")) return;        if (href.startsWith("mailto:")) return;        // 如果不想要保存图片可以过滤掉        // if (/\.(jpg|jpeg|png|gif|bit)$/.test(href)) return;        // href必须是入口url域名        let reg = new RegExp(`^https?:\/\/${host}`);        if (/^https?:\/\//.test(href) && !reg.test(href)) return;        // 可以根据情况增加更多逻辑        let newUrl = "";        if (/^https?:\/\//.test(href)) {          // 处理绝对路径          newUrl = href;        } else {          // 处理相对路径          newUrl = origin + path.join(dir, href);        }        // 判断是否访问过        if (set.has(newUrl)) return;        if (newUrl.endsWith("/") && set.has(newUrl + "index.html")) return;        if (newUrl.endsWith("/")) newUrl += "index.html";        set.add(newUrl);        grab(newUrl);      });    });}// 开始抓取grab(homeUrl);

总结

简单的网页爬虫就完成了,可以把homeUrl改成自己想要爬取的网站试试。


分享到:QQ空间新浪微博腾讯微博微信百度贴吧QQ好友复制网址打印

您可能想查找下面的文章:

  • 聊聊node中怎么借助第三方开源库实现网站爬取功能

相关文章

  • 2022-04-29做百度知道推广的一点小经验
  • 2022-04-29被遗忘的WordPress模板标签有哪些?
  • 2022-04-29jQuery sibling是什么意思
  • 2022-04-29PhotoShop打造抽象几何时尚美女海报制作教程
  • 2022-04-29php构造方法和java构造方法有什么区别
  • 2022-04-29在centos下kanglephp怎么安装swoole扩展
  • 2022-04-29Photoshop教程:教您轻松掌握PS钢笔工具
  • 2022-04-29wordpress错误提示”抱歉,由于安全原因,这个文件类型不受支持。”解决方法
  • 2022-04-29微信小程序如何获取图片宽度与高度
  • 2022-04-29PHP如何删除一个路径下的所有文件夹和文件?

文章分类

  • dedecms
  • ecshop
  • z-blog
  • UcHome
  • UCenter
  • drupal
  • WordPress
  • 帝国cms
  • phpcms
  • 动易cms
  • phpwind
  • discuz
  • 科汛cms
  • 风讯cms
  • 建站教程
  • 运营技巧

最近更新的内容

    • 织梦DEDECMS首页调用单页文档内容并带过滤HTML的方
    • Photoshop设计金属颓废效果的海报标题字
    • JAVA微信公众号开发TOKEN验证失败怎么办?
    • phpMyAdmin怎么在某数据库里创建函数
    • 浅析Node.js中zip压缩和zip解压缩
    • 详解Bootstrap中的手风琴效果
    • 在SQL查询中GROUP BY的含义是什么?
    • 解决PHP SWOOLEC loader ext not installed方法教程
    • 纯CSS3怎么创建瀑布流布局?columns方法浅析
    • Photoshop制作水彩喷溅效果的艺术字

关于我们 - 联系我们 - 免责声明 - 网站地图

©2020-2025 All Rights Reserved. linkedu.com 版权所有