• linkedu视频
  • 平面设计
  • 电脑入门
  • 操作系统
  • 办公应用
  • 电脑硬件
  • 动画设计
  • 3D设计
  • 网页设计
  • CAD设计
  • 影音处理
  • 数据库
  • 程序设计
  • 认证考试
  • 信息管理
  • 信息安全
菜单
linkedu.com
  • 网页制作
  • 数据库
  • 程序设计
  • 操作系统
  • CMS教程
  • 游戏攻略
  • 脚本语言
  • 平面设计
  • 软件教程
  • 网络安全
  • 电脑知识
  • 服务器
  • 视频教程
  • JavaScript
  • ASP.NET
  • PHP
  • 正则表达式
  • AJAX
  • JSP
  • ASP
  • Flex
  • XML
  • 编程技巧
  • Android
  • swift
  • C#教程
  • vb
  • vb.net
  • C语言
  • Java
  • Delphi
  • 易语言
  • vc/mfc
  • 嵌入式开发
  • 游戏开发
  • ios
  • 编程问答
  • 汇编语言
  • 微信小程序
  • 数据结构
  • OpenGL
  • 架构设计
  • qt
  • 微信公众号
您的位置:首页 > 程序设计 >C#教程 > 基于C#实现网络爬虫 C#抓取网页Html源码

基于C#实现网络爬虫 C#抓取网页Html源码

作者:小虾Joe 字体:[增加 减小] 来源:互联网 时间:2017-05-28

小虾Joe 通过本文主要向大家介绍了基于c/s,基于c 的图书管理系统,基于c 的毕业设计,基于c/s架构,基于c/s模式等相关知识,希望对您有所帮助,也希望大家支持linkedu.com www.linkedu.com

最近刚完成一个简单的网络爬虫,开始的时候很迷茫,不知道如何入手,后来发现了很多的资料,不过真正能达到我需要,有用的资料--代码很难找。所以我想发这篇文章让一些要做这个功能的朋友少走一些弯路。

首先是抓取Html源码,并选择<ul class="post_list">  </ul>节点的href:要添加using System.IO;using System.Net;

private void Search(string url)
{
 string rl;
 WebRequest Request = WebRequest.Create(url.Trim());
 
 WebResponse Response = Request.GetResponse();
 
 Stream resStream = Response.GetResponseStream();
 
 StreamReader sr = new StreamReader(resStream, Encoding.Default);
 StringBuilder sb = new StringBuilder();
 while ((rl = sr.ReadLine()) != null)
 {
  sb.Append(rl);
 }
 
 
 string str = sb.ToString().ToLower();
 
 string str_get = mid(str, "<ul class=\"post_list\">", "</ul>");
 
 
 int start = 0;
 while (true)
 {
  if (str_get == null)
   break;
  string strResult = mid(str_get, "href=\"", "\"", out start);
  if (strResult == null)
   break;
  else
  {
   lab[url] += strResult;
   str_get = str_get.Substring(start);
  }
 }
}
 
 
 
 
private string mid(string istr, string startString, string endString)
{
 int iBodyStart = istr.IndexOf(startString, 0);    //开始位置
 if (iBodyStart == -1)
  return null;
 iBodyStart += startString.Length;       //第一次字符位置起的长度
 int iBodyEnd = istr.IndexOf(endString, iBodyStart);   //第二次字符在第一次字符位置起的首次位置
 if (iBodyEnd == -1)
  return null;
 iBodyEnd += endString.Length;        //第二次字符位置起的长度
 string strResult = istr.Substring(iBodyStart, iBodyEnd - iBodyStart - 1);
 return strResult;
}
 
 
private string mid(string istr, string startString, string endString, out int iBodyEnd)
{
 //初始化out参数,否则不能return
 iBodyEnd = 0;
 
 int iBodyStart = istr.IndexOf(startString, 0);    //开始位置
 if (iBodyStart == -1)
  return null;
 iBodyStart += startString.Length;       //第一次字符位置起的长度
 iBodyEnd = istr.IndexOf(endString, iBodyStart);   //第二次字符在第一次字符位置起的首次位置
 if (iBodyEnd == -1)
  return null;
 iBodyEnd += endString.Length;        //第二次字符位置起的长度
 string strResult = istr.Substring(iBodyStart, iBodyEnd - iBodyStart - 1);
 return strResult;
}
</div>

好了,上面就是全部代码了,如果你想要运行出来的话,有些细节要自己修改下。

以上就是本文的全部内容,希望对大家的学习有所帮助。

</div>
分享到:QQ空间新浪微博腾讯微博微信百度贴吧QQ好友复制网址打印

您可能想查找下面的文章:

  • 基于C#编写经理评分系统
  • 基于C#的UDP协议的同步通信实现代码
  • 基于c#实现的九九乘法表(简单实例)
  • 基于C#的socket编程的TCP异步的实现代码
  • 基于c#用Socket做一个局域网聊天工具
  • 基于C#技术实现身份证识别功能
  • 基于C#的电视台节目表接口调用代码
  • 基于C# 生成Zip压缩包代码
  • 基于C#实现网络爬虫 C#抓取网页Html源码
  • 基于C#实现网页爬虫

相关文章

  • 2017-05-28C# SkinEngine控件 给窗体添加皮肤的方法
  • 2017-05-28treeview递归绑定的两种方法
  • 2017-05-28C#文件分割的方法
  • 2017-05-28C#中使用反射获取结构体实例及思路
  • 2017-05-28C# Linq读取XML文件的实例
  • 2017-05-28C#控制台下测试多线程的方法
  • 2017-05-28C#常用的字符串扩展方法汇总
  • 2017-05-28C#代码操作XML进行增、删、改操作
  • 2017-05-28C#使用Windows Service的简单教程(创建、安装、卸载、调试)
  • 2017-05-28C#托管堆对象实例包含内容分析

文章分类

  • JavaScript
  • ASP.NET
  • PHP
  • 正则表达式
  • AJAX
  • JSP
  • ASP
  • Flex
  • XML
  • 编程技巧
  • Android
  • swift
  • C#教程
  • vb
  • vb.net
  • C语言
  • Java
  • Delphi
  • 易语言
  • vc/mfc
  • 嵌入式开发
  • 游戏开发
  • ios
  • 编程问答
  • 汇编语言
  • 微信小程序
  • 数据结构
  • OpenGL
  • 架构设计
  • qt
  • 微信公众号

最近更新的内容

    • C#实现将记事本中的代码编译成可执行文件的方法
    • c#判断网络连接状态的示例分享
    • NGUI实现滑动翻页效果实例代码
    • c#中oracle的to_date函数使用方法
    • 基于动态修改App.Config与web.Config的使用详解
    • C#实现翻转字符串的方法
    • C#之Socket操作类实例解析
    • C#访问SQL Server数据库的实现方法
    • 使用mutex实现应用程序单实例运行代码分享
    • c#代码自动修改解决方案下任意文件实例

关于我们 - 联系我们 - 免责声明 - 网站地图

©2020-2025 All Rights Reserved. linkedu.com 版权所有