• linkedu视频
  • 平面设计
  • 电脑入门
  • 操作系统
  • 办公应用
  • 电脑硬件
  • 动画设计
  • 3D设计
  • 网页设计
  • CAD设计
  • 影音处理
  • 数据库
  • 程序设计
  • 认证考试
  • 信息管理
  • 信息安全
菜单
linkedu.com
  • 网页制作
  • 数据库
  • 程序设计
  • 操作系统
  • CMS教程
  • 游戏攻略
  • 脚本语言
  • 平面设计
  • 软件教程
  • 网络安全
  • 电脑知识
  • 服务器
  • 视频教程
  • JavaScript
  • ASP.NET
  • PHP
  • 正则表达式
  • AJAX
  • JSP
  • ASP
  • Flex
  • XML
  • 编程技巧
  • Android
  • swift
  • C#教程
  • vb
  • vb.net
  • C语言
  • Java
  • Delphi
  • 易语言
  • vc/mfc
  • 嵌入式开发
  • 游戏开发
  • ios
  • 编程问答
  • 汇编语言
  • 微信小程序
  • 数据结构
  • OpenGL
  • 架构设计
  • qt
  • 微信公众号
您的位置:首页 > 程序设计 >C#教程 > 提取HTML代码中文字的C#函数

提取HTML代码中文字的C#函数

作者: 字体:[增加 减小] 来源:互联网 时间:2017-05-28

通过本文主要向大家介绍了c#解析html,c#读取html文件内容,c#后台获取html控件,c#html,c#读取html等相关知识,希望对您有所帮助,也希望大家支持linkedu.com www.linkedu.com
/// <summary>
  /// 去除HTML标记
  /// </summary>
  /// <param name="strHtml">包括HTML的源码 </param>
  /// <returns>已经去除后的文字</returns>
  public static string StripHTML(string strHtml)
  {
   string [] aryReg ={
          @"<script[^>]*?>.*?</script>",

          @"<(\/\s*)?!?((\w+:)?\w+)(\w+(\s*=?\s*(([""'])(\\[""'tbnr]|[^\7])*?\7|\w+)|.{0})|\s)*?(\/\s*)?>",
          @"([\r\n])[\s]+",
          @"&(quot|#34);",
          @"&(amp|#38);",
          @"&(lt|#60);",
          @"&(gt|#62);", 
          @"&(nbsp|#160);", 
          @"&(iexcl|#161);",
          @"&(cent|#162);",
          @"&(pound|#163);",
          @"&(copy|#169);",
          @"&#(\d+);",
          @"-->",
          @"<!--.*\n"

         };

   string [] aryRep = {
           "",
           "",
           "",
           "\"",
           "&",
           "<",
           ">",
           " ",
           "\xa1",//chr(161),
           "\xa2",//chr(162),
           "\xa3",//chr(163),
           "\xa9",//chr(169),
           "",
           "\r\n",
           ""
          };

   string newReg =aryReg[0];
   string strOutput=strHtml;
   for(int i = 0;i<aryReg.Length;i++)
   {
    Regex regex = new Regex(aryReg[i],RegexOptions.IgnoreCase );
    strOutput = regex.Replace(strOutput,aryRep[i]);
   }

   strOutput.Replace("<","");
   strOutput.Replace(">","");
   strOutput.Replace("\r\n","");


   return strOutput;
  }

</div>
分享到:QQ空间新浪微博腾讯微博微信百度贴吧QQ好友复制网址打印

您可能想查找下面的文章:

  • C#发送内置图片html格式邮件的方法
  • C#获取网页HTML源码实例
  • C#实现下载网页HTML源码的方法
  • C#实现压缩HTML代码的方法
  • C#实现过滤html标签并保留a标签的方法
  • 使用C#获取网页HTML源码的例子
  • c#远程html数据抓取实例分享
  • C#使用MailAddress类发送html格式邮件的实例代码
  • C#下解析HTML的两种方法介绍
  • C#中除去所有在HTML元素中标记

相关文章

  • 2017-05-28C#设置右键菜单的方法
  • 2017-05-28C#中改变DataGridView控件边框颜色的方法
  • 2017-05-28c#日志记录帮助类分享
  • 2017-05-28C#将数字转换成字节数组的方法
  • 2017-05-28使用xmltextreader对象读取xml文档示例
  • 2017-05-28C# XML序列化方法及常用特性总结分析
  • 2017-05-28C#随机设置900-1100毫秒延迟的方法
  • 2017-05-28C#图像透明度调整的方法
  • 2017-05-28浅析C# 使用Process调用外部程序中所遇到的参数问题
  • 2017-05-28c#生成excel示例sql数据库导出excel

文章分类

  • JavaScript
  • ASP.NET
  • PHP
  • 正则表达式
  • AJAX
  • JSP
  • ASP
  • Flex
  • XML
  • 编程技巧
  • Android
  • swift
  • C#教程
  • vb
  • vb.net
  • C语言
  • Java
  • Delphi
  • 易语言
  • vc/mfc
  • 嵌入式开发
  • 游戏开发
  • ios
  • 编程问答
  • 汇编语言
  • 微信小程序
  • 数据结构
  • OpenGL
  • 架构设计
  • qt
  • 微信公众号

最近更新的内容

    • c#中使用自动属性减少代码输入量
    • C#中IEnumerable、ICollection、IList、List之间的区别
    • 区分WCF与WebService的异同、优势
    • C#版Windows服务安装卸载小工具
    • 详解C#中的out和ref
    • C# Console类的具体用法
    • C# winform点击生成二维码实例代码
    • C#中一些字符串操作的常用用法
    • C#字符串的截取函数用法总结
    • 深入理解C#中的枚举

关于我们 - 联系我们 - 免责声明 - 网站地图

©2020-2025 All Rights Reserved. linkedu.com 版权所有