• linkedu视频
  • 平面设计
  • 电脑入门
  • 操作系统
  • 办公应用
  • 电脑硬件
  • 动画设计
  • 3D设计
  • 网页设计
  • CAD设计
  • 影音处理
  • 数据库
  • 程序设计
  • 认证考试
  • 信息管理
  • 信息安全
菜单
linkedu.com
  • 网页制作
  • 数据库
  • 程序设计
  • 操作系统
  • CMS教程
  • 游戏攻略
  • 脚本语言
  • 平面设计
  • 软件教程
  • 网络安全
  • 电脑知识
  • 服务器
  • 视频教程
  • JavaScript
  • ASP.NET
  • PHP
  • 正则表达式
  • AJAX
  • JSP
  • ASP
  • Flex
  • XML
  • 编程技巧
  • Android
  • swift
  • C#教程
  • vb
  • vb.net
  • C语言
  • Java
  • Delphi
  • 易语言
  • vc/mfc
  • 嵌入式开发
  • 游戏开发
  • ios
  • 编程问答
  • 汇编语言
  • 微信小程序
  • 数据结构
  • OpenGL
  • 架构设计
  • qt
  • 微信公众号
您的位置:首页 > 程序设计 >正则表达式 > 基于Python正则表达式提取搜索结果中的站点地址

基于Python正则表达式提取搜索结果中的站点地址

作者: 字体:[增加 减小] 来源:互联网 时间:2017-05-11

通过本文主要向大家介绍了python 正则表达式,python正则表达式教程,python正则表达式语法,python3 正则表达式,python中正则表达式等相关知识,希望对您有所帮助,也希望大家支持linkedu.com www.linkedu.com

正则表达式对于Python来说并不是独有的,最近在把google搜索的结果中所有的站点地址导出,于是想到用python正则表达式提取搜索结果中的站点地址。

这其中涉及几个需要解决的问题:

1、获取搜索的结果文本

为了获得更多的地址,我使用了Google的高级搜索功能,每个页面显示100条结果。

获得显示的结果后,可以查看源码,并保持成文本文件就有了搜索的结果文本

2、分析如何提取站点信息

首先需要分析获取的页面,查看以怎样的方式可以提取出站点信息。

我使用IE8自带的开发工具(按F12就会弹出来)中的探查器功能查看自己要关心的内容有什么特殊的格式

从上图可以看出我需要的站点在标签<cite></cite>中,所以我使用正则表达式提取这其中的文本是否就可以呢?

3、编写正则表达式来获取站点地址

接下来的就是写表达式了,我使用Python3.2编写的,方便好用(~_~)

代码如下,先把搜索结果页面保持到e:/t3.txt中,在执行如下代码

import re
p = re.compile(r'<cite>([^<>\/].+?)</cite>')
f = open("e:/t3.txt", encoding='utf-8')
content = f.read()
print ("\n".join(p.findall(content)))
</div>

运行如下:


大家可以对照一下运行效果图,看看所有的站点地址是不是都给获取到了。

</div>
分享到:QQ空间新浪微博腾讯微博微信百度贴吧QQ好友复制网址打印

您可能想查找下面的文章:

  • 浅析正则表达式中的lastIndex以及预查
  • 读懂正则表达式就这么简单
  • 利用正则表达式判断一个给定的字符是否是回文
  • python 正则表达式学习小结
  • 正则表达式性能优化方法(高效正则表达式书写)
  • 浅析正则表达式-替换原则(.NET) 图文
  • 日常收集整理正则表达式验证大全
  • Python正则表达式之基础篇
  • 基于Python正则表达式提取搜索结果中的站点地址
  • 正则表达式匹配解析过程探讨分析(正则表达式匹配原理)

相关文章

  • 2017-05-11ASP 正则函数替换分页后的参数
  • 2017-05-11php正则表达式匹配img中任意属性的方法
  • 2017-05-11PHP preg match正则表达式函数的操作实例
  • 2017-05-11JS常用正则表达式及验证时间的正则表达式
  • 2017-05-11javascript下正则匹配百分比的代码
  • 2017-05-11正则用(?&gt;…)实现固化分组提高效率
  • 2017-05-11asp的RegExp对象正则表达式功能用法[比较全]
  • 2017-05-11js取得参数代码
  • 2017-05-11关于表格的正则表达式讨论(表格)
  • 2017-05-11正则表达式判断所填入号码的运营商js代码修改版

文章分类

  • JavaScript
  • ASP.NET
  • PHP
  • 正则表达式
  • AJAX
  • JSP
  • ASP
  • Flex
  • XML
  • 编程技巧
  • Android
  • swift
  • C#教程
  • vb
  • vb.net
  • C语言
  • Java
  • Delphi
  • 易语言
  • vc/mfc
  • 嵌入式开发
  • 游戏开发
  • ios
  • 编程问答
  • 汇编语言
  • 微信小程序
  • 数据结构
  • OpenGL
  • 架构设计
  • qt
  • 微信公众号

最近更新的内容

    • JavaScript的正则也有单行模式了
    • 使用正则表达式匹配[***]样式的字符串
    • 可以少写1000行代码的正则表达式
    • 正则表达式不区分大小写以及解决思路的探索 .
    • 关于IE的RegExp.exec的问题
    • JavaScript正则表达式验证代码(推荐)
    • 收集一些常用的正则表达式(匹配中文字符、匹配双字节字符、匹配HTML标记、匹配空行 and so on~~~)
    • eclipse、myeclipse中删除所有注释正则表达式
    • 用正则实现提取代码内容的代码
    • python 正则表达式 反斜杠(/)的麻烦和陷阱

关于我们 - 联系我们 - 免责声明 - 网站地图

©2020-2025 All Rights Reserved. linkedu.com 版权所有