• linkedu视频
  • 平面设计
  • 电脑入门
  • 操作系统
  • 办公应用
  • 电脑硬件
  • 动画设计
  • 3D设计
  • 网页设计
  • CAD设计
  • 影音处理
  • 数据库
  • 程序设计
  • 认证考试
  • 信息管理
  • 信息安全
菜单
linkedu.com
  • 网页制作
  • 数据库
  • 程序设计
  • 操作系统
  • CMS教程
  • 游戏攻略
  • 脚本语言
  • 平面设计
  • 软件教程
  • 网络安全
  • 电脑知识
  • 服务器
  • 视频教程
  • JavaScript
  • ASP.NET
  • PHP
  • 正则表达式
  • AJAX
  • JSP
  • ASP
  • Flex
  • XML
  • 编程技巧
  • Android
  • swift
  • C#教程
  • vb
  • vb.net
  • C语言
  • Java
  • Delphi
  • 易语言
  • vc/mfc
  • 嵌入式开发
  • 游戏开发
  • ios
  • 编程问答
  • 汇编语言
  • 微信小程序
  • 数据结构
  • OpenGL
  • 架构设计
  • qt
  • 微信公众号
您的位置:首页 > 程序设计 >编程问答 > 下面一段html代码怎么用Python+正则一次性提取出来:标题,url,时间,简介组成一个字典?

下面一段html代码怎么用Python+正则一次性提取出来:标题,url,时间,简介组成一个字典?

作者:佚名 字体:[增加 减小] 来源:互联网 时间:2017-06-07

佚名通过本文主要向大家介绍了下面一段html代码怎么用Python+正则一次性提取出来:标题,url,时间,简介组成一个字典?等相关知识,希望对您有所帮助,也希望大家支持linkedu.com www.linkedu.com
问题:下面一段html代码怎么用Python+正则一次性提取出来:标题,url,时间,简介组成一个字典?
描述:

                               <div>
        <div>
            <h2><a href="http://money.163.com/15/0902/09/B2GEL9V8002551G6.html">主营业务负增长 董明珠还自信?</a></h2>
                            <a href="http://money.163.com/15/0902/09/B2GEL9V8002551G6.html" title="主营业务负增长 董明珠还自信?" lang="http://img1.cache.netease.com/stock/2015/9/2/2015090209124874ceb_550.jpg"><img src="http://s.cimg.163.com/stock/2015/9/2/2015090209124874ceb_550.jpg.119x83.jpg" alt="主营业务负增长 董明珠还自信?" /></a>                                <p>[摘要:8月30日晚间公布的格力电器上半年财报无疑给董明珠浇了一盆冷水。虽然董明珠嘴上仍在硬撑,但她的底气明显不足了。因为,格力的主营业务——空调出问题了。当格力开始不谈承诺的时候,董明珠最应该干的事,是静下心来好好反思,而不是把更多的心思花在无聊的口水战和吹牛逼 ...<br />
                <span>2015-09-02 09:20:55</span>
            </p>
        </div>
        <div>
            <ul>
                <li>董明珠应该静下心好好反思,而不是把心思花在口水战和吹牛逼上。</li>                                                            <li><a href="http://money.163.com/15/0902/09/B2GEL9V8002551G6.html">主营业务负增长 董明珠还自信?</a></li>                </ul>
        </div>
    </div>
                       <div>
        <div>
            <h2><a href="http://money.163.com/15/0831/11/B2BGVVQ0002551G6.html">中国手机的非洲历险记</a></h2>
                            <a href="http://money.163.com/15/0831/11/B2BGVVQ0002551G6.html" title="中国手机的非洲历险记" lang="http://img4.cache.netease.com/stock/2015/8/31/201508311110060cc03.jpg"><img src="http://s.cimg.163.com/stock/2015/8/31/201508311110060cc03.jpg.119x83.jpg" alt="中国手机的非洲历险记" /></a>                                <p>[摘要:中国手机全球化版图扩张中,已经完成了两个阶段,国内市场红海一片,几乎没有太多眷恋;欧美发达国家,市场如堡垒般稳固,而且面临专利、渠道等麻烦,败走麦城似乎是命中注定的事儿。]原标题:[亦观察] No.616&nbsp;中国手机的非洲历险记如今,中国手机正悄然转移重点,把  ...<br />
                <span>2015-08-31 11:25:30</span>
            </p>
        </div>


解决方案1:

不需要使用正则,最好用BeautifulSoup解析HTML文档:

from bs4 import BeautifulSoup

html = '''
     <div>
     .........你的html文档
     </div>
     '''
soup = BeautifulSoup(html)
tags = soup.find_all('div', class_='item_top')
news_list = []
for tag in tags:
    news_dict = {}
    news_dict['news_title'] = tag.h2.string
    news_dict['news_time'] = tag.span.string
    news_dict['news_abstract'] = tag.p.next_element
    news_dict['news_url'] = tag.h2.a.get('href')
    news_list.append(news_dict)

最终运行结果,每个新闻一个字典,所有字典在一个列表里:

print(news_list)

[
{
'news_abstract': '[摘要:8月30日晚间公布的格力电器上半年财报无疑给董明珠浇了一盆冷水。虽然董明珠嘴上仍在硬撑,但她的底气明显不足了。因为,格力的主营业务——空调出问题了。当格力开始不谈承诺的时候,董明珠最应该干的事,是静下心来好好反思,而不是把更多的心思花在无聊的口水战和吹牛逼 ...', 
'news_url': 'http://money.163.com/15/0902/09/B2GEL9V8002551G6.html', 
'news_time': '2015-09-02 09:20:55', 
'news_title': '主营业务负增长 董明珠还自信?'
}, 
{
'news_abstract': '[摘要:中国手机全球化版图扩张中,已经完成了两个阶段,国内市场红海一片,几乎没有太多眷恋;欧美发达国家,市场如堡垒般稳固,而且面临专利、渠道等麻烦,败走麦城似乎是命中注定的事儿。]原标题:[亦观察] No.616\xa0中国手机的非洲历险记如今,中国手机正悄然转移重点,把  ...',
'news_url': 'http://money.163.com/15/0831/11/B2BGVVQ0002551G6.html', 
'news_time': '2015-08-31 11:25:30', 
'news_title': '中国手机的非洲历险记'
}
]

解决方案2:

建议使用beautifulsoup库解析,和前端操作dom类似解析html

解决方案3:

好像用Python的库直接解析HTML更简单


分享到:QQ空间新浪微博腾讯微博微信百度贴吧QQ好友复制网址打印

您可能想查找下面的文章:

  • 下面一段html代码怎么用Python+正则一次性提取出来:标题,url,时间,简介组成一个字典?

相关文章

  • 2017-06-07 api支付接口英雄联盟中文api接口
  • 2017-06-07 请问,如何让所有按钮绑定同一"移出"和移入效果
  • 2017-06-07 Python如何有效的管理依赖?
  • 2017-06-07 python调用mysql存储过程没有反应
  • 2017-06-07 [招聘]北京游戏公司招聘python开发工程师
  • 2017-06-07 (ruby)railsconsole显示的和数据库中条目不一致
  • 2017-06-07 图像拼接中鬼影处理
  • 2017-06-07 七牛服务器是不是处问题了?上传不了文件
  • 2017-06-07 七牛的工单入口藏的太深了
  • 2017-06-07 七牛云存储如何整合织梦dedecms

文章分类

  • JavaScript
  • ASP.NET
  • PHP
  • 正则表达式
  • AJAX
  • JSP
  • ASP
  • Flex
  • XML
  • 编程技巧
  • Android
  • swift
  • C#教程
  • vb
  • vb.net
  • C语言
  • Java
  • Delphi
  • 易语言
  • vc/mfc
  • 嵌入式开发
  • 游戏开发
  • ios
  • 编程问答
  • 汇编语言
  • 微信小程序
  • 数据结构
  • OpenGL
  • 架构设计
  • qt
  • 微信公众号

最近更新的内容

    • 请问我在C程序中分配了10个内存,并赋值了,然后用debug用d命令进行查看该地址的内容,为什么error?
    • 正则表达式提取指定字符串
    • 使用七牛sdk704出现版本兼容问题,开发环境为jdk16
    • (python)怎么对dataframe中筛选过的数据进行计算
    • 关于最新的C#SDK7214的开放JSON解析器的看法
    • vfp9编辑的编译好的程序放在XP系统下运行的问题
    • JS得到html5画图的base64的值,我要上传到七牛,返回图片的地址!
    • (python)协程的真正的意义在哪里?我写了两个程序对比
    • 寻Python开源项目
    • centos安装教程centos安装phpredis出现问题?

关于我们 - 联系我们 - 免责声明 - 网站地图

©2020-2025 All Rights Reserved. linkedu.com 版权所有