• linkedu视频
  • 平面设计
  • 电脑入门
  • 操作系统
  • 办公应用
  • 电脑硬件
  • 动画设计
  • 3D设计
  • 网页设计
  • CAD设计
  • 影音处理
  • 数据库
  • 程序设计
  • 认证考试
  • 信息管理
  • 信息安全
菜单
linkedu.com
  • 网页制作
  • 数据库
  • 程序设计
  • 操作系统
  • CMS教程
  • 游戏攻略
  • 脚本语言
  • 平面设计
  • 软件教程
  • 网络安全
  • 电脑知识
  • 服务器
  • 视频教程
  • JavaScript
  • ASP.NET
  • PHP
  • 正则表达式
  • AJAX
  • JSP
  • ASP
  • Flex
  • XML
  • 编程技巧
  • Android
  • swift
  • C#教程
  • vb
  • vb.net
  • C语言
  • Java
  • Delphi
  • 易语言
  • vc/mfc
  • 嵌入式开发
  • 游戏开发
  • ios
  • 编程问答
  • 汇编语言
  • 微信小程序
  • 数据结构
  • OpenGL
  • 架构设计
  • qt
  • 微信公众号
您的位置:首页 > 程序设计 >编程问答 > pythonre抓站存数据问题。

pythonre抓站存数据问题。

作者:佚名 字体:[增加 减小] 来源:互联网 时间:2017-06-07

佚名通过本文主要向大家介绍了pythonre,pythonre模块,pythonre.s,大数据问题,管家婆数据恢复问题等相关知识,希望对您有所帮助,也希望大家支持linkedu.com www.linkedu.com
问题:python re抓站存数据问题。
描述:

喜欢看日乎日报,就像把他们采集下来方便以后看。
但是碰到这样的目标:http://daily.zhihu.com/story/4692091
采集回来存数据库的时候,只存第一个条目.
需要标题和内容,使用的是scrapy和re.compile方法。
如何将标题和内容一一对应,并全部存入数据库。
练习python中...
采集代码:

        ......
        item = ShenhuifuItem()
        sites = response.body
        i = sites
        items = []
        item['bid']=re.compile('(\d+)').findall(response.url)[0]
        item['title']=re.compile(r'<h2>(.*?)</h2>').findall(i)
        item['content']=re.compile(r'<div>(.*?)</div>',re.DOTALL).findall(i)
        item['author']=re.compile(ur'<span>(.*?)</span>').findall(i)
        for title in  item['title']:
            item['title'] = title
        for content in item['content']:
            item['content'] = content
        for author in item['author']:
            if "," in author:
                item['author'] = author[:-1]
            else:
                item['author']=author
        items.append(item)
        yield item

解决方案1:

谢谢,各位,匹配需求部分,然后使用for...in...循环解决。

解决方案2:

re.compile(r'<h2>(.*?)</h2>', re.M)

开启多行匹配模式


分享到:QQ空间新浪微博腾讯微博微信百度贴吧QQ好友复制网址打印

您可能想查找下面的文章:

  • 在活动的激活上下文中没有找到任何查找密钥pythonre找不到任何的内容非常奇怪
  • Pythonrequests多线程抓取出现HTTPConnectionPoolMaxretiresexceeded异常
  • pythonre和urllib的使用问题。
  • pythonre抓站存数据问题。

相关文章

  • 2017-06-07 不连接adb的手机(远程)通过安装apk,能不能做到将所有运行信息输出成文件?
  • 2017-06-07 (python)怎么从BeautifulSoup得到的ResultSet里搜索想要的部分?
  • 2017-06-07 怎么用正则表达式匹配13~99之间的年龄?
  • 2017-06-07 JavaScript小算法!
  • 2017-06-07 应届生怎样找一份Python的开发工作?
  • 2017-06-07 机器学习实战之树回归的代码是否功能多余问题
  • 2017-06-07 nodesdk里列出文件未支持排序
  • 2017-06-07 curl模拟用户登陆,但有验证码
  • 2017-06-07 jQuery将图片URL转换为img标签
  • 2017-06-07 (shell)买了阿里云服务器还需要自己会负载均衡技术吗

文章分类

  • JavaScript
  • ASP.NET
  • PHP
  • 正则表达式
  • AJAX
  • JSP
  • ASP
  • Flex
  • XML
  • 编程技巧
  • Android
  • swift
  • C#教程
  • vb
  • vb.net
  • C语言
  • Java
  • Delphi
  • 易语言
  • vc/mfc
  • 嵌入式开发
  • 游戏开发
  • ios
  • 编程问答
  • 汇编语言
  • 微信小程序
  • 数据结构
  • OpenGL
  • 架构设计
  • qt
  • 微信公众号

最近更新的内容

    • 是不是这样的夜晚你才会这样的想起我mac下gitlog发生这样的情况
    • (VFP)如何将考勤机与SQL服务器同步
    • 如何将wp-content所有文件放到七牛?
    • (python)pyinstaller打包成单独exe
    • 七牛传图,为何有些图片我反复上传都不会错,有些图片就一直返回614资源已存在?
    • (laravel)路由自动匹配和手动分配哪个好
    • 建议每个任务创建一个QNUploadManager么?
    • pythonsae微信公众号开发
    • jboss404是不是不支持注解
    • 刚学JBPM,想请人指点一下

关于我们 - 联系我们 - 免责声明 - 网站地图

©2020-2025 All Rights Reserved. linkedu.com 版权所有