• linkedu视频
  • 平面设计
  • 电脑入门
  • 操作系统
  • 办公应用
  • 电脑硬件
  • 动画设计
  • 3D设计
  • 网页设计
  • CAD设计
  • 影音处理
  • 数据库
  • 程序设计
  • 认证考试
  • 信息管理
  • 信息安全
菜单
linkedu.com
  • 网页制作
  • 数据库
  • 程序设计
  • 操作系统
  • CMS教程
  • 游戏攻略
  • 脚本语言
  • 平面设计
  • 软件教程
  • 网络安全
  • 电脑知识
  • 服务器
  • 视频教程
  • JavaScript
  • ASP.NET
  • PHP
  • 正则表达式
  • AJAX
  • JSP
  • ASP
  • Flex
  • XML
  • 编程技巧
  • Android
  • swift
  • C#教程
  • vb
  • vb.net
  • C语言
  • Java
  • Delphi
  • 易语言
  • vc/mfc
  • 嵌入式开发
  • 游戏开发
  • ios
  • 编程问答
  • 汇编语言
  • 微信小程序
  • 数据结构
  • OpenGL
  • 架构设计
  • qt
  • 微信公众号
您的位置:首页 > 程序设计 >编程问答 > scrapy无法正常爬取这段html的内容?

scrapy无法正常爬取这段html的内容?

作者:佚名 字体:[增加 减小] 来源:互联网 时间:2017-06-07

佚名通过本文主要向大家介绍了scrapy htmlresponse,scrapy爬取豆瓣,scrapy爬取新闻,scrapy 爬取图片,scrapy爬取评论等相关知识,希望对您有所帮助,也希望大家支持linkedu.com www.linkedu.com
问题:scrapy无法正常爬取这段html的内容?
描述:


如图,爬取途中的时间部分,网址在此:http://sh.huodongxing.com/event/6313289154400?utm_source=%E5%8F%91%E7%8E%B0%E6%B4%BB%E5%8A%A8%E5%88%97%E8%A1%A8%E9%A1%B5&utm_medium=&utm_campaign=eventspage

我用的是scrapy的selector(基于lxml),
用的xpath语句是://div[1]/div/div[1]/text())[7]
在火狐的xpath checker上测试都可以定位到时间部分,但在爬取时都是\R\N等空字符,后来看到网友的办法:

sel = Selector(response, response.body_as_unicode().replace('\r','').replace('\n',''), 'html')

尝试了下,依然有问题(只是把\r\n换成了空格),想请问到底是在哪里出了问题呢


解决方案1:

用 chrome dev 看到的是最终的页面效果。

你试试查看源代码,在里面找找。因为这段 html 可能是 javascript 处理后的。

如果确认源码里面有,可以:右键 --> Copy --> Copy XPath

//*[@id="container-lg"]/div[1]/div/div[1]


分享到:QQ空间新浪微博腾讯微博微信百度贴吧QQ好友复制网址打印

您可能想查找下面的文章:

  • 人们认为某些白矮星scrapy某些网站response是空的?
  • scrapy无法正常爬取这段html的内容?

相关文章

  • 2017-06-07 如何在Cocos2d30版本中添加得分标签?
  • 2017-06-07 请大大们帮忙
  • 2017-06-07 centos68+crontab无法定时执行python35脚本可以定时执行python26
  • 2017-06-07 七牛图片处理的疑问
  • 2017-06-07 androidsdk里没有列举资源的api
  • 2017-06-07 javascript无法实现前后查找怎么办
  • 2017-06-07 关于Linux下执行python的时间问题
  • 2017-06-07 jboss变慢的原因分析
  • 2017-06-07 求助,写的一段opencl向量相加程序,一直运行不正确?求指导
  • 2017-06-07 七牛JAVASDK里,PutPolicy和Mac使用完之后需不需要释放?

文章分类

  • JavaScript
  • ASP.NET
  • PHP
  • 正则表达式
  • AJAX
  • JSP
  • ASP
  • Flex
  • XML
  • 编程技巧
  • Android
  • swift
  • C#教程
  • vb
  • vb.net
  • C语言
  • Java
  • Delphi
  • 易语言
  • vc/mfc
  • 嵌入式开发
  • 游戏开发
  • ios
  • 编程问答
  • 汇编语言
  • 微信小程序
  • 数据结构
  • OpenGL
  • 架构设计
  • qt
  • 微信公众号

最近更新的内容

    • python脚本更新文档中的内容
    • python-ldap连接dn时报错
    • 简体vfp9如何处理繁体的big5码的文件名
    • 建议内容管理中添加按照:文件名,时间,类型等排序
    • python下载验证码以及post登录遇到的问题--模拟登陆实战
    • PhpStorm/WebStorm能实现双向实时修改双向实时调试吗?
    • laravel上传图片成功后页面展示图片,路径应该怎么设置
    • Laravel的env文件问题
    • 用python调用ffmpeg获取摄像头生成的avi文件不能直接播放
    • redis一对多的实现???求解

关于我们 - 联系我们 - 免责声明 - 网站地图

©2020-2025 All Rights Reserved. linkedu.com 版权所有