• linkedu视频
  • 平面设计
  • 电脑入门
  • 操作系统
  • 办公应用
  • 电脑硬件
  • 动画设计
  • 3D设计
  • 网页设计
  • CAD设计
  • 影音处理
  • 数据库
  • 程序设计
  • 认证考试
  • 信息管理
  • 信息安全
菜单
linkedu.com
  • 网页制作
  • 数据库
  • 程序设计
  • 操作系统
  • CMS教程
  • 游戏攻略
  • 脚本语言
  • 平面设计
  • 软件教程
  • 网络安全
  • 电脑知识
  • 服务器
  • 视频教程
  • JavaScript
  • ASP.NET
  • PHP
  • 正则表达式
  • AJAX
  • JSP
  • ASP
  • Flex
  • XML
  • 编程技巧
  • Android
  • swift
  • C#教程
  • vb
  • vb.net
  • C语言
  • Java
  • Delphi
  • 易语言
  • vc/mfc
  • 嵌入式开发
  • 游戏开发
  • ios
  • 编程问答
  • 汇编语言
  • 微信小程序
  • 数据结构
  • OpenGL
  • 架构设计
  • qt
  • 微信公众号
您的位置:首页 > 程序设计 >编程问答 > scrapy无法抓取css选择器指定的内容

scrapy无法抓取css选择器指定的内容

作者:佚名 字体:[增加 减小] 来源:互联网 时间:2017-06-07

佚名通过本文主要向大家介绍了无法安装scrapy,scrapy抓取动态页面,scrapy抓取图片,scrapy抓取动态网页,scrapy等相关知识,希望对您有所帮助,也希望大家支持linkedu.com www.linkedu.com
问题:scrapy无法抓取css选择器指定的内容
描述:

我在ubuntu14.04上工作,使用google chrome浏览器。想使用scrapy(1.0)把拉勾网上有关python的工作都爬一遍,但是得不到想要的结果。代码如下

#!/usr/bin/python
# -*- coding: utf-8 -*-
#Filename: dmoz_spider.py

import scrapy

class DmozSpider(scrapy.Spider):
    name = "dmoz"
    start_urls = [
    'http://www.lagou.com/jobs/list_python?gj=1-3%E5%B9%B4&px=default&city=%E6%88%90%E9%83%BD#filterBox'
    ]

    def parse(self, response):
        total = response.css('.money').extract()
        print('note:', total)
        for res in total:
            print(res)

这里是拉勾网的地址,地点成都,python相关
我想要获取的内容如下:"6k-9k" 即每个岗位的薪资

使用chrome的一个插件SelectorGadgets得到了要抓取的内容的css selector表达hi为.money。然后在终端用命令scrapy crawl dmoz开始启动爬虫,但是却没有得到任何结果,请教各位大神,这是怎么回事?
PS:该selector在chrome的F12工具里都可以正确地选出内容。


解决方案1:

遇到这种情况一般有以下几种可能:
1.返回的response本身为空:那么应该就是IP被封了;
2.返回的response不为空:

i.返回的文件可能是压缩格式的,判断文件格式后,解压之后再抓取即可;
ii.要抓取的内容为动态的。你列出的例子就是这样,解决办法是:进入职位详情页再抓取,如下:

a搜索结果列表页

b职位详情页

c职位详情源码页

解决方案2:

可能哪些内容是ajax动态的,print response里的html看看你的内容在不在里面


分享到:QQ空间新浪微博腾讯微博微信百度贴吧QQ好友复制网址打印

您可能想查找下面的文章:

  • 命令scrapy下无法补全
  • scrapy无法抓取css选择器指定的内容

相关文章

  • 2017-06-07 忘记七牛登录邮箱地址如何找回??
  • 2017-06-07 七牛的Android客户端如何一次性上传多个文件,上传完成后回调一次回调函数?
  • 2017-06-07 Python爬虫运行正常,最后却报错
  • 2017-06-07 推荐!!七牛云存储开发者中心交流群QQ:216132360,开发者请进。
  • 2017-06-07 laravelLaravel中中间件如何获取子域名
  • 2017-06-07 JavaScript语言精粹关于解析URL正则问题
  • 2017-06-07 qrsbox需要对外开放什么端口?
  • 2017-06-07 (VFP)vf中怎样写excel中行的宽度行的高度代码
  • 2017-06-07 python爬虫Python列表嵌套字典
  • 2017-06-07 用AT&T汇编来读命令行输入,程序启动就崩溃在_start,太奇怪了。

文章分类

  • JavaScript
  • ASP.NET
  • PHP
  • 正则表达式
  • AJAX
  • JSP
  • ASP
  • Flex
  • XML
  • 编程技巧
  • Android
  • swift
  • C#教程
  • vb
  • vb.net
  • C语言
  • Java
  • Delphi
  • 易语言
  • vc/mfc
  • 嵌入式开发
  • 游戏开发
  • ios
  • 编程问答
  • 汇编语言
  • 微信小程序
  • 数据结构
  • OpenGL
  • 架构设计
  • qt
  • 微信公众号

最近更新的内容

    • laravel新增Api命名空间
    • (python)BeautifulSoup采集后写入CSV乱码
    • 找错误求助
    • python如何匹配段落
    • 关于SSH重启JBoss的问题急
    • redisRedis的原子性?什么是原子操作?
    • python做Excel表
    • JBOSS配置好后测试的问题
    • scrapy解析页面是串行还是并行?
    • 判断字符串为数字Python字符串转数字

关于我们 - 联系我们 - 免责声明 - 网站地图

©2020-2025 All Rights Reserved. linkedu.com 版权所有