python爬虫匹配中文总是失败？

作者：佚名字体：[增加减小] 来源：互联网时间：2017-06-07

佚名通过本文主要向大家介绍了python爬虫的中文处理,python爬虫中文乱码,python 爬虫框架,python爬虫课程,网络爬虫 python等相关知识,希望对您有所帮助,也希望大家支持linkedu.com www.linkedu.com

问题：python 爬虫匹配中文总是失败？
描述:

向各位大神请教个问题，初学python，我想提取"DJ00123987"和"号: DJ00123987"的部分，但是匹配中文总是失败。请问这是为什么？另外正则表达式的中文和空格应该怎么匹配？谢谢！编码格式都为UTF-8。

import re
html = '<span>微信号：DJ00123987</span>'
print html
a = re.search(u'<span>微信号: (.*?)</span>', html, re.S).group(1)
b = re.search(u'<span>微信(.*?)</span>', html, re.S).group(1)
print a,b

解决方案1:

你正则表达式是 unicode 编码的，你的 html 是字符串类型的，在 python2 中中文字符一般设置成的是utf-8编码，你用 unicode 字符串的正则去获取 utf-8 编码的字符串当然就匹配失败了。

建议将 html 用 unicode 编码。

也就是拿到 utf-8 编码的html后，content = html.decode('utf-8')

再用正则匹配 content

解决方案2:

可以使用Beautiful Soup

解决方案3:

字符集不同，如@DDTDDT 所说，你的html缺了unicode的标记u，但是正则表达式却用了unicode
你的微信号后面的冒号，一个是半角，一个是全角

解决方案4:

html 漏了u？
另外看下你整个文件保存的字符集，不然即使你加了u，如果文件是GBK的那么也可能遇到一些意外的问题。

解决方案5:

完整的测试代码:

# -*- encoding: utf8 -*-
import re
html = u'<span>微信号：DJ00123987</span>'

print html

a = re.search(u'<span>微信号：(.*?)</span>', html, re.S).group(1)
b = re.search(u'<span>微信(.*?)</span>', html, re.S).group(1)

print a, b

运行结果:
Linux:
python基础教程,python 下载,python 2.7,python 教程,python入门,python 爬虫,python官网,python安装,python list

Windows:
python基础教程,python 下载,python 2.7,python 教程,python入门,python 爬虫,python官网,python安装,python list

注意事项:

文件保存的编码为 utf-8.
文件开头增加 # -*- encoding: utf8 -*- 编码声明.
变量html赋值的时候, 在字符串前面加上 u 修饰符.
你的 a 赋值时正则里的 : 是半角的, 与原始字符串中的不一样(那个是全角的), 所以会匹配失败, 而匹配失败返回的结果是None, 在None的基础上取 group(1) 是会出错的.

分享到：QQ空间新浪微博腾讯微博微信百度贴吧 QQ好友复制网址打印

您可能想查找下面的文章:

2017-06-07 intelx86里以下机器码的执行快慢
2017-06-07 Codeforces:吉他手问题
2017-06-07 字符串不能存储数据
2017-06-07 WrongargumentsnewfortargetjavalangreflectConstructorexpected=[javanet
2017-06-07 是否支持上传webp格式?
2017-06-07 七牛在全国有哪些加速节点？
2017-06-07 上传视频、音频时间长度限制怎么设置
2017-06-07 (python)scrapy运行时候报错
2017-06-07 (python)如何使用scrapy抓取某宝数据？
2017-06-07 unicode编码转换python34编码转换问题

python爬虫匹配中文总是失败？

您可能想查找下面的文章:

相关文章

文章分类

最近更新的内容