佚名通过本文主要向大家介绍了pythonre,pythonre模块,pythonre.s,大数据问题,管家婆数据恢复问题等相关知识,希望对您有所帮助,也希望大家支持linkedu.com www.linkedu.com
问题:python re抓站存数据问题。
描述:
解决方案1:
描述:
喜欢看日乎日报,就像把他们采集下来方便以后看。
但是碰到这样的目标:http://daily.zhihu.com/story/4692091
采集回来存数据库的时候,只存第一个条目.
需要标题和内容,使用的是scrapy和re.compile方法。
如何将标题和内容一一对应,并全部存入数据库。
练习python中...
采集代码:
......
item = ShenhuifuItem()
sites = response.body
i = sites
items = []
item['bid']=re.compile('(\d+)').findall(response.url)[0]
item['title']=re.compile(r'<h2>(.*?)</h2>').findall(i)
item['content']=re.compile(r'<div>(.*?)</div>',re.DOTALL).findall(i)
item['author']=re.compile(ur'<span>(.*?)</span>').findall(i)
for title in item['title']:
item['title'] = title
for content in item['content']:
item['content'] = content
for author in item['author']:
if "," in author:
item['author'] = author[:-1]
else:
item['author']=author
items.append(item)
yield item
解决方案1:
谢谢,各位,匹配需求部分,然后使用for...in...循环解决。
解决方案2:re.compile(r'<h2>(.*?)</h2>', re.M)
开启多行匹配模式