• linkedu视频
  • 平面设计
  • 电脑入门
  • 操作系统
  • 办公应用
  • 电脑硬件
  • 动画设计
  • 3D设计
  • 网页设计
  • CAD设计
  • 影音处理
  • 数据库
  • 程序设计
  • 认证考试
  • 信息管理
  • 信息安全
菜单
linkedu.com
  • 网页制作
  • 数据库
  • 程序设计
  • 操作系统
  • CMS教程
  • 游戏攻略
  • 脚本语言
  • 平面设计
  • 软件教程
  • 网络安全
  • 电脑知识
  • 服务器
  • 视频教程
  • JavaScript
  • ASP.NET
  • PHP
  • 正则表达式
  • AJAX
  • JSP
  • ASP
  • Flex
  • XML
  • 编程技巧
  • Android
  • swift
  • C#教程
  • vb
  • vb.net
  • C语言
  • Java
  • Delphi
  • 易语言
  • vc/mfc
  • 嵌入式开发
  • 游戏开发
  • ios
  • 编程问答
  • 汇编语言
  • 微信小程序
  • 数据结构
  • OpenGL
  • 架构设计
  • qt
  • 微信公众号
您的位置:首页 > 程序设计 >编程问答 > 用scrpay写爬虫,同样的代码-o保存成CSV时一切正常,但同时写入Mysql数据库时很多数据重复且不齐全

用scrpay写爬虫,同样的代码-o保存成CSV时一切正常,但同时写入Mysql数据库时很多数据重复且不齐全

作者:佚名 字体:[增加 减小] 来源:互联网 时间:2017-06-07

佚名通过本文主要向大家介绍了用scrpay写爬虫,同样的代码-o保存成CSV时一切正常,但同时写入Mysql数据库时很多数据重复且不齐全等相关知识,希望对您有所帮助,也希望大家支持linkedu.com www.linkedu.com
问题:用scrpay写爬虫,同样的代码-o保存成CSV时一切正常,但同时写入Mysql数据库时很多数据重复且不齐全
描述:

用scrpay写爬虫用大众点评练手,同样的代码-o保存成CSV时一切正常,但同时写入Mysql数据库时很多数据重复且不齐全。

csv文件一切正常。

Mysql里面的数据库一塌糊涂。

同一段代码,完全没有头绪,请高手帮忙。

class MySQLStorePipeline(object):
    """docstring for MySQLstor"""
    def __init__(self):
 
        self.dbpool = adbapi.ConnectionPool('MySQLdb',
            host = 'localhost',
            db = 'dianping',
            user = 'root',
            passwd = 'root',
            cursorclass = MySQLdb.cursors.DictCursor,
            charset = 'utf8',
            use_unicode = True
        )
    def process_item(self, item, spider):
        #print spider
        # run db query in thread pool
        query = self.dbpool.runInteraction(self._conditional_insert, item)
        query.addErrback(self.handle_error)

        return item

    def _conditional_insert(self, tx, item):
        if item.get('user_id'):
         
            tx.execute(\
                "insert into testtable_gz (city, store_name, store_id, book, group_buy, branch, average_spend, style, store_area, store_addr, store_url, comment_url, store_phone, user_id, star, taste, environment, service, comment, comment_date, user_url)\
                values (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s)",
 
                (item['city'],
                 item['store_name'],
                 item['store_id'],
                 item['book'],
                 item['group_buy'],
                 item['branch'],
                 item['average_spend'],
                 item['style'],
                 item['store_area'],
                 item['store_addr'],
                 item['store_url'],
                 item['comment_url'],
                 item['store_phone'],
                 item['user_id'], 
                 item['star'], 
                 item['taste'],
                 item['environment'],
                 item['service'],
                 item['comment'],
                 item['comment_date'],
                 item['user_url']
                ))
 
    def handle_error(self, e):
        log.err(e)
        

这是Pinelines.py代码。


解决方案1:

笨方法,pipeline里面不连接MySQL,而是自己生成sql插入语句保存到文件。最后爬完后直接就复制语句去执行。上次遇到你这个问题我就是这么干的

解决方案2:

请问下,我写入csv都是乱码,你这个中文怎么都是正确的?


分享到:QQ空间新浪微博腾讯微博微信百度贴吧QQ好友复制网址打印

您可能想查找下面的文章:

  • 用scrpay写爬虫,同样的代码-o保存成CSV时一切正常,但同时写入Mysql数据库时很多数据重复且不齐全

相关文章

  • 2017-06-07 七牛api如何把一个图片变成黑白的?有对应的api吗
  • 2017-06-07 想从平时的软件学习借鉴软件是如何编程的
  • 2017-06-07 关于CallWindowProc与发送消息(sendmessagepostmessage)
  • 2017-06-07 11月12日,七牛空间的存储量减为零,请问这是发生了什么?
  • 2017-06-07 Python,easyguienterbox出现invalidsytax
  • 2017-06-07 python网页unicode编码问题
  • 2017-06-07 北京时间对时python对时间序列处理时数据小数位数混乱
  • 2017-06-07 python爬虫python支持固化分组吗?
  • 2017-06-07 php判断一个字符串中的字符是否都在另一个中出现算法
  • 2017-06-07 tkinter中的text跟scroll绑定后,如何让text的显示一直保持最新的内容

文章分类

  • JavaScript
  • ASP.NET
  • PHP
  • 正则表达式
  • AJAX
  • JSP
  • ASP
  • Flex
  • XML
  • 编程技巧
  • Android
  • swift
  • C#教程
  • vb
  • vb.net
  • C语言
  • Java
  • Delphi
  • 易语言
  • vc/mfc
  • 嵌入式开发
  • 游戏开发
  • ios
  • 编程问答
  • 汇编语言
  • 微信小程序
  • 数据结构
  • OpenGL
  • 架构设计
  • qt
  • 微信公众号

最近更新的内容

    • 婚前协议书怎么写Scrapy写的爬虫只能抓取前面几页是什么问题?
    • (VFP)字串长度超过255时要怎样存储到表并且建立索引(唯一)
    • python爬虫python构造嵌套字典
    • Python正则splitlookbehind问题
    • python爬虫python正则匹配http包里cookie问题
    • 谁做过关于RFID的项目,指教一下。
    • osx1011编译php5614,出现错误
    • (golang)go开多个goroutine,是在一个进程中完成,还是可能在多个进程中完成
    • 关于频繁请求的数据的缓存问题
    • hibernate框架总是出现数据连接错误,不频繁发生

关于我们 - 联系我们 - 免责声明 - 网站地图

©2020-2025 All Rights Reserved. linkedu.com 版权所有