• linkedu视频
  • 平面设计
  • 电脑入门
  • 操作系统
  • 办公应用
  • 电脑硬件
  • 动画设计
  • 3D设计
  • 网页设计
  • CAD设计
  • 影音处理
  • 数据库
  • 程序设计
  • 认证考试
  • 信息管理
  • 信息安全
菜单
linkedu.com
  • 网页制作
  • 数据库
  • 程序设计
  • 操作系统
  • CMS教程
  • 游戏攻略
  • 脚本语言
  • 平面设计
  • 软件教程
  • 网络安全
  • 电脑知识
  • 服务器
  • 视频教程
  • JavaScript
  • ASP.NET
  • PHP
  • 正则表达式
  • AJAX
  • JSP
  • ASP
  • Flex
  • XML
  • 编程技巧
  • Android
  • swift
  • C#教程
  • vb
  • vb.net
  • C语言
  • Java
  • Delphi
  • 易语言
  • vc/mfc
  • 嵌入式开发
  • 游戏开发
  • ios
  • 编程问答
  • 汇编语言
  • 微信小程序
  • 数据结构
  • OpenGL
  • 架构设计
  • qt
  • 微信公众号
您的位置:首页 > 程序设计 >编程问答 > Python爬虫抓取代理IP

Python爬虫抓取代理IP

作者:佚名 字体:[增加 减小] 来源:互联网 时间:2017-06-07

佚名通过本文主要向大家介绍了python爬虫抓取图片,python爬虫抓取文字,python爬虫抓取数据,python爬虫抓取文本,python爬虫抓取视频等相关知识,希望对您有所帮助,也希望大家支持linkedu.com www.linkedu.com
问题:Python 爬虫抓取代理IP
描述:

爬取代理IP网址是:http://ip84.com
以上是HTML网页内容,
需获取IP地址,端口号,地方,是否高匿,两个时间

一下是我写的Python,但只能实现部分,请各位大神指点下
谢谢。。。。

import re
import urllib

a = raw_input('input url:')

s = urllib.urlopen(a)
s1 = s.read()


def getinfo(aaa):
    #reg = re.compile(r'(?<![\.\d])(?:\d{1,3}\.){3}\d{1,3}(?![\.\d])')
    #reg = re.compile(r'<td>(\d+)\.(\d+)\.(\d+)\.(\d+)</td>\s*<td>(\d+)</td>\s*<td>([/u4e00-/u9fa5]+)</td>')
    reg = re.compile(r'<td>(\w+)</td>\s*<td>([\u4e00-\u9fa5]+)</td>')
    l = re.findall(reg, aaa)
    print l
getinfo(s1)

结果是类似下面的,不一定是表格

|ip|端口号|位置|是否高匿|类型|速度|连接时间|验证时间|
|-|-|-|-|-|-|-|-|-|
|122.89.9.70|80|台湾|高匿|HTTP|1.27秒|0.325秒|15-08-28 16:30|
|123.69.48.45|8080|江苏南京|高匿|HTTPS|1.07秒|0.5秒|15-08-28 17:30|


解决方案1:

还是看看这篇吧:https://segmentfault.com/n/1330000005070016

解决方案2:

你好!建议使用requests 和BeautifulSoup 来解析。一下是我的代码(Python3)和结果:

from bs4 import BeautifulSoup
import requests
r = requests.get("http://ip84.com")
content = r.text
soup = BeautifulSoup(content,"html.parser")
ListTable = soup.find_all("table",class_ = "list")
for table in ListTable:
    ListTr = table.find_all("tr")
    for tr in ListTr:
        try:
            ListTd = tr.find_all("td")
            ipaddr = str(ListTd[0].get_text()).strip()
            port = str(ListTd[1].get_text()).strip()
            zone = str(ListTd[2].get_text()).strip().replace("\n","")
            nmd = str(ListTd[3].get_text()).strip()
            xy = str(ListTd[4].get_text()).strip()
            speed = str(ListTd[5].get_text()).strip()
            time = str(ListTd[6].get_text()).strip()
            print(ipaddr + " " + port + " " + zone + " " + nmd + " " + xy + " " + speed + " " + time)
        except Exception as e:
            print("---------------------------------------------")

运行结果:

Good Luck ! ^_<


分享到:QQ空间新浪微博腾讯微博微信百度贴吧QQ好友复制网址打印

您可能想查找下面的文章:

  • python爬虫python抓取公众号文章遇到验证问题
  • python爬虫时,抓取网页遇到的问题?
  • python爬虫(python)微博爬虫抓取出现的连接问题?
  • python爬虫关于python模拟登陆抓取网站信息
  • Python爬虫抓取代理IP

相关文章

  • 2017-06-07 (python)pyspider抓取https网站获取不到本地证书怎么解决?
  • 2017-06-07 javascript正则表达式问题
  • 2017-06-07 (python)淘宝京东等厂商的时间戳为什么要用这种格式yyyy-MM-ddHH:mm:ss?
  • 2017-06-07 请教:JBPM4在项目应用中如何控制业务流转
  • 2017-06-07 请大大们帮忙
  • 2017-06-07 mac上装php扩展mongo成功,但是连接不成功
  • 2017-06-07 连接oracle提取出的中文乱码问题
  • 2017-06-07 (python)Paramiko模块,访问AIX系统,后台执行sql文件,提示DB21018E错误,如何解决?
  • 2017-06-07 公开类型空间,如果设置ttf、jar类型文件缓存?
  • 2017-06-07 关于正则replace的第二个参数是函数的一个问题

文章分类

  • JavaScript
  • ASP.NET
  • PHP
  • 正则表达式
  • AJAX
  • JSP
  • ASP
  • Flex
  • XML
  • 编程技巧
  • Android
  • swift
  • C#教程
  • vb
  • vb.net
  • C语言
  • Java
  • Delphi
  • 易语言
  • vc/mfc
  • 嵌入式开发
  • 游戏开发
  • ios
  • 编程问答
  • 汇编语言
  • 微信小程序
  • 数据结构
  • OpenGL
  • 架构设计
  • qt
  • 微信公众号

最近更新的内容

    • ejb30+jboss50集群疑问与经验
    • memcached压缩问题
    • Peewee限制了Field中的choices,为什么仍然可以插入其他数据?
    • 七牛CND能否使用Let’sEncrypt的HTTPS证书?
    • 七牛如何设置CDN的TTL时间?
    • jbossmessagetransform问题
    • Mac安装mod_python为什么浏览器页面显示代码而不执行?
    • 什么样的场景下需要同时使用Redis和Memcached?
    • 学而不思则罔思而不学则殆正则修饰符y与g
    • (python)如何从一个复杂的结构中优雅的提取出一列数据

关于我们 - 联系我们 - 免责声明 - 网站地图

©2020-2025 All Rights Reserved. linkedu.com 版权所有