• linkedu视频
  • 平面设计
  • 电脑入门
  • 操作系统
  • 办公应用
  • 电脑硬件
  • 动画设计
  • 3D设计
  • 网页设计
  • CAD设计
  • 影音处理
  • 数据库
  • 程序设计
  • 认证考试
  • 信息管理
  • 信息安全
菜单
linkedu.com
  • 网页制作
  • 数据库
  • 程序设计
  • 操作系统
  • CMS教程
  • 游戏攻略
  • 脚本语言
  • 平面设计
  • 软件教程
  • 网络安全
  • 电脑知识
  • 服务器
  • 视频教程
  • dedecms
  • ecshop
  • z-blog
  • UcHome
  • UCenter
  • drupal
  • WordPress
  • 帝国cms
  • phpcms
  • 动易cms
  • phpwind
  • discuz
  • 科汛cms
  • 风讯cms
  • 建站教程
  • 运营技巧
您的位置:首页 > CMS教程 >运营技巧 > 禁止搜索引擎收录:robots.txt文件详解

禁止搜索引擎收录:robots.txt文件详解

作者:查字典编辑 字体:[增加 减小] 来源:互联网

查字典编辑向大家介绍了禁止搜索引擎收录:robots.txt文件详解,自学教程,网站运营教程等相关知识,希望对您有所帮助

一.什么是robots.txt文件?

搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。

您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。

二. robots.txt文件放在哪里?

robots.txt文件应该放在网站根目录下。举例来说,当robots访问一个网站(比如)时,首先会检查该网站中是否存在/robots.txt这个文件,如果机器人找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。

网站 URL相应的 robots.txt的 URL//robots.txt:80/:80/robots.txt:1234/:1234/robots.txt//robots.txt

三. robots.txt文件的格式

"robots.txt"文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:

"fieldoptionalspacevalueoptionalspace"。

在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow行,详细情况如下:

User-agent:

该项的值用于描述搜索引擎robot的名字,在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何机器人均有效,在"robots.txt"文件中,"User-agent:*"这样的记录只能有一条。

Disallow :

该项的值用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow 开头的URL均不会被robot访问到。例如"Disallow: /help"对/help.html 和/help/index.html都不允许搜索引擎访问,而"Disallow: /help/"则允许robot访问/help.html,而不能访问/help/index.html。

任何一条Disallow记录为空,说明该网站的所有部分都允许被访问,在"/robots.txt"文件中,至少要有一条Disallow记录。如果"/robots.txt"是一个空文件,则对于所有的搜索引擎robot,该网站都是开放的。

四. robots.txt文件用法举例

例1. 禁止所有搜索引擎访问网站的任何部分

下载该robots.txt文件

User-agent: *

Disallow: /

例2. 允许所有的robot访问

(或者也可以建一个空文件 "/robots.txt" file)

User-agent: *

Disallow:

例3. 禁止某个搜索引擎的访问

User-agent: BadBot

Disallow: /

例4. 允许某个搜索引擎的访问

User-agent: baiduspider

Disallow:

User-agent: *

Disallow: /

例5. 一个简单例子

在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即搜索引擎不会访问这三个目录。

需要注意的是对每一个目录必须分开声明,而不要写成 "Disallow: /cgi-bin/ /tmp/"。

User-agent:后的* 具有特殊的含义,代表"any robot",所以在该文件中不能有"Disallow: /tmp/*" or "Disallow: *.gif"这样的记录出现.

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

五. robots.txt文件参考资料

robots.txt文件的更具体设置,请参看以下链接:

? Web Server Administrator's Guide to the Robots Exclusion Protocol

? HTML Author's Guide to the Robots Exclusion Protocol

? The original 1994 protocol description, as currently deployed

? The revised Internet-Draft specification, which is not yet completed or implemented

总结:

看这么多也许有些朋友会很不耐心,简单地说,robots.txt是这样一个文件,他可以将爬虫关到门外,使得不索引某个页面,具体的用法就是将不想被搜索引擎机器人爬行的网页目录下的文件所在的目录防至robots.txt,在前面加上Disallow:/(表示不允许)后面在跟上该目录,就会给搜索引擎这样一个信号,这个目录下所有的网页不要被访问了,如果在目录后面再加“/”则表示不要爬行该目录下面的默认主页,一般默认主页为index.html,index.htm之类。

分享到:QQ空间新浪微博腾讯微博微信百度贴吧QQ好友复制网址打印

您可能想查找下面的文章:

  • 禁止搜索引擎收录:robots.txt文件详解

相关文章

  • 浅析行业网站发展中所需要的网站内容
  • 网站推广常用的28个方法
  • 从建站公司的角度谈企业网站建设核心原则
  • seo站长们必看:百度整改下seo的生存状态
  • 百度搜索关键词排名为何会有小数点
  • 索引量工具升级:移动站点排名、流量等问题说明
  • 七牛云存储使用中一些常见问题的解决经验
  • 母婴电商网站是如何进行个性化推荐的
  • 众筹背后的5个核心运营观
  • 移动站点搜索引擎优化思路

文章分类

  • dedecms
  • ecshop
  • z-blog
  • UcHome
  • UCenter
  • drupal
  • WordPress
  • 帝国cms
  • phpcms
  • 动易cms
  • phpwind
  • discuz
  • 科汛cms
  • 风讯cms
  • 建站教程
  • 运营技巧

最近更新的内容

    • 网站推广常用的28个方法
    • 借势营销的失败之作——太子妃回来了但网友不高兴了
    • 垂直网站编辑转型:网站运营与产品经理
    • 在SAE(Sina App Engine)上部署WordPress站点的教程
    • 怎么提高网站浏览量?网站点击量大大增加方法介绍
    • 大型网站定位和优化SEO策略深度分析
    • 杀死SEO的5个技术:无线滚动、延迟加载等
    • 知乎CEO周源:像管理城市一样打造网络社区
    • 大型网站架构系列:负载均衡详解(二 )
    • 链接作弊有哪些? 网站SEO优化之链接作弊6种形式汇总介绍

关于我们 - 联系我们 - 免责声明 - 网站地图

©2020-2025 All Rights Reserved. linkedu.com 版权所有