• linkedu视频
  • 平面设计
  • 电脑入门
  • 操作系统
  • 办公应用
  • 电脑硬件
  • 动画设计
  • 3D设计
  • 网页设计
  • CAD设计
  • 影音处理
  • 数据库
  • 程序设计
  • 认证考试
  • 信息管理
  • 信息安全
菜单
linkedu.com
  • 网页制作
  • 数据库
  • 程序设计
  • 操作系统
  • CMS教程
  • 游戏攻略
  • 脚本语言
  • 平面设计
  • 软件教程
  • 网络安全
  • 电脑知识
  • 服务器
  • 视频教程
  • dedecms
  • ecshop
  • z-blog
  • UcHome
  • UCenter
  • drupal
  • WordPress
  • 帝国cms
  • phpcms
  • 动易cms
  • phpwind
  • discuz
  • 科汛cms
  • 风讯cms
  • 建站教程
  • 运营技巧
您的位置:首页 > CMS教程 >运营技巧 > 禁止搜索引擎收录:robots.txt文件详解

禁止搜索引擎收录:robots.txt文件详解

作者:查字典编辑 字体:[增加 减小] 来源:互联网 时间:2022-05-05

查字典编辑向大家介绍了禁止搜索引擎收录:robots.txt文件详解,自学教程,网站运营教程等相关知识,希望对您有所帮助

一.什么是robots.txt文件?

搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。

您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。

二. robots.txt文件放在哪里?

robots.txt文件应该放在网站根目录下。举例来说,当robots访问一个网站(比如)时,首先会检查该网站中是否存在/robots.txt这个文件,如果机器人找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。

网站 URL相应的 robots.txt的 URL//robots.txt:80/:80/robots.txt:1234/:1234/robots.txt//robots.txt

三. robots.txt文件的格式

"robots.txt"文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:

"fieldoptionalspacevalueoptionalspace"。

在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow行,详细情况如下:

User-agent:

该项的值用于描述搜索引擎robot的名字,在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何机器人均有效,在"robots.txt"文件中,"User-agent:*"这样的记录只能有一条。

Disallow :

该项的值用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow 开头的URL均不会被robot访问到。例如"Disallow: /help"对/help.html 和/help/index.html都不允许搜索引擎访问,而"Disallow: /help/"则允许robot访问/help.html,而不能访问/help/index.html。

任何一条Disallow记录为空,说明该网站的所有部分都允许被访问,在"/robots.txt"文件中,至少要有一条Disallow记录。如果"/robots.txt"是一个空文件,则对于所有的搜索引擎robot,该网站都是开放的。

四. robots.txt文件用法举例

例1. 禁止所有搜索引擎访问网站的任何部分

下载该robots.txt文件

User-agent: *

Disallow: /

例2. 允许所有的robot访问

(或者也可以建一个空文件 "/robots.txt" file)

User-agent: *

Disallow:

例3. 禁止某个搜索引擎的访问

User-agent: BadBot

Disallow: /

例4. 允许某个搜索引擎的访问

User-agent: baiduspider

Disallow:

User-agent: *

Disallow: /

例5. 一个简单例子

在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即搜索引擎不会访问这三个目录。

需要注意的是对每一个目录必须分开声明,而不要写成 "Disallow: /cgi-bin/ /tmp/"。

User-agent:后的* 具有特殊的含义,代表"any robot",所以在该文件中不能有"Disallow: /tmp/*" or "Disallow: *.gif"这样的记录出现.

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

五. robots.txt文件参考资料

robots.txt文件的更具体设置,请参看以下链接:

? Web Server Administrator's Guide to the Robots Exclusion Protocol

? HTML Author's Guide to the Robots Exclusion Protocol

? The original 1994 protocol description, as currently deployed

? The revised Internet-Draft specification, which is not yet completed or implemented

总结:

看这么多也许有些朋友会很不耐心,简单地说,robots.txt是这样一个文件,他可以将爬虫关到门外,使得不索引某个页面,具体的用法就是将不想被搜索引擎机器人爬行的网页目录下的文件所在的目录防至robots.txt,在前面加上Disallow:/(表示不允许)后面在跟上该目录,就会给搜索引擎这样一个信号,这个目录下所有的网页不要被访问了,如果在目录后面再加“/”则表示不要爬行该目录下面的默认主页,一般默认主页为index.html,index.htm之类。

分享到:QQ空间新浪微博腾讯微博微信百度贴吧QQ好友复制网址打印

您可能想查找下面的文章:

  • 禁止搜索引擎收录:robots.txt文件详解

相关文章

  • 2022-05-05企业营销型网站建设公司选择哪家更好?
  • 2022-05-05运营者:社区管理者需具备哪些能力?
  • 2022-05-05google搜索引擎优化圣经
  • 2022-05-05什么是文案策划落脚点?网站运营中文案策划3大落脚点
  • 2022-05-05站长创建链接时需要注意的5大禁忌
  • 2022-05-05网站跳出率高部分原因分析与SEO优化的建议
  • 2022-05-05SEO效果如何快速提升
  • 2022-05-05搜狗sogou竞价的效果如何?
  • 2022-05-05内链优化要注意什么 内链优化最主要的核心点介绍
  • 2022-05-05网站的死链是如何产生的?网站死链的正确处理方法

文章分类

  • dedecms
  • ecshop
  • z-blog
  • UcHome
  • UCenter
  • drupal
  • WordPress
  • 帝国cms
  • phpcms
  • 动易cms
  • phpwind
  • discuz
  • 科汛cms
  • 风讯cms
  • 建站教程
  • 运营技巧

最近更新的内容

    • 如何通过视频推广让你的App一夜蹿红
    • 从腾讯视频看大数据与网站运营
    • 忘掉跳出率才是优化高跳出率着陆页的正确姿势
    • 做SEO不得不深思的问题
    • ASO优化一定要花钱才能使APP推广有效果吗
    • 如何做好网站运营?如何把这些流量变成我们的客户?
    • Win 2003操作系统安全防范简述
    • Vultr VPS主机购买及服务器创建流程详解
    • 站点流量异常原因之相关因素:外链爆增
    • seo站长们必看:百度整改下seo的生存状态

关于我们 - 联系我们 - 免责声明 - 网站地图

©2020-2025 All Rights Reserved. linkedu.com 版权所有