您的位置:武汉SEO > SEO核心技术 >
SEO核心技术

做SEO优化必知robots协议规则大全

2016-10-04 19:28:00作者:墨沉来源:admin次阅读

一、什么是 robots ?
 
robots是站点与spider沟通的重要渠道,站点通过robots文件声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。
 
二、robots 格式定义
 
User-agent:用于描述搜索引擎robot的名字。
 
Disallow:用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀。
 
Allow:用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀。
 
三、特殊通配符
 
"*"    匹配0或多个任意字符
"$"   匹配行结束符。
"?"   匹配动态路径
 
四、使用方法
 
 在本地建立一个 robots.txt 文本文件,把需要设置的 robot 协议写进文本中,然后再把此 robots.txt 文本文件上传至网站空间根目录下。
 
五、常用设置蛛蛛
 
 百度蜘蛛:Baiduspider
谷歌机器人:  Googlebot
 360好搜: 360spider
 SOSO蜘蛛:Sosospider
有道蜘蛛:YoudaoBot
必应蜘蛛:bingbot
 
六、robots的用法举例
 
1.屏蔽所有搜索引擎
 
User-agent: * 
 Disallow: /
 
注意:英文冒号后面紧接着必须是一个英文格式的“空格”。
 
2.屏蔽百度蛛蛛,允许其它蛛蛛
 
User-agent: Baiduspider
Disallow: /  
 
User-agent: *
 
3.屏蔽一个文件夹
 
User-agent: *
Disallow: /data/
 
4.屏蔽一个文件夹,但允许访问此文件夹中的某个文件
 
User-agent: *
Disallow: /data/
Allow: /data/abc.php
 
5.屏蔽文件夹时后面带 "/" 与不带 "/" 的区别
 
例如 "Disallow:/data"  是禁止robot访问/data.html、/dataxxx.html、/data/xxx.html,
而 "Disallow:/data/"则禁止robot访问/data/xxx.html、/data/xxx/ ,而允许访问/data.html、/dataxxx.html文件。
PS:Allow 是一样的道理。
 
6.屏蔽动态路径
 
User-agent: *
Disallow: /*?*
 
7.指定蛛蛛爬取路径以 .html 结尾,后面所有路径都不再抓取
 
User-agent: *
Disallow: /*.html$
 
8.分别定义百度蛛蛛,和谷歌蛛蛛
 
User-agent: Baiduspider
Disallow:  /data/
 
User-agent: Googlebot
Disallow: /template/
 
如我网站的 robots 协议:

声明: 本文由( admin )原创编译,转载请保留链接: 做SEO优化必知robots协议规则大全

相关文章

编辑: 关键词: 优化 robots协议

网友评论

墨沉SEO

博主:墨沉 行业:互联网 品牌:墨沉SEO
我是周小雷 , 笔名“墨沉”
取自“腹中有墨,不愿沉沦”之意。
我一直有一颗90后浪漫主义者的心
梦里寻她千百度,蓦然回首,那人却在灯火阑珊处。
爱好互联网,写自传、现代诗词等。
小墨专注电子商务、武汉SEO优化、武汉SEO服务、武汉SEO顾问、微营销、淘宝运营、网站运营、网络营销、网络推广、微信公众号、营销系统研发和培训;小墨致力于帮助草根网络创业者打造最好的网络营销系统! 用思维改变命运!

小墨免费提供企业、论坛、博客等网站SEO服务诊断,欢迎大家咨询。墨沉SEO-微信:szjhke
或联系QQ:1194285866

最新文章

图文聚集

热门排行