对于一个seo网站优化人员来说,检查一个网站是优化怎么样,首先会检查网站robots协议,其查看方法就在输入网站网址/robots.txt 。
一、什么是robots
robots.txt是一个纯文本文件,用于声明该网站中不想被蜘蛛访问的部分,或者指定蜘蛛抓取的部分。robots.txt不是规定,而是一种约定,需要蜘蛛自觉遵守的一种习俗。
当蜘蛛访问一个站点时,它会首先检查该站点是否存在robots.txt
如果找到,蜘蛛就会按照该文件中的内容来确定抓取的范围,如果该文件不存在,那么蜘蛛就沿着链接直接抓取。
二、robots的作用
1.防止私密或重要内容被搜索引擎抓取
2.节省服务器资源,从而提高服务质量
3.减少重复抓取,提高网站质量
4.指定sitemap文件位置
三、robots的存放位置
robots.txt放置在一个站点的根目录下,而且文件名必须全部小写。
四、robots的写法
User-agent: *
针对哪个搜索引擎蜘蛛
这里的*代表搜索引擎种类,*是通配符
Allow
定义的是允许蜘蛛抓取某个栏目或文件
Allow: /cgi-bin/
这里定义是允许访问cgi-bin目录
Allow:/* .htm$
允许访问以".htm"为后缀的URL
$指的是匹配行结束符
*指的是匹配任何字符
sitemap: http://www.google.com/sitemap.xml
sitemap:URL全称(包含http://部分)
告诉搜索引擎蜘蛛这个页面是网站地图
常见错误写法
顺序颠倒的错误
错误写法
User-agent: /
Disallow: Googlebot
正确写法:
User-agent: Googlebot
Disallow: /
多个禁止命令放在一行中的错误
错误写法
User-agent: *
Disallow: /css/ /cgi-bin/ /images/
正确写法:
User-agent: *
Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/