本文最后更新于 749 天前,其中的信息可能已经有所发展或是发生改变。
大家在各大搜索引擎上搜索到的内容,都是被这些搜索引擎派出的爬虫获取到,经过特定的算法,筛选、过滤才展现出来的。这些爬虫来到对应的网站后,第一件事就是检查该站点的根目录下,是否创建了一个名为robots.txt的文件。如果有,就会按照该站点下robots.txt中的规定进行爬取,如果没有,则会按照默认规则抓取网页。
那么,屏幕前的你知道什么是Robots协议吗?robots.txt又该怎么写呢?Robots的误区有什么呢?下面就跟随笔者的脚步一起来探索Robots吧!
一、什么是Robots协议?
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”,robots.txt是搜索引擎查看该网站第一个访问的目标。如果有不想被抓取到的内容,如死链、后台地址、联系方式、重复的页面、隐私等就可以通过Robots协议来告诉搜索引擎可以抓取的部分和不能抓取的部分。
二、robots.txt该怎么写?
下面是关于Robots的一些语法:
User-agent:指对该规则生效的爬虫,*号代表全部搜索引擎。
Disallow:不允许抓取的页面
Allow:允许抓取的页面
#:可以当注释使用
如果你的网站内有的部分不想被任何搜索引擎抓取,你就可以在robots.txt内输入以下代码:
User-agent:*
Disallow:/目录
如果整个网站都不想被爬取,那就可以把Disallow
内的值改为/
。
Robots协议中是支持通配符*
的
三、Robots的误区
网页内所有文件都需要抓取,我可以不添加robots.txt。
这种想法是错误的。蜘蛛第一个访问的就是robots.txt,如果文件不存在,蜘蛛访问就会被告知404,增长抓取时间的同时还会上报抓取错误,服务器内也会产生404的日志。为了避免这一情况出现,我们要在网站根目录下添加robots.txt文件,并调整出适应网站的规则。
转自:无名氏