网站避免蜘蛛爬行隐秘文件之robots.txt爬行语法规则

[重要通告]如您遇疑难杂症,本站支持知识付费业务,扫右边二维码加博主微信,可节省您宝贵时间哦!

网站避免蜘蛛爬行隐秘文件之robots.txt爬行语法规则
================================
网站蜘蛛robots.txt爬行语法规则如下哈:
robots.txt语法其实很简单,robots.txt是一个最简单的.txt文件,
用以告诉搜索引擎哪些网页可以收录,哪些不允许收录。
那今天本博客就先为大家介绍robots.txt语法基础知识,
然后再提供几个经常要用到的robots.txt语法例子给朋友们参考。
robots.txt语法规则
最简单的 robots.txt 语法使用两条规则:
  User-Agent: 后面为搜索机器人的名称,后面如果是*,则泛指所有的搜索机器人
  Disallow: 限制搜索引擎不能访问网站中的哪些部分,Disallow后可以写目录名,文件扩展名,特定的程序文件结构。
robots.txt语法示例
让所有机器人访问所有文件(通配符”*”表示所有的意思)
1、拦截所有的机器人访问网站
User-agent: *
Disallow: /
2、禁止所有机器人访问特定目录:
User-agent: *
Disallow: /public/
Disallow: /images/
Disallow: /temp/
Disallow: /include/
3、禁止特定搜索引擎蜘蛛访问特定目录(这里我们以百度蜘蛛为例说明)
User-agent: Baiduspider
Disallow: /test/
上面的robots.txt语法示例的意思是禁止百度蜘蛛爬行根目录下的test目录
4、仅禁止Baiduspider抓取.jpg格式图片的robots.txt语法
User-agent: Baiduspider
Disallow: .jpg$
大家在学习robots.txt语法时,可能会感到纳闷的是:有那么多搜索引擎,那我不是要知道所有搜索引擎蜘蛛的名字。并不是这样的,我们只要知道常见的搜索引擎名字就可以了。下面就带大家来认识几大个搜索引擎蜘蛛名称。
1、Google爬虫名称: Googlebot
2、百度(Baidu)爬虫名称:Baiduspider
3、雅虎(Yahoo)爬虫名称:Yahoo Slurp
4、有道(Yodao)蜘蛛名称:YodaoBot
5、搜狗(sogou)蜘蛛名称:sogou spider
6、MSN的蜘蛛名称(微软最新搜索引擎Bing蜘蛛名也是这个):Msnbot

问题未解决?付费解决问题加Q或微信 2589053300 (即Q号又微信号)右上方扫一扫可加博主微信

所写所说,是心之所感,思之所悟,行之所得;文当无敷衍,落笔求简洁。 以所舍,求所获;有所依,方所成!

支付宝赞助
微信赞助

免责声明,若由于商用引起版权纠纷,一切责任均由使用者承担。

您必须遵守我们的协议,如您下载该资源,行为将被视为对《免责声明》全部内容的认可->联系老梁投诉资源
LaoLiang.Net部分资源来自互联网收集,仅供用于学习和交流,请勿用于商业用途。如有侵权、不妥之处,请联系站长并出示版权证明以便删除。 敬请谅解! 侵权删帖/违法举报/投稿等事物联系邮箱:service@laoliang.net
意在交流学习,欢迎赞赏评论,如有谬误,请联系指正;转载请注明出处: » 网站避免蜘蛛爬行隐秘文件之robots.txt爬行语法规则

发表回复

本站承接,网站推广(SEM,SEO);软件安装与调试;服务器或网络推荐及配置;APP开发与维护;网站开发修改及维护; 各财务软件安装调试及注册服务(金蝶,用友,管家婆,速达,星宇等);同时也有客户管理系统,人力资源,超市POS,医药管理等;

立即查看 了解详情