什么是robots?
robots就是网站跟搜索引擎蜘蛛间的协议,用简单直接的 txt格式 告诉对应的蜘蛛被允许的权限,这个文件是我们自己建站的小伙伴经常要使用的。当搜索蜘蛛访问一个网站时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索蜘蛛就会按照该文件中的内容来确定访问的范围;如果该文件不存在,搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
robots有什么用?
robots.txt应放置于网站的根目录下,robots的作用就是告诉搜索蜘蛛,哪些内容可以访问,哪些内容禁止访问。在robots.txt文件内,Disallow 表示禁止,Allow 表示允许。比如robots的基本写法可以这样。
允许所有搜索引擎访问
User-agent: *
Allow: /
禁止所有搜索引擎访问
User-agent: *
Disallow: /
有人以为自己网站上的所有文件都需要蜘蛛抓取,就没必要在添加robots.txt文件了。但是每当搜索蜘蛛来寻找并不存在的文件时,服务器将在日志中记录一条404错误,这样会浪费服务器资源。
另外,网站中的程序脚本、样式表等文件即使被蜘蛛收录,也不会增加网站的收录率,也会浪费服务器资源。所以应该在robots.txt文件里设置不要让搜索蜘蛛索引这些文件。
wordpress网站的robots怎么写
基础版robots:
User-agent: * Disallow: Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Sitemap: https://www.yunmen.cc/sitemap.xml
基础版比较简单,对所有的搜索引擎采取默认的态度,网站的大部分内容都不禁止爬取,但是出于安全考虑,/wp-admin/目录是不允许你爬的!
最后一句告诉搜索引擎我的网站地图地址,你可以根据我的地图来快速爬取。
进阶版robots:
User-agent: * Disallow: /wp-admin/ Disallow: /wp-login.php Disallow: /search/ Disallow: /?s= Disallow: /readme.html Disallow: /licence.txt Disallow: /wp-config-sample.php Disallow: /feed Disallow: /*/feed Disallow: /comments/feed Disallow: /comments/ Disallow: /attachment/ Disallow: /go/ crawl-delay: 5 Allow: /wp-admin/admin-ajax.php Sitemap: https://www.yunmen.cc/sitemap.xml
这个robots的写法是在默认的基础上进阶的,crawl-delay是开启了蜘蛛5秒盾,就是告诉搜索引擎蜘蛛在每次抓取之前等待几秒钟,你也可以设置10秒、20秒、30秒。
Disallow: /search/或者/?s= 是防止蜘蛛爬搜索,很多站长不太优化 WordPress,访客或蜘蛛一搜索,CPU就爆满了,robots禁止爬取可以避免这一点,另外你也可以通过升级你的云服务器来进行解决。
Disallow: /readme.html
Disallow: /licence.txt
Disallow: /wp-config-sample.php
这三项禁止爬取是防止其他人未经授权查看您正在使用的WordPress版本等信息,这里你还可以对其重定向。
Disallow: /feed
Disallow: /*/feed
Disallow: /comments/feed
这三项禁止爬取是防止爬虫爬你的 rss订阅 内容,另外,也可以直接在 WordPress 后台关闭 rss 订阅。
Disallow: /comments/ 是防止蜘蛛爬你的评论留言内容,如果你的站留言较多,并且没有设置内存缓存或者Nginx缓存的话,每个评论页面服务器都要生成一个页面,自然CPU负荷就高了。
Disallow: /attachment/ 是防止爬取附件内容,也就是WordPress媒体库内容。
/go/ 是很多wordpress网站都通过代码或者插件方式,启用将外链专为内链的功能。而这一部分链接也是不需要搜索蜘蛛爬取的。
我们还可以更细腻的设置对某个目录甚至某个具体文件的允许或者禁止。比如:
Disallow: /a/ 禁止访问网站中a目录
Disallow: /a/*.htm 禁止访问网站中a目录下,所有以”.htm”为后缀的URL。
Disallow: /123.html 禁止访问123.html这个页面。
Disallow: /*?* 禁止访问网站中所有的动态页面
Disallow: .png$ 禁止访问网站中png图片。
定制版robots:
另外,有一些国外的搜索引擎,或者一些不太正规的搜索蜘蛛我们不希望他们访问来消耗我们的服务器资源,也可以在robots文件中禁止。比如:
User-agent: MJ12bot Disallow: / User-agent: SemrushBot Disallow: / User-agent: YandexBot Disallow: / User-agent: DotBot Disallow: / User-agent: AhrefsBot Disallow: / User-agent: msnbot Disallow: / User-agent: Nimbostratus-Bot Disallow: / User-agent: smtbot Disallow: / User-agent: serpstatbot Disallow: / User-agent:applebot Disallow: / User-agent:yisouspider Disallow: /
这样就禁止了以上这些搜索蜘蛛爬取我们的网站内容,或者你是专做外贸网站的,也可以用同样的方式禁止国内搜索引擎的爬取,这个大家可以自己根据需要定制。总之,大家使用wordpress自己建站的话,对于robots文件的写法要多少了解一些,对于我们网站的安全、稳定,以及seo优化都有一定的好处。