0%

博客添加robots.txt文件

博客SEO优化文章中,已经说明如何给博客进行搜索优化,可是也考虑到自己并不是想让网络爬虫爬取自己所有的网页,而是特定的页面。而且一方面爬虫访问自己网站过程中会消耗自己网站系统资源,另一方面也会影响自己的网站权重


那什么是robots.txt文件呢?

roots.txt文件规定搜索引擎抓取工具可以或无法请求抓取您网站上的哪些网页或文件。

robots.txt文件位置

robots.txt文件应放在网站根目录下。如:https://www.azjhong.com/robots.txt

robots格式与用法

一般允许所有机器人的格式这样写:

1
2
User-agent: *
Disallow:

另外,详细内容请参考百度百科维基百科

“*”表示匹配0或多个任意字符。
“$”表示匹配行结束符。

这个在百度站长也已叙述过。

robots.txt的作用是什么?

robots.txt主要用于管理流向您网站的抓取工具流量,说明白就是阻止搜索引擎访问您的某个网页(具体取决于文件类型):(这里以谷歌引擎为例)

网页类型
流量管理
不在Google中显示
说明
网页 × 对于一些html、PDF、或是其他Google能读取的非媒体格式,您可以使用robots.txt管理抓取流量。这可以减轻Google抓却工具的请求导致您的服务器超负荷;或者,您不想让Google抓取您网站上的不重要网页或是相似网页。
这里强调:如果您不想让自己的网页显示在Google搜索结果或是使用robots.txt文件阻止Google抓取您的网页,请您改用其他方法
媒体文件 您可以使用robots.txt来管理抓取流量并阻止图片/视频/音频文件出现在Google搜索结果中。但不会阻止其他网页或用户链接到您的图片/视频/音频文件。
资源文件 您可以使用robots.txt来屏蔽一些不重要的图片、脚本或是样式文件之类的资源(如果您认为在加载网页时可跳过此类资源不会对相应网页造成太大影响)。不过,如果缺少这类资源会导致Google抓取工具很难解读相应网页。

详细内容请参考robots.txt 文件简介

在博客中添加robots.txt

在博客根目录添加robots.txt。本文是在站点目录source/下新建robots.txt文件。
然后在robots.txt文件中添加相应的规则。如图所示。

Snipaste_2020-03-19_15-54-09.png

请按照自己的页面添加相应的规则,切记不要全部复制粘贴。

在谷歌中测试robots.txt文件

执行命令:

1
hexo clean && hexo g && hexo d

如果成功的话,会生成robots.txt文件,并可以在网页可以访问到。如图所示。

Snipaste_2020-03-19_15-57-40.png

测试看看该文件是否生效。也可点击👉使用 robots.txt 测试工具测试 robots.txt

^_^