1. 武汉大摩SEO首页
  2. SEO教程

站内优化:详细了解“robots.txt“,noindex与nofllow标签

网站优化过程中要保持权重的传递,可能遇到不希望搜索引擎收录的页面和链接,例如联系我们,登陆页面,注册页面等,这些页面对搜索引擎来说属于无用页面,这时robots.txt,noindex和nofollow两个标签就是为了解决这个问题。

什么是robots.txt?

站内优化:详细了解“robots.txt“,noindex与nofllow标签

百度蜘蛛-大摩网络

robots.txt是一个纯文本文件,是爬虫抓取网站的时候要查看的第一个文件,一般位于网站的根目录下。robots.txt文件定义了爬虫在爬取该网站时存在的限制,哪些部分爬虫可以爬取,哪些不可以爬取(防君子不防小人)

更多robots.txt协议信息参考:www.robotstxt.org

可以屏蔽一些网站中比较大的文件,如:图片,音乐,视频等,节省服务器带宽;可以屏蔽站点的一些死链接。方便搜索引擎抓取网站内容;设置网站地图连接,方便引导蜘蛛爬取页面。

在爬取网站之前,检查robots.txt文件可以最小化爬虫被封禁的可能

 

User-agent: *
Disallow:
Disallow: /wp-admin/
Sitemap: http://www.damowo.cn/sitemap.xml

或者

1 User-agent: Baiduspider
2 Disallow: /baidu
3 Disallow: /s?
4 Disallow: /ulink?
5 Disallow: /link?
6 Disallow: /home/news/data/

robots.txt中的参数含义:

1. User-agent:描述搜索引擎spider的名字。在“robots.txt“文件中,如果有多条 User-agent记录,说明有多个robot会受到该协议的约束。所以,“robots.txt”文件中至少要有一条User- agent记录。如果该项的值设为*(通配符),则该协议对任何搜索引擎机器人均有效。在“robots.txt”文件 中,“User-agent:*”这样的记录只能有一条。

2. Disallow: / 禁止访问的路径

例如,Disallow: /home/news/data/,代表爬虫不能访问/home/news/data/后的所有URL,但能访问/home/news/data123

Disallow: /home/news/data,代表爬虫不能访问/home/news/data123、/home/news/datadasf等一系列以data开头的URL。

前者是精确屏蔽,后者是相对屏蔽

3.  Allow:/允许访问的路径

例如,Disallow:/home/后面有news、video、image等多个路径

接着使用Allow:/home/news,代表禁止访问/home/后的一切路径,但可以访问/home/news路径

介绍一个网址:https://robots.51240.com/,这个能在线制作robots.txt,做好后保存在网站根目录。

noindex与nofllow标签的作用和用法

noindex:禁止收录该页

nofollow:禁止抓取该链接

一、noindex和nofollow用法

noindex用法

Meta robots标签必须放在<head>和</head>之间,格式:<meta name=”robots” content=”noindex”>。

作用:告诉搜索引擎不要收录该页,如果该页已经收录,那么删除已经收录页面。

nofollow用法

nofollow有两种用法

1、Meta robots标签必须放在<head>和</head>之间,格式:<meta name=”robots” content=”nofollow”>。

作用:告诉搜索引擎不要抓取该页所有链接。

2、放在链接中<a rel=” nofollow” href=”url”>

作用:告诉搜索引擎不要抓取该链接。

二、noindex和nofollow混合使用

INDEX命令:告诉搜索引擎允许抓取这个页面
FOLLOW命令:告诉搜索引擎可以从这个页面上抓取链接,然后继续访问抓取下去。
NOINDEX命令:告诉搜索引擎不允许抓取这个页面
NOFOLLOW命令:告诉搜索引擎不允许从此页面抓取链接、拒绝其继续访问。

四种使用情况

根据以上的命令,我们就有了一下的四种组合

<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>:可以抓取本页,而且可以顺着本页继续索引别的链接

<META NAME=”ROBOTS” CONTENT=”NOINDEX,FOLLOW”>:不许抓取本页,但是可以顺着本页抓取索引别的链接

<META NAME=”ROBOTS” CONTENT=”INDEX,NOFOLLOW”>:可以抓取本页,但是不许顺着本页抓取索引别的链接

<META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>:不许抓取本页,也不许顺着本页抓取索引别的链接。

这里需要注意的是,不要把两个对立的反义词写到一起,例如

<META NAME=”ROBOTS” CONTENT=”INDEX,NOINDEX”>
三、noindex和nofollow使用环境情况

1、让搜索引擎不要收录该页,如果已经收录则删除(去掉已经有排名的网页),允许搜索引擎抓取该页其他链接。

使用:<meta name=”robots” content=”noindex”>。

<meta name=”robots” content=”noindex”>和<META NAME=”ROBOTS” CONTENT=”NOINDEX,FOLLOW”>效果一样。

2、让搜索引擎不要收录该页,如果已经收录则删除(去掉已经有排名的网页),禁止搜索引擎抓取该页其他链接。

使用<META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>。

3、不允许搜索引擎抓取该页链接(该页可以正常抓取)。

使用:<meta name=”robots” content=”nofollow”>或者<META NAME=”ROBOTS” CONTENT=”INDEX,NOFOLLOW”>。

4、不允许抓取本文某一个链接。

使用:<a rel=” nofollow” href=”url”>。

备注:

META NAME=”ROBOTS”指所有的搜索引擎的,也可以指定某一个搜索引擎,例如META NAME=”Googlebot(谷歌蜘蛛)”、META NAME=”Baiduspider(百度蜘蛛)、META NAME=”HaoSouSpider(好搜蜘蛛)”、META NAME=”Sogou News Spider ”(搜狗蜘蛛)”等。content部分有四个命令:index、noindex、follow、nofollow,命令间以英文的“,”分隔。

[站内优化:All in One SEO如何设置成自动化生成]已经讲完了,谢谢大家观看

 

 

 

本站原创文章,如若转载。发布者:大摩seo,转载请注明出处:http://www.damowo.cn/seoer/1024.html

联系我们

....

在线咨询:点击这里给我发消息

邮件:562722510@qq.com

武汉SEO QQ交流群

QR code