什么是robots元标签?

Robots元指令(有时称为“元标记”)是一段代码,为爬虫程序提供如何对网页内容进行爬网或索引的指令。虽然robots.txt文件指令为bots提供了如何对网站页面进行爬网的建议,但robots元指令提供了关于如何对页面内容进行爬网和索引的更为明确的指示。

有两种类型的robots元指令:一种是HTML页面的一部分(比如meta robots tag),另一种是web服务器作为HTTP头(比如x-robots-tag)发送的。相同的参数(即,元标记提供的爬行或索引指令,如上例中的“noindex”和“nofollow”)可用于元robots和x-robots-tag;不同的是这些参数如何与爬虫程序通信。

什么是robots元标签?

元指令向爬虫程序提供有关如何对在特定网页上找到的信息进行爬网和索引的指令。如果这些指令是由bot发现的,那么它们的参数将为爬虫索引行为提供强有力的建议。但与robots.txt文件一样,爬虫程序不必遵循您的元指令,因此可以肯定,某些恶意的web robots会忽略您的指令。

以下是搜索引擎爬虫在meta robots指令中使用时理解和遵循的参数。这些参数不区分大小写,但请注意,有些搜索引擎可能只遵循这些参数的一个子集,或者对某些指令的处理略有不同。

索引控制参数:

  • Noindex:告诉搜索引擎不要为页面编制索引。
  • Index:告诉搜索引擎为页面建立索引。请注意,您不需要添加此元标记;这是默认值。
  • Follow:即使该页面未编制索引,爬网程序也应跟踪页面上的所有链接,并将所有者权益传递给链接的页面。
  • Nofollow:告诉抓取工具不要关注页面上的任何链接或传递任何链接权益。
  • Noimageindex:告诉爬虫程序不要索引页面上的任何图像。
  • None:等同于同时使用noindex和nofollow标记。
  • Noarchive:搜索引擎不应在SERP上显示指向此页面的缓存链接。
  • Nocache:与noarchive相同,但仅由Internet Explorer和Firefox使用。
  • Nosnippet:告诉搜索引擎不要在SERP上显示此页面的该片段(即元描述)。
  • Noodyp / noydir [OBSOLETE]:禁止搜索引擎使用页面的DMOZ描述作为该页面的SERP代码段。但是,DMOZ已于2017年初退休,这使得该标签已过时。
  • Unavailable_after:在特定日期之后,搜索引擎不应再对此页面编制索引。

robots元指令的类型

robots元指令主要有两种类型:robots元标签和x-robots-tag。可以在meta robots标记中使用的任何参数也可以在x-robots-tag中指定。

我们将在下面讨论meta robots和x-robots标签指令。

meta robots标签

meta robots标记(通常称为“ meta robots”或俗称“ robots标记”)是网页HTML代码的一部分,并显示为网页<head>部分中的代码元素:

meta-robots-example.png?mtime = 20170427084859#asset:5193

代码示例:

<pre><meta name=”robots” content=”[参数]”></pre>

尽管常规<meta name=”robots” content=”[PARAMETER]”>标签是标准标签,但您也可以通过将“robots”替换为特定用户代理的名称来向特定的爬虫程序提供指令。例如,要将指令专门针对Googlebot,可以使用以下代码:

<meta name =“ googlebot” content =“ [DIRECTIVE]”>

是否要在页面上使用多个指令?只要它们针对同一个“ robots”(用户代理),多个指令就可以包含在一个meta指令中–只需用逗号将它们分开即可。这是一个例子:

<meta name =“ robots” content =“ noimageindex,nofollow,nosnippet”>

此标记将告诉robots不要索引页面上的任何图像、跟随任何链接或在SERP上显示页面的片段。

如果您对不同的搜索用户代理使用不同的meta robots标签指令,则需要为每个robots使用单独的标签。

X-robots-tag

尽管meta robots标签允许您在页面级别控制索引编制行为,但x-robots-tag可以作为HTTP标头的一部分包含在内,以控制整个页面以及页面的特定元素的编制索引。

虽然您可以使用x-robots-tag来执行与meta robots相同的所有索引指令,但x-robots-tag指令提供了meta robots标记所没有的更大的灵活性和功能。特别是,x-robots-tag允许使用正则表达式,在非HTML文件上执行抓取指令以及在全局级别应用参数。

Picture1.png?mtime = 20170427084856#asset:5189

要使用x-robots-tag,您需要访问网站的header.php、.htaccess或服务器访问文件。然后,添加特定服务器配置的x-robots-tag标记,包括任何参数。本文提供了一些很好的例子,说明如果使用这三种配置中的任何一种,那么x-robots-tag标记是什么样子的。

以下是一些使用x-robots-tag的用例:

  • 控制非HTML内容(如Flash或视频)的索引编制
  • 阻止页面的特定元素(例如图像或视频)的索引编制,但不阻止整个页面本身的索引编制
  • 如果您无权访问页面的HTML(特别是<head>部分),或者您的网站使用无法更改的全局header,则控制索引编制
  • 为是否应为页面建立索引添加规则(例如,如果用户发表了20次以上的评论,则为其个人资料页面建立索引)

使用robots元指令的SEO最佳实践

  • 爬网URL时会发现所有元指令(robots或其他)。这意味着,如果robots.txt文件禁止抓取该URL,则该页面上的任何meta指令(在HTML或HTTP标头中)都不会被看到,并且实际上将被忽略。
  • 在大多数情况下,应使用带有参数“ noindex,follow”的meta robots标记作为一种限制爬网或索引的方法,而不是使用robots.txt文件不允许。
  • 重要的是要注意,恶意爬网程序可能会完全忽略robots元指令,因此,此协议不能提供良好的安全性机制。如果您有不想公开搜索的私人信息,请选择一种更安全的方法,例如密码保护,以防止访问者查看机密页面。
  • 您无需在同一页面上同时使用meta robots和x-robots-tag-这样做将是多余的。

[原创文章] 发布者:seospsa,转载抄袭请注明本站链接:https://www.spsa.cn/2127.html

(1)
打赏 微信扫一扫 微信扫一扫
上一篇 2020-04-08 2020/04/08
下一篇 2020-04-08 2020/04/08

相关推荐

  • 什么是本地引用?

    本地引用是任何在线提及本地企业的名称,地址和电话号码的信息。引用可以出现在本地企业目录,网站和应用程序以及社交平台上。引用有助于互联网用户发现本地企业,也可能影响本地搜索引擎排名。本地企业可以主动管理许多引用,以确保数据准确性。 本地引用有哪些类型? 主要的本地商业数据平台-本地商业所有者和营销人员可以在各种重要的本地商业数据平台上创建引用,这些平台可以发布…

  • SEO为什么重要?

    如果您已经对SEO及其重要性有深刻的了解,则可以跳至第2章(尽管我们仍建议在本章末尾略读Google和Bing的最佳做法;它们是有用的复习)。 对于其他所有人,本章将帮助您在前进时建立起基本的SEO知识和信心。 什么是SEO? SEO代表“搜索引擎优化”。这是通过非付费(也称为“自然”)搜索引擎结果提高网站流量的质量和数量以及品牌知名度的一种做法。 尽管有首…

  • SEO的页面排名因素是什么?

    SEO的页面排名因素是什么? 如果优化得当,页面排名因素会对页面的排名能力产生重大影响。影响搜索引擎排名的最大页面因素是: 页面内容 页面的内容使它值得成为搜索结果位置。这是用户看到的内容,因此对搜索引擎极为重要。因此,创建优质的内容很重要。那么什么是好的内容?从SEO角度来看,所有好的内容都有两个属性。好的内容必须满足需求,并且必须可链接。 好的内容可以满…

    2020-04-05
    00293
  • 什么是外部链接?

    外部链接是指向(目标)任何域的超链接,而不是链接存在于(源)上的域。用外行的术语来说,如果另一个网站链接到您,则该链接被视为指向您网站的外部链接。同样,如果您链接到另一个网站,则这也被视为外部链接。 代码样例 <a href=”http://www.external-domain.com/”>链接锚文本</a>…

    2020-04-08
    031.3K
  • 垃圾邮件分数:Moz衡量惩罚风险的新指标

    今天,我很高兴地宣布,我们已经进行了近一年的研发项目Moz的Spam Score终于可以上线了。在这篇文章中,您可以了解有关我们如何计算垃圾邮件评分,其含义以及如何在SEO工作中潜在使用它的更多信息。 更新:垃圾邮件分数现已作为Mozscape API的一部分提供。 垃圾邮件评分如何运作? 在过去的一年中,我们的数据科学团队由Matt Peters博士领导 …

  • 什么是301重定向?

    重定向 重定向是将一个URL转发到另一个URL的过程。 什么是重定向? 重定向是一种将用户和搜索引擎发送到不同于他们最初请求的URL的方法。三种最常用的重定向是301、302和Meta Refresh。 重定向类型 301,“永久移动” —建议用于SEO 302,“找到”或“临时移动” Meta Refresh 301永久移动 301重定向是一种永久重定向,…

    2020-04-09
    01313

发表回复

登录后才能评论