什么是robots元标签?

Robots元指令(有时称为“元标记”)是一段代码,为爬虫程序提供如何对网页内容进行爬网或索引的指令。虽然robots.txt文件指令为bots提供了如何对网站页面进行爬网的建议,但robots元指令提供了关于如何对页面内容进行爬网和索引的更为明确的指示。

有两种类型的robots元指令:一种是HTML页面的一部分(比如meta robots tag),另一种是web服务器作为HTTP头(比如x-robots-tag)发送的。相同的参数(即,元标记提供的爬行或索引指令,如上例中的“noindex”和“nofollow”)可用于元robots和x-robots-tag;不同的是这些参数如何与爬虫程序通信。

什么是robots元标签?

元指令向爬虫程序提供有关如何对在特定网页上找到的信息进行爬网和索引的指令。如果这些指令是由bot发现的,那么它们的参数将为爬虫索引行为提供强有力的建议。但与robots.txt文件一样,爬虫程序不必遵循您的元指令,因此可以肯定,某些恶意的web robots会忽略您的指令。

以下是搜索引擎爬虫在meta robots指令中使用时理解和遵循的参数。这些参数不区分大小写,但请注意,有些搜索引擎可能只遵循这些参数的一个子集,或者对某些指令的处理略有不同。

索引控制参数:

  • Noindex:告诉搜索引擎不要为页面编制索引。
  • Index:告诉搜索引擎为页面建立索引。请注意,您不需要添加此元标记;这是默认值。
  • Follow:即使该页面未编制索引,爬网程序也应跟踪页面上的所有链接,并将所有者权益传递给链接的页面。
  • Nofollow:告诉抓取工具不要关注页面上的任何链接或传递任何链接权益。
  • Noimageindex:告诉爬虫程序不要索引页面上的任何图像。
  • None:等同于同时使用noindex和nofollow标记。
  • Noarchive:搜索引擎不应在SERP上显示指向此页面的缓存链接。
  • Nocache:与noarchive相同,但仅由Internet Explorer和Firefox使用。
  • Nosnippet:告诉搜索引擎不要在SERP上显示此页面的该片段(即元描述)。
  • Noodyp / noydir [OBSOLETE]:禁止搜索引擎使用页面的DMOZ描述作为该页面的SERP代码段。但是,DMOZ已于2017年初退休,这使得该标签已过时。
  • Unavailable_after:在特定日期之后,搜索引擎不应再对此页面编制索引。

robots元指令的类型

robots元指令主要有两种类型:robots元标签和x-robots-tag。可以在meta robots标记中使用的任何参数也可以在x-robots-tag中指定。

我们将在下面讨论meta robots和x-robots标签指令。

meta robots标签

meta robots标记(通常称为“ meta robots”或俗称“ robots标记”)是网页HTML代码的一部分,并显示为网页<head>部分中的代码元素:

meta-robots-example.png?mtime = 20170427084859#asset:5193

代码示例:

<pre><meta name=”robots” content=”[参数]”></pre>

尽管常规<meta name=”robots” content=”[PARAMETER]”>标签是标准标签,但您也可以通过将“robots”替换为特定用户代理的名称来向特定的爬虫程序提供指令。例如,要将指令专门针对Googlebot,可以使用以下代码:

<meta name =“ googlebot” content =“ [DIRECTIVE]”>

是否要在页面上使用多个指令?只要它们针对同一个“ robots”(用户代理),多个指令就可以包含在一个meta指令中–只需用逗号将它们分开即可。这是一个例子:

<meta name =“ robots” content =“ noimageindex,nofollow,nosnippet”>

此标记将告诉robots不要索引页面上的任何图像、跟随任何链接或在SERP上显示页面的片段。

如果您对不同的搜索用户代理使用不同的meta robots标签指令,则需要为每个robots使用单独的标签。

X-robots-tag

尽管meta robots标签允许您在页面级别控制索引编制行为,但x-robots-tag可以作为HTTP标头的一部分包含在内,以控制整个页面以及页面的特定元素的编制索引。

虽然您可以使用x-robots-tag来执行与meta robots相同的所有索引指令,但x-robots-tag指令提供了meta robots标记所没有的更大的灵活性和功能。特别是,x-robots-tag允许使用正则表达式,在非HTML文件上执行抓取指令以及在全局级别应用参数。

Picture1.png?mtime = 20170427084856#asset:5189

要使用x-robots-tag,您需要访问网站的header.php、.htaccess或服务器访问文件。然后,添加特定服务器配置的x-robots-tag标记,包括任何参数。本文提供了一些很好的例子,说明如果使用这三种配置中的任何一种,那么x-robots-tag标记是什么样子的。

以下是一些使用x-robots-tag的用例:

  • 控制非HTML内容(如Flash或视频)的索引编制
  • 阻止页面的特定元素(例如图像或视频)的索引编制,但不阻止整个页面本身的索引编制
  • 如果您无权访问页面的HTML(特别是<head>部分),或者您的网站使用无法更改的全局header,则控制索引编制
  • 为是否应为页面建立索引添加规则(例如,如果用户发表了20次以上的评论,则为其个人资料页面建立索引)

使用robots元指令的SEO最佳实践

  • 爬网URL时会发现所有元指令(robots或其他)。这意味着,如果robots.txt文件禁止抓取该URL,则该页面上的任何meta指令(在HTML或HTTP标头中)都不会被看到,并且实际上将被忽略。
  • 在大多数情况下,应使用带有参数“ noindex,follow”的meta robots标记作为一种限制爬网或索引的方法,而不是使用robots.txt文件不允许。
  • 重要的是要注意,恶意爬网程序可能会完全忽略robots元指令,因此,此协议不能提供良好的安全性机制。如果您有不想公开搜索的私人信息,请选择一种更安全的方法,例如密码保护,以防止访问者查看机密页面。
  • 您无需在同一页面上同时使用meta robots和x-robots-tag-这样做将是多余的。

[原创文章] 发布者:seospsa,转载抄袭请注明本站链接:https://www.spsa.cn/2127.html

(1)
打赏 微信扫一扫 微信扫一扫
上一篇 2020-04-08 2020/04/08
下一篇 2020-04-08 2020/04/08

相关推荐

  • 什么是robots.txt文件?

    Robots.txt是网站管理员创建的一个文本文件,用于指导网络机器人(通常是搜索引擎机器人)如何对其网站上的页面进行爬网。robots.txt文件是robots exclusion protocol(REP)的一部分,REP是一组web标准,用于规范robots如何对web进行爬网、访问和索引内容,并向用户提供这些内容。REP还包括诸如meta robot…

    2020-04-05
    01
  • 实现SEO友好的域迁移-信息图

    域迁移是其中一种活动,即使从长远来看可以代表SEO过程的好处,特别是如果新域更相关,已经拥有很高的权威,或者使用ccTLD提供更好的地理定位信号,也可能代表SEO的风险,因为应该在为了避免潜在的非琐碎的爬行和索引问题,以及随之而来的排名和有机流量损失。 我对最近的一个域迁移做了一个快速的研究,我需要监督和意识到,即使有一些资源,也没有一个完整的列表涵盖所有不…

    2020-04-09
    01
  • 为什么所有SEO都应取消阻止JavaScript和CSS …以及Google为何关心

    如果您是网站站长,则可能会收到Google发出给所有似乎SEO和网站站长的臭名昭著的“ Googlebot无法访问example.com上的CSS和JS文件”的警告信之一。尽管我们一直在搜索引擎上听到有关确保所有资源(包括JavaScript和CSS)不受阻塞的需求,但这是Google的全新警报。 在Google Search Console中的某些报告的支…

  • 什么是本地引用?

    本地引用是任何在线提及本地企业的名称,地址和电话号码的信息。引用可以出现在本地企业目录,网站和应用程序以及社交平台上。引用有助于互联网用户发现本地企业,也可能影响本地搜索引擎排名。本地企业可以主动管理许多引用,以确保数据准确性。 本地引用有哪些类型? 主要的本地商业数据平台-本地商业所有者和营销人员可以在各种重要的本地商业数据平台上创建引用,这些平台可以发布…

  • 并非所有链接都相等:Google评估链接时的20个图形

    22年前,Google的创始人发明了PageRank,并永远改变了网络。使PageRank与现有排名算法显着不同的一些原因: 网络上的链接算作投票。最初,所有选票都是平等的。 获得更多选票的页面变得更重要(排名也更高) 更重要的页面会投更重要的票。 但是Google并没有止步于此:他们在锚文本,主题建模,内容分析,信任信号,用户参与度等方面进行了创新,以提供…

  • Schema.org标记

    Schema.org(通常称为Schema)是标记(或微数据)的语义词汇表,您可以将其添加到HTML中,以改善搜索引擎在SERP中读取和表示页面的方式。 代码样例 <div itemscope itemtype =“ https://schema.org/Book”> <span itemprop =“ name”>入站营销和SEO&…

    2020-04-11
    00

发表评论

登录后才能评论