网站:什么是重复内容(相同内容)?

什么是重复内容

重复内容是出现在Internet上多个位置的内容。“一个位置”定义为具有唯一网址(URL)的位置-因此,如果相同的内容出现在多个网址上,则您将获得重复的内容。

尽管从技术上讲不算是罚款,但是重复内容有时仍会影响搜索引擎排名。当Google称其为Internet上多个位置的“近似相似”内容的多个部分时,搜索引擎可能很难确定哪个版本与给定的搜索查询更相关。

为什么重复的内容很重要?

对于搜索引擎

重复的内容可能给搜索引擎带来三个主要问题:

  1. 他们不知道要从索引中包括/排除哪个版本。
  2. 他们不知道是否要定向链接指标(信任,权限,锚文本,链接权益等)定向到哪一页上,或将其分隔在多个版本之间。
  3. 他们不知道为查询结果排名哪个版本。

对于网站所有者

如果存在重复的内容,则网站所有者可能会遭受排名和流量损失。这些损失通常来自两个主要问题:

  1. 为了提供最佳的搜索体验,搜索引擎很少显示同一内容的多个版本,因此被迫选择哪个版本最有可能是最佳结果。这会稀释每个副本的可见性。
  2. 链接权益可以进一步稀释,因为其他网站也必须在重复之间进行选择。不是所有指向一个内容的入站链接都指向多个内容,而是将链接公平性分布在多个副本中。因为入站链接是一个排名因素,所以这会影响一段内容的搜索可见性。

最终结果?一条内容无法实现搜索可见性。

搜索引擎重复的内容问题

重复的内容问题如何发生?

在大多数情况下,网站所有者并非故意创建重复的内容。但是,这并不意味着它不存在。实际上,据估计,多达29%的网络实际上是重复内容!

让我们看一下无意中创建重复内容的一些最常见方法:

1. URL变体

URL参数,比如点击跟踪和一些分析代码,可能会导致重复的内容问题。这不仅是参数本身造成的问题,而且是这些参数在URL本身中出现的顺序造成的问题。

例如:

  • www.widgets.com/blue-widgets?c …是www.widgets.com/blue-widgets?c …&cat = 3“ class =” redactor-autoparser-object“> www.widgets的副本。 com / blue-widgets是www.widgets.com/blue-widgets?cat = 3&color = blue 的副本

类似地,会话id是一个常见的重复内容创建者。当访问网站的每个用户被分配一个存储在URL中的不同会话ID时,就会发生这种情况。

会话ID或参数可以创建重复的内容

当对多个版本的页面建立索引时,易于打印的内容版本也会导致重复的内容问题。

打印机友好的页面版本可能会造成重复的内容问题

这里的一个教训是,在可能的情况下,避免添加URL参数或URL的备用版本(通常可以通过脚本传递这些信息)通常是有益的。

2. HTTP与HTTPS或WWW与非WWW页面

如果您的网站在“ www.site.com”和“ site.com”上有单独的版本(带和不带“ www”前缀),并且两个版本中都有相同的内容,那么您实际上已经创建了每个版本的副本页面。同样适用于同时维护http://和https://版本的网站。如果页面的两个版本都是实时的并且对搜索引擎可见,则可能会遇到重复的内容问题。

3.刮取或复制的内容

内容不仅包括博客文章或编辑内容,还包括产品信息页面。scraper在他们自己的网站上重新发布你的博客内容可能是重复内容的一个更为常见的来源,但是对于电子商务网站来说,也有一个常见的问题:产品信息。如果许多不同的网站都销售相同的商品,而且它们都使用制造商对这些商品的描述,那么相同的内容就会在网络上的多个位置出现。

如何解决重复的内容问题

解决重复内容的问题全都归结为一个中心思想:指定哪个重复是“正确”的。

只要可以在多个URL上找到网站上的内容,就应该对搜索引擎进行规范化。让我们研究一下这三种主要方法:使用301重定向到正确的URL,rel = canonical属性,或使用Google Search Console中的参数处理工具。

301重定向

在许多情况下,应对重复内容的最佳方法是设置从“重复”页面到原始内容页面的301重定向

当多个具有良好排名潜力的页面合并为一个页面时,它们不仅会停止相互竞争,而且还会相互竞争。它们还会在整体上产生更强的相关性和受欢迎程度信号。这将对“正确”页面的排名能力产生积极影响。

使用301重定向修复重复的内容问题

Rel =“ canonical”

处理重复内容的另一种方法是使用rel = canonical属性。这告诉搜索引擎应将给定页面视为指定URL的副本,并且实际上应将搜索引擎应用于此页面的所有链接,内容指标和“排名能力”归功于指定页面网址。

使用rel = canonical处理重复内容

rel =“ canonical”属性是网页HTML头的一部分,如下所示:

通用格式:

<head> … [可能在文档的HTML头中的其他代码] … <link href =“原始页面的网址” rel =“ canonical” /> … [可能在文档的其他代码中HTML头] … </ head>

rel = canonical属性应添加到页面的每个重复版本的HTML头中,上面的“ URL OF ORIGINAL PAGE”部分应替换为指向原始(规范)页面的链接。(请确保保留引号。)该属性传递的链接公平性(排名能力)与301重定向大致相同,并且由于它是在页面(而不是服务器)级别实现的,因此通常花费更少的开发时间实行。

下面是一个实际的规范属性示例:

plicate-mozbar-screenshot_170315_161150.png?mtime = 20170315161151#asset:4195:url

使用MozBar识别规范属性。

在这里,我们可以看到BuzzFeed正在使用rel = canonical属性来适应其对URL参数的使用(在本例中为点击跟踪)。尽管可以通过两个URL访问此页面,但是rel = canonical属性可确保将所有链接公平性和内容度量标准授予原始页面(/不再执行此操作)。

Meta Robots Noindex

当与值“ noindex,follow”一起使用时,meta robots可以在处理重复内容时特别有用。该meta robots标签通常称为Meta Noindex,Follow,在技术上称为content =“ noindex,follow”,可以将其添加到应用搜索引擎的索引中排除的每个单独页面的HTML标头中。

通用格式:

<head> … [可能在文档的HTML头中的其他代码] … <meta name=“ robots” content =“ noindex,follow”> … [可能在文档的HTML头中的其他代码] … </ head>

meta robots标签允许搜索引擎抓取页面上的链接,但阻止它们将这些链接包括在索引中。即使您告诉Google不要为其索引,仍然可以对重复页面进行爬网,这很重要,因为Google明确警告不要限制对网站上重复内容的爬网访问。(搜索引擎希望能够看到所有内容,以防万一您在代码中犯了错误。它可以使它们在其他模棱两可的情况下发出[可能自动执行的“判断调用”。)

对于与分页有关的重复内容问题,使用meta robots是一种特别好的解决方案。

Google Search Console中的首选域和参数处理

Google Search Console允许您设置网站的首选域(即http://yoursite.com而不是http://www.yoursite.com),并指定Googlebot是否应以不同的方式抓取各种URL参数(参数处理)。

Duplicate-content-google-search-console-settings.png?mtime = 20170315155632#asset:4191:url

根据您的URL结构和内容重复问题的原因,设置您的首选域或参数处理(或两者都设置)可能提供解决方案。

使用参数处理作为处理重复内容的主要方法的主要缺点是所做的更改仅适用于Google。使用Google Search Console制定的任何规则都不会影响Bing或任何其他搜索引擎的抓取工具对您的网站的解释;除了调整Search Console中的设置之外,您还需要将网站站长工具用于其他搜索引擎。

处理重复内容的其他方法

  1. 在整个网站内部进行链接时保持一致性。例如,如果网站管理员确定域的规范版本为www.example.com/,则所有内部链接都应转到http:// www。example.co …而不是http:// example.com/pa …(请注意,没有www)。
  2. 联合发布内容时,请确保联合发布网站添加回原始内容的链接,而不是URL的变体。(有关更多信息,请查看我们的“跨大量url处理用户生成的和制造商要求的重复内容”一集中的内容)。
  3. 为了防止内容抓取工具窃取您的内容的SEO信用,可以添加额外的保护措施,明智的做法是在现有页面上添加自引用rel = canonical链接。这是一个规范属性,指向已存在的URL,目的是阻止某些抓取工具的工作。

    自我引用规范链接可以防止刮板引起的重复

    自引用rel = canonical链接:rel = canonical标记中指定的URL与当前页面URL相同。

    虽然不是所有的scraper都会移植到源材料的完整HTML代码上,但是有些会。对于那些这样做的人,self referential rel=canonical标记将确保您站点的版本作为“原始”内容获得信任。

[原创文章] 发布者:seospsa,转载抄袭请注明本站链接:http://www.spsa.cn/2192.html

发表评论

登录后才能评论

评论列表(1条)