垃圾邮件分数:Moz衡量惩罚风险的新指标

今天,我很高兴地宣布,我们已经进行了近一年的研发项目Moz的Spam Score终于可以上线了。在这篇文章中,您可以了解有关我们如何计算垃圾邮件评分,其含义以及如何在SEO工作中潜在使用它的更多信息。

更新:垃圾邮件分数现已作为Mozscape API的一部分提供。

垃圾邮件分数:Moz衡量惩罚风险的新指标

垃圾邮件评分如何运作?

在过去的一年中,我们的数据科学团队由Matt Peters博士领导 ,研究了许多潜在因素,这些因素预测该网站可能会受到Google的处罚或禁止。我们发现与17个独特的因素(称为“垃圾邮件标记”)之间存在很强的相关性,并将它们转化为得分。

现在 ,Mozscape(我们的网络索引)中的几乎每个子域都 附加了一个垃圾邮件评分,并且可以在Link Explorer(以及不久的将来的MozBar和其他工具)中查看此评分。分数很简单;它仅记录子域触发的垃圾邮件标志的数量。我们的相关性表明,没有一个特定的标志比其他标志更可能表示某个域在Google中受到了惩罚/禁止,但是触发许多标志的相关性非常强(您可以在下面的数学图中看到)。

垃圾邮件评分目前仅在子域级别上起作用,而页面或根域则没有。根据我的经验以及该领域其他许多SEO的经验,大量链接垃圾邮件与子域级别相关。例外情况很多,操纵性链接可以并且确实存在于许多高质量的网站上,但是经过我们的测试,我们发现子域级别的垃圾邮件评分是我们可以在网络规模上创建的最佳解决方案。它在处理最明显,最讨厌的垃圾邮件方面做得很好,并且在突出其他领域的风险方面也做得不错。

如何获取垃圾邮件分数

现在,您可以在Moz的Link Explorer中的顶级指标(仅在域/页面权限下方)以及其自己的标签为“垃圾邮件分析”的标签中找到“垃圾邮件得分 ”。垃圾邮件分数目前仅适用于Pro订阅者,尽管将来,我们可能会在“指标”部分中向所有人开放。

垃圾邮件分数:Moz衡量惩罚风险的新指标

当前的“垃圾邮件分析”页面包含链接到您的站点的子域或页面的列表。您可以切换目标,以查看到站点上给定子域,给定页面或整个根域的所有链接。您可以进一步切换源层,以查看传入的链接页面或子域的垃圾邮件分数(但是对于页面,我们仍在显示托管该页面的子域的垃圾邮件分数)。

您可以单击任何垃圾邮件得分行,并查看有关触发了哪些标志的详细信息。我们将带您到以下页面:

垃圾邮件分数:Moz衡量惩罚风险的新指标

返回原始的“垃圾邮件分析”页面,在该行的最底部,您将找到一个导出拒绝文件的选项,该文件与Google网站站长工具兼容。您可以选择过滤文件,使其仅包含具有给定垃圾邮件标记计数或更高数量的站点:

垃圾邮件分数:Moz衡量惩罚风险的新指标

拒绝出口通常需要不到3个小时才能完成。准备就绪后,我们也可以向您发送电子邮件。

警告:请不要导出此文件,而只是将其上传到Google!您可能确实确实伤害了您网站的排名,并且可能无法恢复。相反,请仔细排序其中的链接,并确保您确实希望拒绝其中的内容。您可以轻松地删除/编辑文件以删除您认为不是垃圾邮件的链接。当Moz的Cyrus Shepard拒绝访问自己网站的所有链接时,他的排名花了一年多的时间才恢复!

实际上,我们已经确定该文件并非完全可以上传到Google,以确保人们在此特定步骤中不会太过随心所欲。您需要将其打开并进行一些编辑(特别是对文件顶部的行),以便为网站站长工具做好准备

在不久的将来,我们希望在Mozbar中也有“垃圾邮件得分”,看起来可能是这样的:

垃圾邮件分数:Moz衡量惩罚风险的新指标

垃圾邮件分析的潜在用例

该列表可能并不详尽,但是这些是我们一直在处理数据的几种方式:

  1. 检查指向您自己站点的垃圾链接:几乎每个站点都至少有一些指向该站点的错误链接,但是到目前为止,您很难知道您可能拥有多少或多少潜在有害链接。运行垃圾邮件快速分析,查看是否有足够的信息引起关注。
  2. 评估潜在链接:这是我们认为垃圾邮件评分可能会有所帮助的一个重要方面。它并不会抓住每个潜在的不良链接,您当然也应该动脑筋进行评估,但是当您扫描链接机会列表或浏览各个站点时,可以查看它们是否激发了很多标志是一个很好的警告标志。
  3. 链接清理:链接清理项目可能很杂乱,复杂,不稳定且非常繁琐。垃圾邮件评分可能无法涵盖所有内容,但是通过它对链接进行排序对于识别潜在的令人讨厌的内容以及过滤出更可能的干净链接非常有帮助。
  4. 拒绝文件:同样,由于垃圾邮件得分无法完全捕获所有内容,因此您可能需要在此处做一些额外的工作(特别是如果您正在工作的网站在更可信任的域上进行了一些链接购买),但是可以为您节省大量时间来评估和列出最糟糕和最明显的垃圾。

随着时间的流逝,我们也对使用垃圾邮件评分来帮助改进PA和DA的计算(目前尚不存在)以及将其添加到其他工具和数据源感到兴奋。我们希望您能就您最希望看到垃圾邮件分数的问题提供反馈和见解。

有关垃圾邮件分数计算的详细信息

本节由Moz的数据科学负责人Matt Peters博士提供,他创建了该指标,并应得到(至少以我的拙见)热烈的掌声。-兰德

“垃圾邮件”的定义

在深入研究各个垃圾邮件标志及其计算的细节之前,重要的是首先描述我们的数据收集过程和“垃圾邮件”定义。

为了达到我们的目的,我们遵循Google对垃圾邮件的定义,并为许多网站收集了如下标签。

  • 首先,我们从由mozRank分层的Mozscape索引中随机选择了大量子域。
  • 然后,我们对子域进行爬网,并丢弃所有未返回“ 200 OK”(重定向,错误等)的子域。
  • 最后,我们使用完整的子域名作为关键字,收集了排名前10位的非个性化,与地理位置无关的Google-US搜索结果,并检查了这些结果是否与原始关键字匹配。如果没有,我们将子域称为“垃圾邮件”,否则我们将其称为“火腿”。

我们在2014年11月(在Penguin 3.0更新之后)进行了大约500,000个子域的最新数据收集。

标记数与垃圾邮件之间的关系

垃圾邮件总评分目前是17个不同“标记”的总和。您可以将每个标志视为潜在的“警告标志”,以表明该站点可能是垃圾邮件。随着站点累积越来越多的标志,垃圾邮件的总体可能性会增加,因此标志的总数是垃圾邮件的有力预测指标。因此,这些标志被设计为可以一起使用-无需担心单个标志,甚至几个标志(实际上,大多数站点将触发至少几个标志)。

下表显示了标志的数量与具有我们发现Google曾经惩罚或禁止的标志的网站百分比之间的关系:

垃圾邮件分数:Moz衡量惩罚风险的新指标

上图:垃圾邮件的总体概率与垃圾邮件标记的数量。2014年11月收集的大约50万个子域的数据。该表还突出显示了三个总体危险级别:低/绿色(<10%)中/黄色(10-50%)和高/红色(> 50%)

大量站点的平均总垃圾邮件百分比随着标记数的增加而逐步增加;但是,每个类别中都有离群值。例如,有少数网站的标记很少被Google标记为垃圾邮件,相反,少数网站的标记却不是垃圾邮件。

垃圾邮件标志详细信息

各个垃圾邮件标志捕获了大量的垃圾邮件信号,包括链接配置文件,锚文本,页面信号和域名属性。在较高级别上,确定每个子域的垃圾邮件标志的过程是:

  • 从Mozscape收集链接指标(mozRank,mozTrust,链接域数等)。
  • 从Mozscape收集锚文本度量(按链接数排序的顶部锚文本短语)
  • 从Mozscape的子域上按页面权限收集前五页
  • 搜寻前五页以及首页和提取页面信号的过程
  • 提供输出以供Mozscape包括在下一个索引发布周期中

由于垃圾邮件标志已合并到Mozscape索引中,因此每个新索引都会发布新数据。目前,我们每两个-三个月抓取并处理每个子域的垃圾邮件标志,尽管将来可能会有所变化。

链接标志

下表列出了与链接和锚文本相关的标志,以及每个标志的优势比。对于每个标志,我们可以计算两个百分比:被Google惩罚的带有该标志的网站的百分比和未被惩罚的带有该标志的网站的百分比。比值比是这些百分比的比值,如果该站点带有标记,则表明该站点为垃圾邮件的可能性增加。例如,第一行说带有该标志的站点比没有该标志的站点的垃圾邮件可能性高12.4倍。

垃圾邮件分数:Moz衡量惩罚风险的新指标

上:与链接和锚文本相关的垃圾邮件标志的描述和比值比。除了描述之外,它还列出了每个标志的优势比,如果存在该标志,则垃圾邮件的总体可能性将增加。

在表下面工作,这些标志是:

  • mozTrust与mozRank的比率低:与mozRank相比,mozTrust较低的网站很可能是垃圾邮件。
  • 具有很少链接的大型站点:具有多个页面的大型站点往往也具有许多链接,而没有相应大量链接的大型站点可能是垃圾邮件。
  • 网站链接的多样性很低:如果到网站的链接中有很大一部分来自几个域,则很可能是垃圾邮件。
  • 跟随/未跟随子域/域的比率(两个单独的标志):与跟随/跟随的链接相比,拥有大量跟随链接的站点可能是垃圾邮件。
  • 品牌链接(锚文字)的比例很小:有机链接通常包含不成比例的带状关键字。如果站点没有很多品牌锚文本,则表明链接不是有机的。

页面标记

与链接标志类似,下表列出了与页面和域名相关的标志:

垃圾邮件分数:Moz衡量惩罚风险的新指标

上:与网页和域名相关的垃圾邮件标志的描述和优势比。除了描述之外,它还列出了每个标志的优势比,如果存在该标志,则垃圾邮件的总体可能性将增加。

  • 内容稀少:如果网站的内容与导航镶边的比例相对较小,则可能是垃圾邮件。
  • 网站标记异常小:非垃圾邮件站点倾向于使用CSS,Javascript和大量标记来丰富用户体验。因此,文本与标记的比率很大就是垃圾邮件信号。
  • 大量外部链接:具有大量外部链接的网站可能看起来是垃圾邮件。
  • 内部链接数量少:实际站点倾向于通过内部导航与其自身进行大量链接,而相对缺乏内部链接则是垃圾邮件信号。
  • 锚文本过多的页面:与那些内容较多且链接较少的站点相比,锚文本很多的网站更可能是垃圾邮件。
  • 导航中的外部链接:垃圾邮件站点可能会在侧边栏或页脚中隐藏外部链接。
  • 没有联系信息:实际网站会突出显示其社交和其他联系信息。
  • 发现的页面数量少:与只有很多页面的网站相比,只有一页或几页的网站更可能是垃圾邮件。
  • TLD与垃圾邮件域相关:某些TLD比其他TLD更垃圾(例如pw)。
  • 域名长度:较长的子域名(例如“ bycheapviagra.freeshipping.onlinepharmacy.com”)可能表示关键字被填充。
  • 域名包含数字:带有数字的域名可能会自动生成,因此会成为垃圾邮件。

我们希望您的反馈意见

与所有指标一样,垃圾邮件得分也不是完美的。我们很乐意听到您的反馈和想法,以提高分数,以及您以后希望从其产品应用程序中看到的内容。

[原创文章] 发布者:seospsa,转载抄袭请注明本站链接:http://www.spsa.cn/2241.html

发表评论

登录后才能评论