让我们来了解下谷歌最新算法Rankbrain

    |     2016年1月6日   |   SEO原理   |     0 条评论   |    1266

Google 正使用一个叫做Rankbrain 的机器学习科技来协助传递搜寻结果。以下是到目前为止我们所了解关于Rankbrain 的事情。

就在昨天,Google 使用叫做”Rankbrain”的机器学习人工智慧系统来协助分类搜寻结果的消息曝光了。想知道他是怎么运作及适应Google 的整个系统吗?以下是我们对于 Rankbrain 的了解。

下列被隐匿的消息有三个来源。第一,彭博故事昨天透露了关于Rankbrain 的消息(也可以看我们的报导)。第二,Google 直接提供给Search Engine Land 的额外资讯。第三,我们的知识以及对于Google 未提供解答的部份给予最合适的假设。我们会讲清楚这些来源被用在哪里,有必要时会与一般背景资料分开。

什么是 Rankbrain?

Rankbrain 是Google 机器学习人工智慧系统的名字,被用来帮助处理搜寻结果,就像彭博所报导的以及Google 向我们证实的一样。

什么是机器学习?

机器学期就是机器能够自我学习,而不用人类来教他或是遵循复杂的程式。

什么是人工智慧?

人工智慧就是指电脑也可以变的像人类一样聪明,至少从意义上来说可以从被教导以及建立于他已知的事情上获取知识并建立新的连系。

当然,真的 AI 只存在科幻小说里。实际上,AI 通常是指被设计用来学习及建立联系的电脑系统。

AI 跟电脑学习有什么不一样呢?从Rankbrain 这个字来看,对我们来说好像是同义字。你可能听过他们可以交换用,或是可能听过机器学习可以用来形容人工智慧可以用在劳务上。

所以Rankbrain 是Google 用来排序搜寻结果的新方法?

不是的。 Rankbrain 只是Google 整个搜寻演算法的一部分,是用来排序数十亿已知页面的电脑程式,以及用来找到最符合查询的结果。

这个Google 的搜寻演算法叫什么名字?

他叫做”蜂鸟”,就是我们过去所报导过的。在过去几年里,整体演算法都没有正式的名字。不过在2013 年中,彻底翻修了演算法并给了他名字– 蜂鸟。

所以Rankbrain 是Google 蜂鸟演算法的一部分吗?

这是我们的理解。蜂鸟是整个搜寻引算法,就像一台车有一整个引擎一样。而引擎又由许多部分所组成,例如:滤油器、燃料帮浦、冷却系统等。同样地,蜂鸟包含了许多部分,而Rankbrain 则是最新的一部分。

我们了解到Rankbrain 是整个蜂鸟演算法的一部分,因为彭博的文章已经说明了Rankbrain 并不负责处理全部的搜寻,因为只有整个演算法才有办法处理。

蜂鸟也包含了其他在SEO 界耳熟能详的演算法名字,像是:熊猫、企鹅、Payday 要来对抗spam,Pigeon 要来改善本地搜寻,Top Heavy 要来降等过多广告的页面,搜寻引擎友善则要来提升对行动装置友善的页面,Pirate 则是要来对抗侵害版权的问题。

我认为Google 的演算法应该被称为「PageRank」

PageRank 是整个蜂鸟演算法的一部份,他对于根据来自其他页面的连结给予权重有一套特殊的方法。

PageRank 是很特别的,因为在1998 年搜寻引擎刚开始时,PageRank 是Google 第一次给予其中一部分演算法命名。

Google 用来排名的这些「讯号」是什么?

google-hummingbird

讯号是Google 用来帮助决定网页排名。举例来说,他会读取网页里的文字,所以文字就是一个讯号。如果有些字是粗体,那可能就是另一种讯号。这些计算法通常是PageRank 的一部分,被用来给予页面PageRank 分数,那就会被用来当作讯号。如果有一个页面被标记是行动装置友善的,那就是另一个被注册的讯号。

所有讯号都会经由蜂鸟演算法的各部分来处理分析,以判断最终要显示在各种不同搜寻的页面为何。

那有多少讯号呢?

Google 谈到主要的排名讯号有超过200 个,而可能有超过10000 个变数或次讯号。他通常会说有「数百个」因素,就像昨天彭博的文章一样。

如果你想要更多直观的排名讯号指南,可以看看我们的「SEO 成功要素周期表」这篇文章

periodic-table-of-seo

我们认为他真的是个很好的指南,可以用来帮助网页在像Google 这样的搜寻引擎取得排名。

而 Rankbrain 是第三重要的讯号吗?

没错。很出人意料的,这新系统已经成为Google 所说的排序网页第三重要的因素。彭博文章里说到:
Corrado 说:Rankbrain 是演算法中「数百个」排名讯号中的其中一个,决定了在Google 搜寻结果页的呈现以及排名。他说:在过去几个月早已经展开,Rankbrain 已经成为第三种要排名因素并对搜寻有所贡献。

那第一跟第二重要的讯号是什么呢?

Google 不会告诉我们第一跟第二重要的讯号是什么。我们已经问过。而且问了两次…

Google 不告诉我们前两个讯号,这真的很讨厌而且又会让人迷网。 Google 想利用PR 来突破机器学习的发展。

但若真的要评估突破性以及之后Rankbrain 的冲击,了解Google 现在所使用的其他重要因素会有所帮助。这就是为什么Google 应该要解释的原因。

顺带一提,我个人的猜测是连结仍会是最重要的讯号,Google 会把那些连结给加总起来。这也是一个非常老的系统,如同我过去所写的文章:Links: The Broken “Ballot Box” Used By Google & Bing。

至于这第二重要的讯号,我猜测会是「文字」,文字要包含页面上的文字及Google 在Rankbrain 分析中如何理解人们在搜寻框中输入的文字。

Rankbrain 确切来说能做什么呢?

从Google 的来信中,我推测Rankbrain 主要是被用来解析人们所提交可能不含有精确的文字的搜寻。

没有精确的查询Google 就没办法找到页面吗?

不,Google 没有精确字也可以找到页面已经很久啰。举个例子来说,很多很多年前,如果你输入了像是「一只鞋子」这样的字,Google 可能就没办法找到关于「一双鞋子」的页面,因为技术上来说那是两个不同的字。但「stemming」可以让Google 聪明一点,为了要了解一双鞋子是一只鞋子的变形,就像「跑步」是「跑」的变形。

Google 也有同义字的智慧,所已如果你搜寻「sneakers」,Google 也许会了解到你要找的是「慢跑鞋」。为了要了解科技公司「苹果」vs 水果「苹果」,甚至得到了概念上的智慧。

什么是知识图谱?

知识图谱是从2012 开始发展,是Google 用来让字词之间的连结变的更聪明的方法。更重要的是,他学会了搜寻「事物而非字串」,Google 曾这么描述。

字串意思是字母字串的搜寻,像是拼字符合「奥巴马」的页面。相反地​​是物是指,Google 能了解当有人搜寻「欧巴马」,他们可能是指美国总统欧巴马,与其他人、地点与事物有所连结的现实中的人。

知识图谱是关于世界上的事物已及这些事物间的关联性的资料库。这也就是为什么当你搜寻「奥巴马的太太什么时候出生」而不是用他的名字来搜寻时,你会得到像下面米歇尔‧欧巴马这个答案:
Google_Search_konwledge

Rankbrain 如何帮助优化搜寻?

Google 用来重新定义搜寻的方法一般要回到在某处工作的人们那,已经创建的stemming 清单货是同义字清单或建立事物之间联系的资料库也是。当然,还是有一些是自动化的。不过大部分都是要依靠人力。

这个问题是Google 一天处理30 亿个搜寻。 2007 年,Google 说百分之20 到25 的查询都是以前曾经看过的。 2013 年,这数字下降到百分之15,这又被拿来当作彭博的文章,Google 也再次确认。但这些尚未被人们搜寻过的为30 亿的百分之15 ,仍是一个巨大的数字– 1 天有4 亿5 千万。

那些还可以更复杂,多组字词的查询,也可以做「长尾字」查询。 Rankbrain 被设计来帮助那些查询请求以及更有效率的转译,在这方法的背后是要为搜寻者找到最佳的页面。

就如同Google 所说的,他可以​​了解表面上看起来毫无关系的复合查询,他们彼此间的相似性。而这个学习可以更了解复合查询,已及是否跟其他主题相关。最重要的是,Google 告诉我们他可以把查询字组及搜寻者会喜欢的搜寻结果联在一起。

Google 没有提供查询词组的例子也没提供Rankbrain 如何猜测最佳页面的细节。后者可能是因为如果他可以把不明确的查询转译成明确的查询,那他就可以带来更好的结果。

来个例子如何?

虽然Google 没有给查询词组的范例,而彭博文章有个搜寻的单一范例,Rankbrain 可能有所帮助。如下:

食物链中最高级的消费者是谁

对于像我这样的门外汉来说,「消费者」听起来就像是某个买东西的人。然而,他也是某种消耗食物的物种在科学上的专有名词。食物链中有多种等级的消费者。最顶层的消费者呢?他叫做「食肉动物」。

把这词与输入到Google,Google 提供了不错的答案,虽然这个查询词与本身还是很奇怪:

Google_Search_food-chain

现在来细想查询像「食物链顶端」的结果相似性,如下方:

Google_Search_food-chain-2

想像一下,Rankbrain 把那原本很长又复杂的搜寻连结到了比较短的这个,这可能是比较一般的做法。他能够了解他们是非常相似的。结果是,从比较常见的查询中得到的答案来改善比较少见的查询,Google 可以让他知道的所有事情发挥功效。

我要强调,我不知道Google 联结了这两个查询。我只知道 Google 给了第一个范例。这是Rankbrain 可能如何被用来连结不常见跟常见查询来改善搜寻结果的简单描述。

Bing 用 RankNet 也可以做到这些吗?

回到2005 年,微软开始使用他们自己的机器学习系统,叫做RankNet,是今天Bing 搜寻引擎的一部分。实际上,RankNet 的首席研究员及创造者最近才被表扬。不过在这些年,微软很少谈论到RankNet。

你可以打赌这将可能会有所改变。有趣的是,当我在Bing 输入跟上面Google Rankbrain 一样的例子时,Bing 给我不错的搜寻结果,其中一条还跟Google 的一样。

Bing_Search_food-chain

一个搜寻不表示Bing 的RankNet 跟Google 的Rankbrain 一样好,反之亦然。不幸的是,很难题出一份清单来做比较。

有更多例子吗?

Google 的确有给我们新的范例:「杯子里有几枝汤匙?」Google 表示Rankbrain 对澳洲或美国会提供不同的搜寻结果,因为每个国家的衡量标准不同,尽管名称很相似。

我试着在google.com 跟Google 澳洲上搜寻来做测试。我发现没有太大的不同。即使没有Rankbrain,结果也常常不同,只因为提供页面的「过时的」方法是为那些使用澳洲Google 的搜寻者提供已知的澳洲网站。

Rankbrain 真的有帮助吗?

尽管上面的两个例子无法当作让人信服Rankbrain 强大的证据,但我真的相信他可能正产生巨大的影响,就如同Google 所说的那样。 Google 对于排名演算法是相当保守的。他总是在做些小测试。但当他有足够的信心时,就会展开很大的改变。

到了一般相信是第三重要讯号的地步,整合Rankbrain 是一个巨大的改变。我认为是因为他真的有帮助Google 才会这么做。

Rankbrain 什么时候开始呢?

Google 告诉我们Rankbrain 在2015 年初会逐步的展开,而现在已经在全球展开数月了。

什么搜寻字词会被影响?

Google 告诉彭博有一「大部分」的查询交由Rankbrain 处理。我们问了Google 想要一个精确的数字,但我们还是得到一大部分这个答案。

Rankbrian 会一直学习吗?

Google 告诉我们,Rankbrain 的所有学习都是离线的。他被给予批次的历史搜寻纪录并从中学习做出预测。

那些预测都会被测试,如果预测被验证是对的,最新版的Rankbrian 就会开始使用。而离线学习及测试的循环会不断的重复。

Rankbrain 能做查询优化之外的事吗?

通常查询如何优化,透过stemming 、同义字或是现在的Rankbrain 都被认为不是排名因素或是讯号。

讯号通常跟内容有关,像是一个页面上的字、连结指向到一个页面、页面是否在安全的伺服器上等等。他也可能是跟使用者有关,像是使用者的地点或是他们搜寻及浏览的历史纪录。

所以,当Google 谈论到有关Rankbrain 做为第三重要的讯号时,他真的被当作一个排名讯号吗?是的。 Google 重新向我们确认有个元件,Rankbrain 会以某种方式直接影响到网页排名。

究竟如何呢?是否有一些「Rankbrain 分数」类型可以用来评估品质呢?或许有,但他似乎更像是这样,Rankbrain 以某种方式帮助Google 根据网页内容来分类的更好。 Rankbrain 或许比Google 目前的系统更能够总结归纳网页。

或者根本不是这样。 Google 除了关于排名元件之外,其他什么也没说。

我要如何更了解 Rankbrain?

Google 告诉我们,想了解关于「向量」这个字的人– 字和片语在数学上是有所连结的– 应该要来看看我们部落格的文章,这篇文章谈到这系统(文章中还没被命名为Ranlbrain)如何藉由扫描新闻学到都市的概念:

PCA

有一篇很长的搜寻论文是依据这所写的。你甚至可以用Google 的word2vec 工具来建立你自己的机器学习计画。除此之外,Google 有一整区关于他的AI 跟机器学习的论文,微软也有。

回复 取消