很多人很关心google Caffeine的更新,有些猜测说是为了应对bing的突起而做的改动。
前面讲了很多理论,那这次我们来实践一下,从搜索引擎的角度,来判断一下google Caffeine到底更新了什么。
先看google官方的解释: http://googlewebmastercentral.blogspot.com/2009/08/help-test-some-next-generation.html (需要翻墙)
我觉得,这次改动主要是重写了搜索引擎的底层架构,涉及到爬虫、索引库、排序规则等等很多方面。提升的方向主要是google一直以来追求的速度,而速度的提高会进一步带来准确性和全面性的提升。
Google是一个对速度的追求达到了变态的地步的公司。他们的价值观之一就是“速度为王”。举好几个例子:你可以在google首页看到,所有的代码被压缩成几行,因为这样能提高加载速度,甚至在代码变量的命名上,都是坚持能用1个字母的就不用2个字母的原则;google非常多的产品大量应用AJAX技术,就是为了在速度上更快一点;在google的历史上,曾经想把搜索结果首页的默认条数从10条增多到30条,用户也乐意接受这个改动,但是测试下来,发现这样会拖慢0.5秒的速度就放弃了。
追求速度不光是为了用户打开页面快而考虑的。我相信google在98年就开始意识到这样一个瓶颈问题:摩尔定律描述了每隔数年计算机的硬件水平就翻倍。而互联网上的信息,也是这样一个规律。有人甚至说是每隔9个月互联网上的信息量就翻倍。搜索引擎要保证一个基本的信息查全率,就需要能跟上这种信息暴增的速度。
现在搜素引擎的索引量和互联网上的信息量是这样的一种关系:

互联网和搜索引擎
理论上来说,有越来越多的信息是搜索引擎找不到了的。如:现在百度在收录速度上落后于谷歌,所以谷歌上能找到比百度更多更新的结果。
有这样一个现状在前面摆着,我想搜索引擎想不在意速度都难。google其实从一开始就知道如去做的。首先是有条不紊得增加数据中心的服务器数量,现在google所有数据中心的服务器加起来应该超过一百万台了,目前还在不断的修建数据中心。二是提升这些数据中心的效率。效率的提升有硬件上的也有软件上的。硬件上的就如:自己制造服务器,然后想办法提高每台服务器的速度和稳定性。所以google在服务器硬件上有很多自己的专利;软件效率上的升级也是一直都有的,但是近年来主要的精力应该是放在算法的调整上。我相信这么多年下来,google已经积累了很多底层架构上需要改进的地方,代号“咖啡因”的升级就由此应运而生了。所以不管有没有bing的发布,google都会做这样一个升级。
“咖啡因”的首要的改变会是改进爬虫的效率和提高索引库的速度。从表现上来说,“咖啡因”的第一个表现就是整个搜索引擎的索引量增加了。如果输入单词搜索,每个词语的索引量都增加了很多。搜索的速度也增加了,这是索引库也升级了的缘故。
还有一个我自创的方法,可以来看搜索引擎的整体索引量的。那就是在google.com输入“*a”去搜索。这个搜索的意思是把只要一个网页上有字母a或网页上某个单词里含有字母a的网页都找出来。当然一个网页在99.999%的情况下都有字母a的,所以这个符号的索引量约等于整个搜索引擎的索引量。
“咖啡因”刚发布的时候,用这个符号去搜索,发现 http://www2.sandbox.google.com/ 和 google.com 的索引量差距有80多亿左右。 而现在你去搜索,发现都是一样的数量,大概有254亿。

索引量对比
所以现在有一个结论是可以确定的:“咖啡因”抓取的那些页面,现在已经列入到google.com的索引库里了。
只要排序规则不变,有更多的网页参与排名,这对谁都好的,所以google马上就应用了。
索引量增加后,还有另一个最直观的感受应该是:搜索一些长尾词,会看到很多以前不在首页的网页冒了出来。
“搜索引擎的速度跟不上互联网信息的增长速度”这听起来很让人觉得沮丧。不过其实搜索引擎并不一定要追求把互联网上所有的信息都抓取下来的。只要把有价值的信息都能抓取下来即可。那么如何判断一个信息是有价值的呢?这也要依靠数据中心的速度。
现在搜索引擎上的主要问题,不是信息太少了,而是原创的、用户需要的信息太少了。想一想我们自己在搜索引擎上找信息,哪一次不是找遍大量的网页后才找到想要的信息的呢? 要让这些信息很容易被用户找到,基础就是数据中心的效率要很高。如:判断原创性的算法中,爬虫的效率和数据计算的速度提高了,判断原创性就更准确了。还有排序规则里很重要的链接因素,现在的google之所以能比其他搜索引擎更能给用户想要的搜索结果,来自于它3天就可以更新一次数百亿网页的速度,能计算这些网页彼此之间的关系。现在效率提高了,如果1天就可以update完一次,那计算出来的排序就更符合用户的需求了。
这次“咖啡因”的升级应用起来以后,那些依靠采集的垃圾网站会越来越没什么流量。搜索引擎已经索引了40%以上重复的垃圾信息了,而还有那么多有价值的信息等着去索引,如果你是搜索引擎,也会把原创性高的网页的重要性越排越高的。有时效性的网页也是。当然依靠人为制造大量外部链接在做排名的效果也会大打折扣。
不过我觉得,google还是会用更多的时间来测试这次改动。虽然本质上这次升级就是强化以前的一些理念。但是在一个这么大的系统里,这么一次脱胎换骨的改动会产生什么样的影响也还是无法预料的。
可以看到,爬虫、索引库、排序规则,无一不需要数据中心的速度更快。所以我在《分词与索引库》中说:google的数据中心,才是它的核心竞争力之一。google 也把速度快归结为自己成功的原因。
google一直以来都在拼命拉大和竞争对手的距离,已经形成了牢不可破的竞争壁垒。bing这个搜索引擎非常清楚这点,所以只有剑走偏锋,做一些google目前无法部署的事情。但是以后google“咖啡因”完善并上线后,一定又可以为google拿下几个百分点的市场份额。
做个沙发,慢慢看!
好像熟人很多啊!!
沙发!终于等到国平大哥发文章了。迫不及待地看…
看来要数据为王了!
哪个时候数据不是王的?
又学习了新东西。。。。谢谢
提高索引速率,比以权重判断原创更公正些吧。目前google的索引速率是其他搜索引擎无法比拟的- -
更新了吗,去看看。。。。
支持一下!
同时支持一下Google!
先顶了再看
由拜读到国平老师的文章了,看来以后靠做垃圾站做流量赚钱的达人们要头疼了···
搜索引擎已经索引了40%以上重复的垃圾信息了
不知道要over多少人了~!
看来今后的方向还是安心致力于内容的建设了
如果百度能跟上google多好…
唉….
恩,独到的见解,剖析的挺细致,当然如果从SEO角度来说能列出几条应对措施,理论+具体实践,那就更完美了
国平的文章没有一定的seo经验是很难消化的,我还在消化
能不能专门讲下百度方面的东西?
虽说搜索基本原理都是一样的,但是毕竟各家之中的算法差异还是蛮大的,对于百度方面的东西有可以拿出来讲的一家之言吗? 谢谢~
适当的时候会写的。
对于我个人来说,GG中文网站整体优化掌握还是可以的,很多细节通过很多的实践,拿捏的还算是准确,但是百度来说还是碰了很多壁,本身做的并不久07年暑假才开始接触SEO,但是发现GG的优化好一点,百度虽然也有很多案例,但是。。。90%以上都是死的快的那种,GG则能够长时间稳定保持,我并没有黑冒
Mulberry bush aside, would a monkey really chase a weasel?
[...] 参考例子引用的为国平同志的博客,可以作为一个博客优化的疏忽点来讲。 化解方式,在评论模板源码中将该链接加入nofollow属性,告诉Google,该链接不用搜索引擎进行爬行。 应该这样去注释该链接: <a href=”http://www.semyj.com/archives/528/comment-page-1#comment-805″ rel=”nofollow”>2009年09月27日于22:38</a> 本文出自:泽雅营销日志 原文链接:(http://wlyx.org/search-engine-optimization/basic-technology/mirror-image-page) [...]
等哪天goole兼并百度
哈哈
I have already seen it somethere…
怪不得GOOGLE排名掉了很多,很多关链词都找不到了,
有见解。可惜能像您一样愿意花大量精力制造精品的人太少。。
我就是那种把时间用在制造垃圾信息的人。 惭愧
有个性,人气很旺啊
每次看博主的文章都是那么见解,那么有个性。
我要仔细看看
我还是很怀疑对这个原创性内容的判断!
GG真好,是真正研究技术的东西,不像百度,哎
有了google。我的工作轻松多了。
[...] 《google Caffeine(咖啡因) 更新了什么》揭示了数据中心的效率是搜索引擎的命脉。而百度的数据中心无疑是没什么亮点的。经常性的当机和数据丢失,使国内的很多做SEO的人以为是自己的网站有了作弊问题而从搜索引擎消失了。一个大型的服务器集群,管理起来特别考验一家公司的技术实力。管理数据中心很像“打地鼠”的游戏,这边几个当掉的服务器刚刚解决,那边又有服务器当机了。google在这方面也遇到过很多问题,得益于他们的技术能力,现在都得到了不错的解决。虽然也有数据丢失,但是平均每份数据都有2份备用,所以在百度上出现的那种突然大量收录消失了的状况,在google上是很难见到的。 [...]
google fans
Obrigado por intiresnuyu iformatsiyu
[...] 速度作为排名要素之一,某种角度上讲,是必然的事情。国平大哥在一家之言的google Caffeine(咖啡因) 更新了什么 中讲到: 我觉得,这次改动主要是重写了搜索引擎的底层架构,涉及到爬虫、索引库、排序规则等等很多方面。提升的方向主要是google一直以来追求的速度,而速度的提高会进一步带来准确性和全面性的提升。Google是一个对速度的追求达到了变态的地步的公司。他们的价值观之一就是“速度为王”。 [...]
now I stay in touch!
还是不知道 该如何学习 seo
很茫然。。。
从 Google 原理?理念?
接触seo有一段时间了。却发现这不是我感觉的seo
我发现每看一篇文章都会有新的收获。以前看过的seo文章感觉都是表面的,而国平大哥的文章才是真技术。技术为王,我非常认可这一点。虽然自己对技术还不是太熟悉,以后会努力学习的!
很久没有来了,今天一起来学习一下关于SEO优化的问题。
很不错的博客,强烈支持一下,希望博主继续努力,分享更多的内容。
Good post and this fill someone in on helped me alot in my college assignement. Thanks you for your information.
Resources like the one you mentioned here will be very useful to me! I will post a link to this page on my blog. I am sure my visitors will find that very useful.
Thanks for sharing the link – but unfortunately it seems to be down? Does anybody have a mirror or another source?
я вот что скажу: спасибо. а82ч