google Caffeine(咖啡因) 更新了什么

很多人很关心google Caffeine的更新,有些猜测说是为了应对bing的突起而做的改动。

前面讲了很多理论,那这次我们来实践一下,从搜索引擎的角度,来判断一下google Caffeine到底更新了什么。

先看google官方的解释:  http://googlewebmastercentral.blogspot.com/2009/08/help-test-some-next-generation.html  (需要翻墙)

我觉得,这次改动主要是重写了搜索引擎的底层架构,涉及到爬虫、索引库、排序规则等等很多方面。提升的方向主要是google一直以来追求的速度,而速度的提高会进一步带来准确性和全面性的提升。

Google是一个对速度的追求达到了变态的地步的公司。他们的价值观之一就是“速度为王”。举好几个例子:你可以在google首页看到,所有的代码被压缩成几行,因为这样能提高加载速度,甚至在代码变量的命名上,都是坚持能用1个字母的就不用2个字母的原则;google非常多的产品大量应用AJAX技术,就是为了在速度上更快一点;在google的历史上,曾经想把搜索结果首页的默认条数从10条增多到30条,用户也乐意接受这个改动,但是测试下来,发现这样会拖慢0.5秒的速度就放弃了。

追求速度不光是为了用户打开页面快而考虑的。我相信google在98年就开始意识到这样一个瓶颈问题:摩尔定律描述了每隔数年计算机的硬件水平就翻倍。而互联网上的信息,也是这样一个规律。有人甚至说是每隔9个月互联网上的信息量就翻倍。搜索引擎要保证一个基本的信息查全率,就需要能跟上这种信息暴增的速度。

阅读这篇文章的剩余部分 »

《搜索引擎营销—网站流量大提速》08版的中文版即将上市

要特别感谢网友 wyw 提供的消息。他联系了这本书的译者 董金伟老师,得到答复说数月前书稿已经交给出版社,08版即将上市销售。 我也发邮件去询问了一下,董金伟老师特意去出版社确认过,得到的消息是:国庆期间这本书就可以上架销售了。

所以大家可以再等几天就可以买到08版的中文版了。

另外,我很想和大家更多的在线下交流,以后有大家什么聚会的话就可以叫上我。国庆假期我会在宁波。

MSN : guoping.zhanggp@hotmail.com

分词与索引库

分词是很多做SEO的人常听到的概念,为了让大家在这个方面不会有疑惑,现在要来讲一下分词以及索引库。这也是更深入的了解搜索引擎的开始。

搜索引擎每天都是在处理一个基本的需求:用户搜索一个关键词,搜索引擎马上找到相关的网页给用户。这个过程要怎么实现呢? 下面就分步来了解这个过程。

首先搜索引擎要尽可能多的把互联网上的网页搜集下来,这样能提供大量的网页给用户查询。这一部分由爬虫来解决,顺着互联网上的链接一个个往下抓取。最后就有了一堆记录着网页各种信息的资料库。目前的现状,最后能使这个资料库里有大概100多亿个网页。资料库里记录了这些网页的URL,整个网页的HTML代码,网页标题等等信息。

然后,搜索引擎拿到用户输入的这个关键词后,要从这个资料库里把相关的网页找出来给用户。这里就碰到好几个问题了:

阅读这篇文章的剩余部分 »

怎么样去学SEO(三)

SEO新手入门,学习资料我只推荐一本书、一个网站。

一本书是《搜索引擎营销:网站流量大提速》。

此书的作者之一就是我常说的 Mike Moran,研究搜索引擎技术20多年的人。这个书的中文版只有2006年那版的,后来的更新版本只有英文版。最新版本的购买链接http://www.mikemoran.com/ 。(后注:2009年10月,这本08版的中文版也已经出版,淘宝上有售。)

这本书完整讲述了搜索引擎营销的过程和方法。对于有些人来说,这本书好像平淡无奇,那可能是因为受一些错误观点误导太久的缘故。真正的SEM方法,没有秘籍,一开始就是那么简单,但是要深入下去就很复杂。我当初拿到这本书的时候,是用一天一夜的时间连续不断看完的,之后又反复看了20几遍。因为我看到一些我辛苦总结的东西,作者一笔带过就讲清楚了。这本书很厚,即使SEO已经从业很久的人员,这本书相信精读下去你还是不断会有收获的。

这本书还有很特别的一点,就是专门花一个章节来讲述你如何向你的老板和你的同级部门去推销你的SEO方案。因为即使是现在,在一个大中型网站里要说服大家接受某些SEO改动还是很费精力的。

其实有很多好的SEO教程,本来我以为只有我力捧这本书的,没想到有一天拥有11年SEO经验Stephen 也跟我极力赞扬这本书。他很少这么推崇一本书的,所以大家快买来看看吧。

阅读这篇文章的剩余部分 »

怎么样去学SEO(二)

在学习搜索引擎的相关技术和原理的时候,特别要注意研究爬虫。这也是从常识出发来想的:搜索引擎和网站之间,是爬虫把他们连在一起的。这就是我那么执着于研究爬虫的原因,所以博客里有好几篇都是介绍爬虫的。还写了一些与之相关的:nofollow, URL静态化等等。

一个SEO同行也认可这种方法的。今年,我们另一个部门的领导在参加美国SMX大会的时候,碰到了一个以前在google工作了8年、现在辞职做SEO顾问的人。那个顾问给的意见就是:SEO要站在搜索引擎的角度来看待问题;然后把网站的技术问题解决好;那些技术问题,不是可有可无的,而是不掌握就不能开始做SEO的。我听到这个转述,真的毫不怀疑他确实在google工作过8年的人。大家还可以在《google网站质量指南》里多看看,无处不充斥着很多技术问题。

很多优秀的SEOer,都在各自独立做SEO,但是最后大家都殊途同归、都在朝正确的方向走的。这是因为他们对这些常识有了解,知道怎么走是不会错的。对常识的了解深到什么程度,你就能有优势到什么程度。其他一些一线的SEO,在这些常识的基础上做得既大胆又创新,连我这个对手都不禁要为他们喝彩。

我基于对搜索引擎技术的学习,使我都非常想和google的人交流,因为我明白他们设计某些规则的思想,以及碰到的问题,有时候觉得自己说不定也能给他们提供一点解决方法。在08年4月厦门的SMX大会期间,我就和朱建飞单独聊了一个半小时,主要谈他的本行-anti spam。我相信他那时是非常愿意和我谈并且印象深刻的。

阅读这篇文章的剩余部分 »