URL的问题是SEO过程中的一个基本问题,做一个新网站也好,优化现有的网站也好,都绕不开这一点。这两篇文章就来大体总结一下URL的规划应该怎么做。
在开始讲这些问题之前,需要先阅读完以下文档:
这些都是google官方的文档,讲述了各种各样的规则。这些对百度也是同样适用的,因为它是针对爬虫的特性提出来的,并不是只有某个搜索引擎才适用。
看完上面的那些这些规则,发现翻来覆去讲得都是怎么让爬虫能非常顺畅的抓取完整个网站。其实绝大部分网站都存在这样或那样的问题的,也包括我这个博客,在抓取方面也存在一些问题。但是看在每篇博文都能被收录的情况下,也就不去优化了。但是对于很多收录还成问题的网站(特别是大中型网站)来说,就要好好规划一下了。大家可以用HTTrack抓取semyj这个博客看看,就能发现为什么我这么说了。(谁能一天之内抓取完这个博客的人请告诉我。)
尽管SEO在中国已经不陌生,甚至都有形成一个行业的趋势,但是至今业内都还没有一套非常科学系统的分析方法。原因恐怕要归结于搜索引擎优化这个行业的特殊性。搜索引擎严格保守他们的算法,只公布一些大家很难去知道原因的指南。所以很多SEOer都在玩一个永远也不知道具体规则的游戏,这是这个行业混乱的根源。
我多次强调《google网站质量指南》的重要性,还因为这是搜索引擎告诉网站主的仅有的一些正确的规则,如果连这点规则都不好好掌握,那我还不确定大家能从什么地方得到更权威的指导。但是在实战中,尽管你熟读这个《指南》已经比很多人更了解搜索引擎的规则,不过仅仅知道这点东西是不够的,一套科学系统的分析方法能让你走得更远。
我想SEO经过了这么多年的发展,已经不应该再出现那种靠感性分析去做SEO的分析方法了。这种分析方法常用的语句就是:我觉得搜索引擎会如何如何。如:我觉得搜索引擎不会那么笨,这点一定能处理好;我觉得搜索引擎会把这个因素当作排名的因素之一……。如果你是依靠感性分析去做SEO的,那你的SEO流量的变化曲线也是很感性的。当然更不能去无根据的臆测和道听途说。如:没有理论基础的去猜想搜索引擎会怎么样或者每逢搜索引擎的相关人员以及什么权威人士发表什么演说,就去盲目听从。
这篇文章承接上篇《热门还是长尾?大中型网站的关键词优化策略》。明白了长尾效应在一个大中型网站中的作用后,还需要明白内外部链接谁更重要。
在搜索引擎上,去获取流量的最基本单位就是网页。一个网页的外部链接因素,对这个网页的排名影响很大。这个网页的外部链接,既有同一个网站的其他页面给的站内链接,也有其他网站上的网页给的站外链接。下面文章里的内部链接是指站内链接,外部链接是指站外链接。那么在优化一个网站的时候,是特别注意优化内部链接还是外部链接呢?或者在分析一个网页排名的时候,是觉得内部链接贡献的价值大,还是外部链接的价值大?
长久以来,大家都非常重视外部链接。源于那么一个说法,那就是:一个网站你自己说你的网站里有什么是不算数的,要别的网站说你这个网页里有什么才算数;相对于你自己如何评价自己,别人的评价才更准确。 所以很多人在做一个页面的排名的时候,只做一件事情,就是疯狂的给这个网页做外部链接。而内部链接呢,很多人认为不重要或对排名影响不大。
这种说法应该是有人从PR值的计算方法发展而来的。因为在PR值的计算理论里,影响一个网页PR值的是这个网页的外部因素。当扩大到整个网站的时候,有人就认为影响这个网站整体排名的因素来自于其他网站。其实这个说法有一个明显的误区,就是没有明白网页和网站的区别。别说PR值和排名没有直接的关系,就算在PR值的计算理论里,向来也只有网页才是被计算的对象,而不是整个网站。列在搜索结果页面的,也是一个个的网页。
那如果一个网页同时有10个外部链接和10个内部链接,谁对排名的影响大呢。我们再来看那个“外部链接的评价更准确”的理论。其实这个理论要成立是要有一个前提的,那就是互联网上所有的网页都是不值得信任的,要靠这些网页彼此之间的关系才可以确定谁更重要、谁的内容更和什么关键词相关。这在一个搜索引擎建立的初期,是非常科学的方法。但是,搜索引擎发展到现在,积累了大量的数据,环境也不一样,那很多问题都要重新审视了。Matt Cutts曾经说过google不会停止对PR值的改进,其实更多的其他改进也是如此。而百度的超链分析法,在面对如此泛滥的群建链接的情况下,也会做出相应的修改的。
接下来的两篇文章,会讨论网站是选热门关键词还是长尾关键词,以及应该注意内部链接还是外部链接。
相信很多SEOer都有这样经历:开始做一个网站的SEO的时候,都是先选一些计划中要排名的词语,希望藉由这些词语在搜索引擎上获得大量的流量。在这些词语中,有些人选的是些热门词;有些人明智一点,是一些在当前的能力下能做到的适当热门的词语。在接下来的过程中,会集中很多的“资源”来做这些这些词语的排名。包括在title中适当的重复这些关键词;突出这些关键词的密度;外部链接指向这些关键词页面等等。不过,在计划中的词语还没有排名的时候,很多人会发现网站其实已经有一些SEO流量了。而去分析流量就会发现,流量几乎都不是计划中的这些关键词带来的,而是各种各样奇怪的长尾词。等到计划中的关键词有好的排名的时候,根据网站的不同,有些网站可能大部分流量靠那些热门关键词贡献,而有些网站则不然。
那么,在做一个网站的SEO关键词优化的时候,是把精力偏重放在做热门关键词还是做长尾关键词呢?
为了看清楚这个问题,我们需要来看看用户使用搜索引擎的现状。
不需要太多的数据参考,可以回想我们自己或者周围其他人使用搜索引擎的情况,就会发现:
已经有很多网友问我百度如何优化了,不过我一直不清楚如何来写更合适。
有好几个原因。首先是,很多知识,我不先介绍一下的话,到时候我写出来大家不容易理解。就如我博客刚开的时候,我就想写《SEO案例:锚文本、关键字、nofollow、Web标准化》这篇文章,但是如果一开始不讲一下为什么要重视锚文本、如何选关键字、nofollow的作用、为什么要标准化的话,很多人可能会觉得我只是讲了一个特别注意细节的案例。
所以我会先把google的优势讲明白,把搜索引擎是怎么运作的讲明白,然后才能把如何做百度优化讲明白。我博客里的很多文章都是从google的角度出发来讲SEO的,但是你都可以思考一下同样的事情要是百度来处理的话,会如何去解决。
第二个原因就是百度优化和google优化在技术上有80%是相似的,所以不用特别的区分是百度优化还是google优化。而且,做一个网站的SEO工作,那些流程和方法都是一样的。说起相似性,你就可以看到:一个在google上排名很强势的网站,在百度上也会有不错的排名。还有,百度前几年不是一直宣称google侵犯了百度在超链分析法上的专利吗,虽然很荒谬,但是可以看出百度也是注重外部链接的。而且现在还有一个趋势就是,百度在算法上越来越模仿google。
另一个原因就是其他方面的。互联网的圈子其实很小,百度排名确实有一些技巧,但是我今天在这里说明的技巧,明天大家就不能用了。
很多人很关心google Caffeine的更新,有些猜测说是为了应对bing的突起而做的改动。
前面讲了很多理论,那这次我们来实践一下,从搜索引擎的角度,来判断一下google Caffeine到底更新了什么。
先看google官方的解释: http://googlewebmastercentral.blogspot.com/2009/08/help-test-some-next-generation.html (需要翻墙)
我觉得,这次改动主要是重写了搜索引擎的底层架构,涉及到爬虫、索引库、排序规则等等很多方面。提升的方向主要是google一直以来追求的速度,而速度的提高会进一步带来准确性和全面性的提升。
Google是一个对速度的追求达到了变态的地步的公司。他们的价值观之一就是“速度为王”。举好几个例子:你可以在google首页看到,所有的代码被压缩成几行,因为这样能提高加载速度,甚至在代码变量的命名上,都是坚持能用1个字母的就不用2个字母的原则;google非常多的产品大量应用AJAX技术,就是为了在速度上更快一点;在google的历史上,曾经想把搜索结果首页的默认条数从10条增多到30条,用户也乐意接受这个改动,但是测试下来,发现这样会拖慢0.5秒的速度就放弃了。
追求速度不光是为了用户打开页面快而考虑的。我相信google在98年就开始意识到这样一个瓶颈问题:摩尔定律描述了每隔数年计算机的硬件水平就翻倍。而互联网上的信息,也是这样一个规律。有人甚至说是每隔9个月互联网上的信息量就翻倍。搜索引擎要保证一个基本的信息查全率,就需要能跟上这种信息暴增的速度。
分词是很多做SEO的人常听到的概念,为了让大家在这个方面不会有疑惑,现在要来讲一下分词以及索引库。这也是更深入的了解搜索引擎的开始。
搜索引擎每天都是在处理一个基本的需求:用户搜索一个关键词,搜索引擎马上找到相关的网页给用户。这个过程要怎么实现呢? 下面就分步来了解这个过程。
首先搜索引擎要尽可能多的把互联网上的网页搜集下来,这样能提供大量的网页给用户查询。这一部分由爬虫来解决,顺着互联网上的链接一个个往下抓取。最后就有了一堆记录着网页各种信息的资料库。目前的现状,最后能使这个资料库里有大概100多亿个网页。资料库里记录了这些网页的URL,整个网页的HTML代码,网页标题等等信息。
然后,搜索引擎拿到用户输入的这个关键词后,要从这个资料库里把相关的网页找出来给用户。这里就碰到好几个问题了:
SEO新手入门,学习资料我只推荐一本书、一个网站。
一本书是《搜索引擎营销:网站流量大提速》。
此书的作者之一就是我常说的 Mike Moran,研究搜索引擎技术20多年的人。这个书的中文版只有2006年那版的,后来的更新版本只有英文版。最新版本的购买链接http://www.mikemoran.com/ 。(后注:2009年10月,这本08版的中文版也已经出版,淘宝上有售。)
这本书完整讲述了搜索引擎营销的过程和方法。对于有些人来说,这本书好像平淡无奇,那可能是因为受一些错误观点误导太久的缘故。真正的SEM方法,没有秘籍,一开始就是那么简单,但是要深入下去就很复杂。我当初拿到这本书的时候,是用一天一夜的时间连续不断看完的,之后又反复看了20几遍。因为我看到一些我辛苦总结的东西,作者一笔带过就讲清楚了。这本书很厚,即使SEO已经从业很久的人员,这本书相信精读下去你还是不断会有收获的。
这本书还有很特别的一点,就是专门花一个章节来讲述你如何向你的老板和你的同级部门去推销你的SEO方案。因为即使是现在,在一个大中型网站里要说服大家接受某些SEO改动还是很费精力的。
其实有很多好的SEO教程,本来我以为只有我力捧这本书的,没想到有一天拥有11年SEO经验Stephen 也跟我极力赞扬这本书。他很少这么推崇一本书的,所以大家快买来看看吧。
在学习搜索引擎的相关技术和原理的时候,特别要注意研究爬虫。这也是从常识出发来想的:搜索引擎和网站之间,是爬虫把他们连在一起的。这就是我那么执着于研究爬虫的原因,所以博客里有好几篇都是介绍爬虫的。还写了一些与之相关的:nofollow, URL静态化等等。
一个SEO同行也认可这种方法的。今年,我们另一个部门的领导在参加美国SMX大会的时候,碰到了一个以前在google工作了8年、现在辞职做SEO顾问的人。那个顾问给的意见就是:SEO要站在搜索引擎的角度来看待问题;然后把网站的技术问题解决好;那些技术问题,不是可有可无的,而是不掌握就不能开始做SEO的。我听到这个转述,真的毫不怀疑他确实在google工作过8年的人。大家还可以在《google网站质量指南》里多看看,无处不充斥着很多技术问题。
很多优秀的SEOer,都在各自独立做SEO,但是最后大家都殊途同归、都在朝正确的方向走的。这是因为他们对这些常识有了解,知道怎么走是不会错的。对常识的了解深到什么程度,你就能有优势到什么程度。其他一些一线的SEO,在这些常识的基础上做得既大胆又创新,连我这个对手都不禁要为他们喝彩。
我基于对搜索引擎技术的学习,使我都非常想和google的人交流,因为我明白他们设计某些规则的思想,以及碰到的问题,有时候觉得自己说不定也能给他们提供一点解决方法。在08年4月厦门的SMX大会期间,我就和朱建飞单独聊了一个半小时,主要谈他的本行-anti spam。我相信他那时是非常愿意和我谈并且印象深刻的。
我前面写的这些东西,很多看起来是很偏门的。不过我并不是故意挑这样的内容去写。这些东西,其实正是我想要很多SEOer去探索的。也都是我平常工作中会用到的知识和工具。
本来这篇文章我打算讲一下分词和索引库,但是写到一半,发现如果我不把怎么学SEO讲明白的话,有些人可能又觉得我写了一个偏门的东西了。 还有,上次网站备案的时候很多人想让我写一下怎么学SEO。所以这篇文章就讲一下怎么来学SEO。我希望这篇文章能广为传播一下,让很多SEOer意识到这些。
先定义一下,这里所说的SEO,是纯粹的指从搜索引擎获得大量优质的流量,把网站要实现的最终效果最大化。有些人把网站运营的内容也纳入到SEO范围,不过这篇文章不讨论网站运营的东西,尽管我是很建议大家把网站运营和SEO结合。