“谷歌中文网站管理员博客”刚刚发表了一篇新文章,介绍了一下《google 网站管理员工具》中推出的新功能 -“网站性能”。这个工具是通过google工具栏记录了用户访问你网站的速度,并给出了很多加快你网站速度的建议。
http://www.googlechinawebmaster.com/2009/12/blog-post_30.html
而最近也传闻google将会把网页加载速度作为影响排名的一个因素。那么网页打开速度是不是能影响SEO效果?如果能影响,那是怎么影响的呢?
在揭示其中的道理之前,我希望大家能把上面那些传闻或“网站性能”的功能都忘掉。让我们追本溯源,来看看网页打开速度和SEO流量之间的关系。
做SEO有时候不需要听从别人给你的信息和意见,你只要专注于研究搜索引擎,同样也能成功的。这种关系的发现,也得益于早期我非常重视数据分析,所以我在《怎么样去学SEO(二)》中把数据分析能力列为SEOer应该具备的四大能力之一。由于有很多数据做支撑,现在我来给大家分析其中的联系,大家就容易看懂很多。
到了后期,连google也认识到了网页速度和SEO流量之间的关系,所以在这个“网站性能”以前就推出过相关的工具来帮助网站管理员。
要说明这种关系,就要从搜索引擎爬虫说起。不知道大家对于搜索引擎爬虫在一个网站上的行为有没有概念,我现在发一下某个网站(不是alibaba)的一些数据出来,大家就能意识到一些爬虫的特性了。下面是从服务器LOG日志中分析出的数据。

图1:爬虫访问次数
—-

图2:爬虫停留时间
从上面图1中可以看到google访问这个网站206次,这206次里面是由很多个不同的爬虫访问的。图2显示:有的爬虫一天之内来了8次,一共停留了2小时左右,有的爬虫来了1次,停留了20多个小时以上。所以这个网站是被很多个爬虫在不间断的访问的。为了计算方便,可以把google所有的爬虫停留在这个网站的总时间加起来。虽然一天只有24个小时的,但是google的爬虫这一天花在这个网站上的时间可能是成百上千多个小时。这里真实的数据是:在这个网站中,google所有爬虫那天在这个网站上花费的实际总时间是721个小时。
而服务器LOG日志里同样可以分析出爬虫在一个网页上的停留时间。如:

图3:爬虫停留时间
得到了这两个数据以后,用所有爬虫总的停留时间除以单个页面的停留时间,就是搜索引擎爬虫这天所抓取的页面总量。
721 小时× 3600 秒 ÷ 35 秒 = 74160 页
那么得到这个搜索引擎爬虫这天所抓取的页面总量有什么用呢?
对于一般的小网站来说,一天能被抓取 74160页是一个很不错数据。但是我上面给出的是一个中型网站,它整个网站的页面总量有800多万有SEO价值的页面。那么,在最理想的情况下,这些页面被搜索引擎抓取完要花费的时间为:
800万 ÷ 74160 页 = 108 天
这是理论上最理想的情况,实际上真实的情况为:
由于有多个爬虫在抓取网站,有很多的页面在一天之内是会被爬虫重复抓取的。有的页面一天之内被抓取20多次,有的页面一天之内只被抓取1次。通过 “停留总时间 ÷ 单个页面停留时间” 得到的页面数量,是没有去除那些重复抓取的页面的。所以搜索引擎一天之内实际抓取的不重复页面没有74160页那么多,而是40000页的样子。还有一点,爬虫今天抓取的页面,到了明天还有很多会被重复抓取。所以爬虫不光在同一天内会重复抓取很多页面,而且到了下一天还是会重复抓取前一天抓取过的很多页面。
这样下来,爬虫平均每天抓取不重复的页面数量就只有10000页的样子了。那么,要爬虫把这个网站所有的页面抓取完需要的时间为:
800万 ÷ 1万页 = 800天
其实,这个800天抓取完整个网站还是太理想化了。实际的情况是很多网站由于结构的原因,有些网页创建后4-5年,都还没被爬虫抓取过。
上面的这个分析过程,都没用到什么惊天动地的计算方法。只要你有一点数据分析的意识,就能看清楚事实的。当一个网站收录量不理想,大家就应该去看看那些页面是不是被搜索引擎爬虫浏览过。如果一个页面都没有被搜索引擎爬虫浏览过,是不可能会被收录的。一个网站的收录量没有上去,那SEO流量的提升就会有很大的一个瓶颈。
根据我们刚才上面的那个分析过程,要提升网站的收录量,首先要解决的就是搜索引擎每天抓取网站的抓取量。而:
抓取量 = 爬虫总的停留时间 ÷ 单个页面的停留时间
一个网站,爬虫总的停留时间在某个期间是保持相对固定的。当然,有方法提高爬虫总的停留时间,不过这不是这篇文章要讲的内容。我们先通过减少个页面的停留时间也可以增加爬虫的抓取量。
减少爬虫单个页面的停留时间,可以简单的认为提高网页加载速度就可以了,虽然实际上这两个因素之间还存在着一个对应关系,但是这里先不讲。这个时候,网页的加载速度就和抓取量之间有了一个正比的关系,网页加载速度越快,爬虫整个的抓取量就越大。抓取量越大,有效收录量就会增加,从而促使SEO流量增加,因为给一个大中型网站带来流量的,90%以上都是长尾词。大中型网站,有时甚至是小网站,只要收录量增加一定的百分比,SEO流量也会增加一定的百分比。网页的加载速度,就和SEO流量之间建立了一个这样的关系。
其实,google也知道网页速度和SEO流量之间的关系,所以早在“网站性能”这个功能推出以前,就推出了另一个功能让大家去用,那个功能就是“google 网站管理员工具”里的“抓取统计信息”。那里把爬虫对你网站的抓取量,和你网页下载的平均时间都列了出来。
如果大家平常注意观察这里面的数据就会发现这样的规律:一旦网站下载时间减少了,那抓取量就会增大一点。
一般小网站,这样的规律还不是太明显。因为有其他影响这个规律的因素存在,而且小网站页面数太少了,爬虫随便多增加几百页的抓取量就影响了50%以上的抓取量。但是在大中型网站,这个规律是非常明显的。如:
抓取统计信息
当这个网站加快了网页加载速度,爬虫的抓取量就稳步增加了。这个图表能很有利的证明上面提到的理论。
这个图表也再次证明了我在《google 的良苦用心:网站管理员工具》里说的:“google网站管理员工具里的每个功能都是和SEO相关的”。
关于网页速度和排名,google否认曾经将网页速度列为提高排名的因素。而 Matt Cutts 最近也说:In a nutshell – while slow page load times won’t negatively impact your rankings, fast load times may have a positive effect. 有人把它翻译成:网页加载速度慢,不会影响Google排名,但是网页加载快却对排名有积极作用。 其实这样翻译是没有理解这句话,Matt Cutts的意思是:网页加载速度慢,不会影响Google排名,但是网页加载快却有积极作用。拿掉以前那个翻译中的“对排名”三个字即可。至于其中的原因,我想通过这篇文章大家都理解了吧。
这也是为什么我要在《内部链接还是外部链接》里强调一下的:有时候是因为“你没有掌握到他们那么多信息,所以你无法理解他们的话。也不会推测出他们的潜台词以及他们没有说全的话而已。” 我其实很少关注Matt Cutts说什么,但是我看到那篇翻译的文章,就断定Matt Cutts不会那么说。
另外,这个文章中的LOG日志分析工具,在我最近建立的“新基地论坛”上有下载。不过那里需要论坛金币才能下载的。获得论坛金币最快的方法就是把你所拥有的好资源也贡献出来。我希望能用这个方法创造一个“人人为我,我为人人”的环境,做一个高质量的论坛。
空间终于恢复了,还看到新的一篇文章,还是沙发,感动…
这个软件怎么论坛里给的是英文的,能解释一下么?
是啊。。我下载了是英文的,国平大哥可以帮我们汉化下吗
我们不是不懂英文,只是不喜欢你蒙人。另外像楼下那人的那种格式的日志是分析不出来的
仔细看一下那个说明文件
哪位大侠能帮我看看这样的日志文件用什么工具可以分析出来啊,一般的都解释不了。
呜呜……~~~~~~
#Software: Microsoft Log Parser
#Version: 1.0
#Date: 2010-01-27 00:04:00
#Fields: LogFilename RecordNumber ComputerName SiteID DateTime ClientIpAddress ServerIpAddress ServerPort Method ProtocolVersion ProtocolStatus SubStatus TimeTaken BytesSent BytesReceived Win32Status UriStem UriQuery UserName
d:\iislog\W3SVC\ra100126.ibl 9020 Q-C4C57123591E4 880 2010-01-26 00:24:11 61.135.249.217 219.232.233.187 80 GET HTTP/1.1 200 0 281 14375 319 0 /e/DoInfo/ChangeClass.php mid=3 -
第二啊,感动
抢个位置
0101,我是三楼!
我在几楼?
人好多啊,大家都这么快的
都是好文章啊
网页加载速度慢不会影响关键词排名,但可能会使一些网页来不及收录或更新。是否可以这么理解:撇开客户体验的因素,对于一个小型网站来说,网页加载速度慢对SEO无关紧要。盼国平回复,谢谢!
网页加载速度慢,肯定会影响用户体验。如果一个网页或者网站跳出率太高,排名肯定会在后期下降。
第9楼
好文章不能不看
2010第一帖 哈哈
又是精品文章! 国平大哥的文章有数据支持,太令人信服。
另,我也非常希望新基地论坛越办越好,办成精品论坛!
恩 以后我要多了个任务了 天天逛新基地了
非常精彩的文章,突然觉得自己懂的实在太少太少。
还可以
终于更新了…回复后再看…
才更新,等了好久….呵呵
终于等到更新,打开一看,也怪不得国平这么久才更新,这篇文章凝聚了不少的心思啊!佩服!所有的站长的都这样写文章,还怕没流量吗?
楼主样本太少吧,我这边并未观察到如此必然正向正向关系,样本数量有10个左右独立的
一直关注大师
国平大哥终于讲网页速度和收录,从而影响流量的问题了。我也一直在想这个问题,今天得到确认了。呵呵。网页加载速度的提升和nofollow的作用应该是有类似的功效吧。
这里面还有一个重要问题,怎样减少蜘蛛的重复抓取?我以为SE会有一个算法,自动排除已经抓取过的URL,现在看来不是?蜘蛛这么笨?呵呵。
有些非重要页面或已经有过多内链接的页面在一些新的页面上可以不用链接,或去掉,或使用nofollow,不知是否可行?
“我以为SE会有一个算法,自动排除已经抓取过的URL,现在看来不是?蜘蛛这么笨?呵呵。”不是蜘蛛笨,而是重复抓取URL可以确认此URL是否还有效或是否进行过修改以便更正数据库
谢谢国士的提醒,可能是国平的弟弟吧?哈哈
看来的确有必要使用http头来提醒spider了。
另外,可以调整下网站的链接结构。
国平大哥可以说说蜘蛛的爬取顺序文章吗,如果说我在原有已被收录的文章加上链接引蜘蛛,比在新文章里面加链接引蜘蛛,那种方法更好了。
如果像国土大家所说的,重复抓取URL可以确认些URL是否有效或是否进行过修改,以便更正数据库,那说如果蜘蛛来爬取该点,是先收录文章后,对比以收录内容是否有更新后,在检测新更新内容,还是说随机爬取。
有人说过蜘蛛的广度优先抓取与深度优先抓取是否正确了
一出便是精品….
国平大哥,有个问题想请教下您:
对于运行多年的大中型网站来说,海量数据,加载速度都做的差不多,但这种大中型网站经常会碰到一个问题就是:网站收录量到了一定层次就会遇到瓶颈,收录量会变得非常缓慢(针对百度),遇到这种情况该怎么去处理?
论坛的登录似乎有点问题。
在IE下点击登录,登录框一直不出来。在FF登录后又退出来了。重复多次都是如此。
论坛昨天23点后有点问题,现在差不多恢复了。
这个分析太详细了。慢工出细活。
国平老师的文章真是让人受益匪浅,读后让我茅塞顿开,谢谢分享
看完留名
终于看见国平的新年礼物了!
好文!写的让人信服!
期待下一篇…
很好,如果能讲讲优化加载的具体手段就好了。
不管个人站长还是企业网站,如果服务器的带宽不能保证的话,seo只是空中楼阁!
扯远了吧,只是影响的因素,但不是决定因素。。。
想知道老兄用的爬虫分析是什么工具
你这个工具很好,我也用shell写的统计日志工具,比你这个可差远了,哈哈。
所谓的SEO专家是不可信的,更重要是专注研究搜索引擎,这个国平先生讲的非常正确。
好文章,收藏至网上生意实战社区.
恩强大- -
还是非常感谢,接下去想在国平博客中看到的文章是:
提高爬虫总的停留时间的方法,
还有如何尽量不让爬虫重复抓取(那样新收录的就没多少了)
国平大哥,以前你介绍过的一本搜索引擎技术的书叫什么了?
呵呵,跟我想问的一样,只怕要自己去想了。
那本书《搜索引擎营销:网站流量大提速》,很贵,且不一定能买到。
网上还有一本书:谷歌网站管理员指南,免费。呵呵
第一次认识到这些,谢谢老师了
是的,看了这些真正的明白到了,网页加载速度,会导致SEO的效果,但是更让我明白了,多去谷歌管理员后台,是非常有好处的!
学习之用.网络传真
好文章,转载一下。
今天我的网站访问速度变慢了很多,明显PV下降了很多。长期的话,关键词排名不保。网站访问速度好对SE还是很多利好的。
“人人为我,我为人人”
哈哈,巴不得。
老师.我来看了
国平大哥,我订阅了你的博客,祝你工作顺利!我一直在关注你的博客。
手头上什么资源也没,付钱可以不?
论坛有很多赚金币的方法的
看了国平的文章一定要顶,又学到新知识了谢谢。
请问一下你统计的网络蜘蛛排行的数据是否用的什么统计工具来查询的
没地方留言,就留在这里:不知道国平能不能介绍阿里巴巴作seo的团队?多少人,怎么个分工?
我来了。转走了哦。。呵呵、。。好东西
加载速度,,除了和网页程序架构有关系外,是不是最主要的还是和服务器的性能有关系。如果放在国外,速度肯定是不行的吧。。。。还是说加载速度就只和网站本身程序架构有关系?
谢谢@!
和硬件和软件都有关系
支持啊。。。
如果优化数据库的话能不能提高访问速度?
看了两遍了,只是稍微明白些。。。
以前大概也有这个意识,就是理不清思路,一直都没有太用心去挖掘这个数据
有两个问题:
1、某个爬虫的停留时间是怎么定义的?如果这个爬虫在凌晨1点访问了一次,在晚上20点又访问了一次,那么停留时间算多长?如果某天只来了一次呢?
2、见 图3,得到 google 爬虫 当天可爬行 74160 页(含重复 url)。但看图中的数据似乎 google 只有 32769 次访问。那么 3w 多访问为什么会爬行 7w 多的页面呢? 这个“访问”是怎么定义的呢?
还请老大解惑,谢谢!
一直很好奇象阿里巴巴这样的大站,GOOGLE收录应该是数十亿,或者百亿的级别的吧.
很厉害啊。。。分析的很认真。。。。
看来租个贵的虚拟空间是值得的
非常荣幸能看到博主无私分享的精华的文章!受益非浅,相见恨晚啊!
国平大哥,什么时候出个分析服务器日志的教程,以及针对大,中,小型网站如何入手去分析等相关的教程,非常期待!!!
看到你在论坛发的对服务器日志分析的软件,试用了一下,无比强大,面对如此浩繁的数据真有一种无从下手的感觉。
呵呵,好文章啊,这么详细的技术分析,不信都难啊
的确是好文章啊,本人是个seo初学者,希望跟老师多学习seo技术,我的网站还没有弄好,见笑啦!
我想网站打开的速度应该算进用户体验这块吧,现在的SEO应该更注重用户体验,更好的用户体验,更好的SEM!!!
请问在论坛上下载的怎么是英文的
LOL this is a funny place. I think You dont know what You are writing about. Better see some TRUTH on Saltydroid and stop whining like a clown.
用数据来讲道理,非常有说服力。感谢您的文章!又学到了很多
很不错的博客额,强烈支持一下,欢迎回访哦~
济南租房(esf.jnol.cn)来拜访过了,博客做的挺好,呵呵,谢谢博主辛勤分享。
大哥够详细的了
真详细。难怪换了一个服务器,收录增加。
好文!另可能观点和别的个人站长的不同,这不但列入了标准,我认为将来加强。一个网站的速度同样意味着用户体验,从谷歌的标准来看,这非常重要。作为一个SEOER,如果忽视这个,我想不出SEO还有什么意义。
Классно как то
получаеться … Подпишусь наверно на
rss.
分析得很透彻,读博主的文章每次都有大收获,谢谢
Hello! Please e-mail me your contacts. I have a question webmaster@bravto.ru” rel=”nofollow”>……
Thank you!!!…
每天对着那些爬虫数据都无从下手,国平大哥算是帮我指引了一条路,希望可以多分享一下数据分析方面的,谢谢~
今天看到国平的文章,犹如醍醐灌顶,以前一直处在迷惑状,今天终于才找到思路了!感谢!