SEO案例:SEO是如何依赖技术分析的

我前面的文章,都是从技术角度出发来做SEO的。这篇文章就再举几个例子,来说明一下做SEO为什么要依赖技术分析的。另外写这篇文章还出于我一直以来的一个想法,就是我一直都很想赞扬一下07年之前阿里巴巴某些做SEO的同事,他们很早就在SEO领域做出了非常多好的实践,也给网站做出了很大的贡献。

07年以前的阿里巴巴,经过几年的努力,已经把SEO做到了一个很高的境界。大家那时可能还只关注国内中文版的阿里巴巴,称“google是阿里巴巴的站内搜索引擎”。其实阿里巴巴国际站在国外同行当中的表现要更加优秀。当时很多产品类词语,排在首页的10个结果当中就可能会有6个是阿里巴巴国际站的。

当时领导SEO团队的人员是做技术出生,所以大家大量借助技术手段来分析和解决SEO当中出现的很多问题,取得了很好的效果。

因为涉及到现有的业务,只能说几个不那么敏感的例子。

Google 网站管理员工具刚出来的时候,我们网站有很多频道都验证不了那个google需要你上传的文件。工程师那边帮助查了很多问题,以为是什么跳转之类的没有做好。查了很多资料,也没有找到特征吻合的相关解决办法。而meta验证的方法因为技术上有一点问题做不了。

所以我们SEO团队就帮工程师去找问题。我同事瞿波不一会就找出问题出在什么地方了,原来问题出在泛解析上。

具体的过程是这样的:

用了泛解析的url,无论你把url组合成一个什么样子,都会有一个正常的页面给你的。比如:如果你网站的根目录下用了泛解析,http://www.xxxxxx.com/a.html 这个url是你网站本来正常的url。那么你随意的输入一个本来不存在的url 如 http://www.xxxxxx.com/adasdsadw.html  甚至 http://www.xxxxxx.com/@####¥¥.html  ,网站CMS返回的都是一个正常的页面。

这在一个大型网站中,很多地方出于业务需要,都是这么处理的。但是这样做,在“网站管理员工具”的验证方面就一定不能通过。为什么呢?

因为这样谁都可以把这个网站加到自己的网站管理员工具中。比如:www.made-in-china.com 根目录如果用了泛解析,我把这个网站添加到我的“网站管理员工具”里,系统要我验证一下 http://www.made-in-china.com/google15c03c9b508311f6.html   这个文件是不是存在的时候,因为有泛解析,这个文件是一定存在的,那么我就成功把这个本不属于我的网站加到我的“网站管理员工具”里了。我可以随意更改里面的很多设置。

而实际上这样的情况是不会发生的,因为google不光会验证你上传的文件存不存在,还会验证一个不应该存在的文件是不是不存在。google验证完你上传的文件后,接着会模拟一个叫做 google404errorpage.html 的页面是不是不存在。google觉得你网站根目录下恰好存在一个名叫google404errorpage.html的几率是零,所以如果检测下来发现你这个页面也存在的话,那就不能验证通过。google这个时候已经知道你这是因为泛解析导致的缘故。出于保护你的网站,google不会让这个验证通过。

上面的这个分析过程,在公开的渠道里是找不到的。现在在《google网站质量指南》里也只是让你给不存在的页面返回 4xx 状态码而已。

http://www.google.com/support/webmasters/bin/answer.py?hl=cn&answer=35638

而且这个规则也是最近加进去的。以前,根本找不到相关的资料来参考。

那我的同事为什么一下子就找到问题在哪里了呢?那是因为服务器的log日志里一定会记录google验证的这个过程的,把相关目录下、某个时间段的log日志调出来查看就可以看到了。

如果没有LOG日志分析,谁能想得到还有这么一个过程在里面呢? 至今,还有很多网站验证不了这个文件的,现在就可以看看有没有这个泛解析的问题,或者去分析log日志看看。

还有一次,网站改版后,网站流量骤然下降了。我们知道影响SEO流量的因素有很多,那到底是什么原因导致流量下降呢。我以前的主管BEN通过自己的分析,觉得是url出了问题。

当时的url是这样的: http://www.alibaba.com/bin/buyoffer/mp3.html

我想很多人都不会觉得这个url有什么异常。但是在当时,这个url有一个致命问题的。

在02年google的爬虫还不是很成熟的时候,为了避免陷入死循环,爬虫不光会对那些有多余参数的url抓取量减少,还会对某些特定的目录不抓取的。这样的目录中,就有 /cgi-bin/  以及类似的 /bin/  这样的目录。学过CGI语言的人都知道,/cgi-bin/这个目录下是放置cgi程序的地方,这种目录下进行抓取是没什么意义的。/bin/这个目录也是其他很多系统或者语言默认的文件夹名称,这些目录下都不存在google应该抓取的页面,所以搜索引擎就屏蔽了这样的目录抓取。而偏偏我们定义的文件夹名称就是/bin/,google是不会抓取这个目录的。

之后,把这个目录名称改为/trade/,流量马上就恢复了。如今,百度也在robots文件的用法中,就拿/cgi-bin/这个目录做了例举。 http://www.baidu.com/search/robots.html

我相信这样的问题即使放到现在,也没有人敢怀疑是google本身出了问题。有些人还会从上百个因素里找一个看似很合理的原因,导致真正的原因被掩盖了。但是ben通过技术分析并实践,却得出了让人信服的结论。类似的事情,我后来也碰到过好几回,因为有他们的经验在鼓舞我,使我也做了一些让别人不能理解,但是却给网站带来很大流量的事情。

技术分析在和竞争对手抢流量的时候,也是竞争力之一。举一个不那么恰当的例子:

sitemap.xml刚出来的时候。我们自己制作好了sitemap.xml文件,但是毕竟这么大型的sitemap文件谁也没有做过,特别是里面权重的设置在一个大型网站来说是很有讲究的。所以我们就想参考一个国外主要竞争对手的文件。一开始通过一个方法拿到了他们的文件地址,但是怎么也打不开那个链接,老是返回404错误。通过国外的代理服务器去访问也是这样。最后,通过模拟google爬虫才能正常的访问这个文件。 原来同样非常重视SEO的这个对手,为了让自己的sitemap.xml文件不被其他人看到,只有对那种user-agent是google爬虫的访问才显示这个文件,由于浏览器的user-agent是很容易判断出来的,就拦截掉了浏览器的访问。

怎么样去学SEO》一文,讲述了学SEO要从了解网站和搜索引擎相关的技术开始。而这篇文章就是让大家看看具体是如何应用的。阿里巴巴最早做SEO的那批人,早在国内还不知道SEO是什么的时候就已经涉及到了诸多技术问题,并马上取得压倒性的优势。虽然现在他们因为某些原因都没有在做SEO了,但是他们给网站的贡献是非常大的。我个人的观点: 从某方面来说,是SEO成就了alibaba。



49 Responses to “ SEO案例:SEO是如何依赖技术分析的 ”

  1. apple 说:

    沙发啊!

  2. 炫盾 说:

    做了这个实验,发现确实设置404错误页面后,在日志里确实读取不存在的页面可以返回200这个文件存在的正确代码,想不到google如此细心,呵呵,说明咱还是不够严谨啊,要学习学习!
    另外如果可以的请和我交换连接,我的站在搜索引擎里很健康,我很喜欢你的blog,已作你的连接,请检查

  3. 我@soho 说:

    国平的文章比国内N多自诩大师的人都来的实在。

  4. lowkey 说:

    国平的文章看过之后每次都会有一种顿悟的感觉。每日准时关注,继续挖掘,嘿嘿~~!

  5. 朝阳飞燕 说:

    中秋快乐!

  6. guest 说:

    泛解析那个说法不严谨,成立的条件是泛解析+绑定空主机头。

    我的好几个站点都是泛解析的,都能通过验证。

    • 国平 说:

      此非彼

    • guest 说:

      你应该仔细深入研究下这种情况发生的原因。
      绑定空主机头 和 使用了url rewrite都是不可缺少的。
      一个域名如果只是启用了泛解析,在google网站管理员工具那是可以通过验证的,但是如果同时使用了上面两者,才会发生任何一个页面都存在的情况。

      • 国平 说:

        确实是还需要 url rewrite
        是多种处理方法的结合
        在我们内部,把整个这套处理方法叫泛解析
        这是不够严谨的地方

  7. 药膳 说:

    谢谢 国平的中秋礼物~!
    看来seo的数据分析非常重要~!
    尤其是分析日志~!还有了解爬虫的原理~!
    以及GA数据的统计分析~!
    这3方面做好 算是中等水平吧~!

  8. ali 说:

    很深刻。

  9. Ellision 说:

    实践出真知啊~ 恩,不错

  10. 幸福深处 说:

    学习,又懂得了一些。

  11. 核桃 说:

    恩,关于URL处理方式,关于google验证文件,关于目录名称这些都是要重视的。

    google验证文件那个,很多站点是在空间面板设置过404错误页后,也会出现无法验证的问题。
    不过原理上应该是这篇文章中的分析是一样的。
    如果google在我们下载的文件中加入一些独有的页面内容,不仅仅以文件名来进行验证,这种问题应该就会解决了。

  12. linker 说:

    我老喜欢这篇文章啦!

  13. enjoy 说:

    文中的泛解析的说法不正确,这个问题和泛解析没有关系。你说的不存在的页面会返回”正常的页面”,是因为服务器端做了404处理。

    • 国平 说:

      非404处理
      并不是把一个固定的404页面 返回200这样处理的
      是大型网站出于业务需要做得一些处理,每次返回的是不同内容的200页面

      这里说的泛解析不是一般说的那种泛域名

  14. 帽子 说:

    嗯,要重视技术数据的分析

  15. KSEO 说:

    学习了。。。。

  16. 小彭 说:

    经典。技术成就了alibaba

  17. mars 说:

    好文!

  18. 啊聊 说:

    好文章,看一篇新文章,成长一个阶段

  19. 好专业,还得多学习

  20. liuzd 说:

    例子很实在,说出来很简单,但当时能想到不能不叫声“高”

  21. izon90 说:

    文章用实例讲解SEO。很好。如果多一些这样的文章,博主可以出一本这样的书。一定大卖。

  22. 呼吸 说:

    谢谢国平的分享,发现了自己在SEO上突然有很多待提升的东西

  23. 子曰 说:

    菜鸟过来学习下~~

  24. bnnet 说:

    确实很实在

  25. cave 说:

    google觉得你网站根目录下恰好存在一个名叫google404errorpage.html的几率是零?
    不太懂

  26. 愣娃娃 说:

    每次看到你的文章的时候,我总有想睡觉的感觉

  27. 至尊宝狼 说:

    拜读过,留言支持楼主。
    楼主推荐《搜索引擎营销》07版的,
    朋友已经给我邮来,正在阅读。谢谢

  28. 老白 说:

    确实我遇到过这个问题 ecshop 最后我是用了土办法解决的
    先删除所有的网站程序内容就丢一个纯净的index.html 然后紧接着通过验证咯 我再复制回程序

  29. 家铭 说:

    来晚了,今天才来

  30. kichi 说:

    国平:
    这个泛解析 不是看的特别明白呢。

    我发现做的好的SEOer都是有相当实力的技术背景。至少要对基本技术架构有个很全面的认识。

  31. LV 说:

    越看越觉得自己什么都不懂啊

  32. 魅族溜 说:

    学习了。。。好老师。

  33. 酷点桌面 说:

    很久以前试着分析过爬虫,后来就放弃了,看来这块还必须重视起来!

  34. hong kong 说:

    我老喜欢这篇文章啦!

  35. 网络传真 说:

    学习之用.网络传真

  36. 2010排行榜 说:

    2010排行榜恭祝你的博客越办越好,TOP上榜,好运滚滚来

  37. 上海SEO 说:

    非常不错,感谢分享。

  38. foreveradog 说:

    Very good well informed ty you for the information. From the guys at Bloggles

  39. Wish 说:

    SEO成就了阿里巴巴,我希望SEO也成就我们中国站长一代

  40. rzwzw 说:

    很有代表性的好文章

Leave a Reply