如何规划好网站的URL(1)

URL的问题是SEO过程中的一个基本问题,做一个新网站也好,优化现有的网站也好,都绕不开这一点。这两篇文章就来大体总结一下URL的规划应该怎么做。  

在开始讲这些问题之前,需要先阅读完以下文档:  

这些都是google官方的文档,讲述了各种各样的规则。这些对百度也是同样适用的,因为它是针对爬虫的特性提出来的,并不是只有某个搜索引擎才适用。  

看完上面的那些这些规则,发现翻来覆去讲得都是怎么让爬虫能非常顺畅的抓取完整个网站。其实绝大部分网站都存在这样或那样的问题的,也包括我这个博客,在抓取方面也存在一些问题。但是看在每篇博文都能被收录的情况下,也就不去优化了。但是对于很多收录还成问题的网站(特别是大中型网站)来说,就要好好规划一下了。大家可以用HTTrack抓取semyj这个博客看看,就能发现为什么我这么说了。(谁能一天之内抓取完这个博客的人请告诉我。)  

还是先从搜索引擎的处境讲起吧。正如Google在文章中写道的那样:  

网络世界极其庞大;每时每刻都在产生新的内容。Google 本身的资源是有限的,当面对几近无穷无尽的网络内容的时候,Googlebot 只能找到和抓取其中一定比例的内容。然后,在我们已经抓取到的内容中,我们也只能索引其中的一部分。
URLs 就像网站和搜索引擎抓取工具之间的桥梁: 为了能够抓取到您网站的内容,抓取工具需要能够找到并跨越这些桥梁(也就是找到并抓取您的URLs)。
  

这段话很好的总结了搜索引擎所面临的处境,那么爬虫在处理URL的时候会遇到哪些问题呢?

我们先来看重复URL的问题,这里说的重复URL是指同一个网站内的不同页面,都存在很多完全相同的URL。如:  

http://www.semyj.com/archives/1097  和 http://www.semyj.com/archives/1114 这两个页面。  

模板部分的URL是一样的

模板部分的URL是一样的

虽然页面不同,但是他们公用的部分,URL地址是一样的。看起来如果不同的爬虫抓取到这些页面的时候,会重复抓取,从而浪费很多不必要的时间。 这确实是一个问题,不过这个问题搜索引擎倒是基本解决好了。实际上,爬虫的抓取模式不是像我们理解的那样看到一个网页就开始抓取一个网页的。  

爬虫顺着一个个的URL在互联网上抓取网页,它一边下载这个网页,一边在提取这个网页中的链接。假设从搜索引擎某一个节点出来的爬虫有爬虫A、爬虫B、爬虫C,当它们到达semyj这个网站的时候,每个爬虫都会抓取到很多URL,然后他们都会把那个页面上所有的链接都放在一个公用的“待抓取列表”里。(可以用lynx在线版模拟一下爬虫提取链接。)  

待抓取列表

待抓取列表

这样一来,在“待抓取列表”里,那些重复的URL就可以被去重了。这是一个节点在一种理想状态下的情况,不过实际上因为搜索引擎以后还要更新这个网页等等一些原因,一个网站每天还是有很多重复抓取。所以在以前的文章中,我告诉大家用一些方法减少重复抓取的几率。  

这里有一个问题,很多人肯定想问是不是一个网页上所有的链接搜索引擎都会提取的,答案是肯定的。但是在《google网站质量指南》中,有这样一句:“如果站点地图上的链接超过 100 个,则需要将站点地图拆分为多个网页。”有些人把这句话理解为:“爬虫只能抓取前100个链接”,这是不对的。  

因为在“待抓取列表”里的URL,爬虫并不会每一个链接都会抓取的。 链接放在这个列表里是没问题的,但是爬虫没有那么多时间也没必要每个链接都要去抓取,需要有一定的优先级。在“待访问列表”里,爬虫一边按照优先级抓取一部分的URL,一边把还未被抓取的URL记录下来等待下次抓取,只是这些还未被抓取的URL,下次爬虫来访问的频率就每个网站都不一样了, 每一类URL被访问的频率也不一样。  

按优先级抓取

按优先级抓取

那么在“待抓取列表”里的URL,哪些是能被优先抓取,哪些是被次要抓取的呢?  

我们稍微思考一下都能明白这个抓取的优先级策略应该怎么定。首先,那些目录层级比较深的URL是次要抓取的;那些在模板部分的或重复率非常高的URL是被次要抓取的;那些动态参数多的URL是次要抓取的…..  

这么做的原因,就是因为搜索引擎的资源是有限的,一个网站实际拥有的内容也是有限的,但是URL数量是无限的。爬虫需要一些“蛛丝马迹”来确定哪些值得优先抓取,哪些不值得。  

在《谷歌搜索引擎入门指南》中,google建议要优化好网站的URL结构,如建议不要用“…/dir1/dir2/dir3/dir4/dir5/dir6/page.html”这样的多层嵌套。就是因为在待抓取列表里,在其他条件相同的情况下,爬虫会优先抓取目录层级浅的URL。如用Lynx在线版查看本网站的页面:

抓取优先级

抓取优先级

如果说,在这17个链接里,爬虫只能选几个链接抓取的话,红色箭头所指的链接在其他条件相同的情况下是要优先的。

但是这里又有一个误区,有人在SEO过程中,把所有的网页都建立在根目录下,以为这样能有排名的优势。这样也是没有理解这个原因。而且爬虫在这个网站上先抓取哪些URL后抓取哪些URL,都是自己的URL和自己的URL比,如果所有网页都是在同一个目录下,那就没有区别了。

最好的规划URL目录层级的方式,就是按照业务方的逻辑来规划,从内容上应该是什么从属关系就怎么规划URL就是。就像《谷歌搜索引擎入门指南》中举的那些例子一样。

(顺带说一下。我经常看到,一个网站中,很多人非SEO的人员,如工程师和网页设计人员或者网站编辑,都以为SEO和他们做的事情是相反的。这都是因为长期以来一些SEOer经常提交很多明显违反用户体验的SEO需求给他们,造成他们以为SEO就是和他们做的事情是有冲突的。实际上,SEO和别的部门有非常少的冲突,只要你能用科学的方法去实践,就能发现以前有太多误导人的观点了。还有,对于其他部门的专业人员,他们专业领域的意见非常值得去考虑。)

爬虫有一个特点,就是它不能实时的比较它正在抓取的内容是不是重复的内容。因为如果要做到实时的比较,那它至少要把正在抓取的页面和那些已经在索引库的页面做对比,这是不可能短时间内可以完成的。 前面把所有URL统一放到一个待抓取列表中的方法只能避免那种URL完全一模一样的重复抓取,但是无法应对URL不一样、但是内容一样的抓取。  

正如所有搜索引擎都强调的那样,动态参数是一个经常产生URL不一样、但是内容一样的现象的原因。所以搜索引擎建议大家用静态化的方法去掉那些参数。静态化的本质是URL唯一化,在《优化网站的抓取与收录》这篇文章中,曾经用的“一人一票”这个描述就很贴切的表达了这个意思。静态化只是一个手段而不是目的,为了保证URL的唯一化,可以把URL静态化、也可以用robots.txt或nofollow屏蔽动态内容、可以用rel=canonical属性、还可以在webmaster tool里屏蔽一些参数等等。  

而静态化也会有好的静态化和不好的静态化之别。我们这里不说那种把多个参数直接静态化了的案例,而是单纯来看看如下两个URL: 

http://www.semyj.com/archives/1097和 http://www.semyj.com?p=1097  

这两个URL中,这个静态化的是不是就比动态的好呢? 实际上这两个URL的差别很小。首先这两种URL搜索引擎都能收录,如果说动态URL“?p=1097”可能产生大量重复的内容让爬虫抓取,那这个静态的URL“archives/1097”也不能保证不会产生大量重复的内容。特别是爬虫在抓取时碰到大量有ID的静态的URL时,爬虫无法判断这个网站是不是把session ID等参数静态化了才造成的,还是这个网站本来就有这么多内容。 所以更好的静态化是这样的: 

http://www.semyj.com/archives/seo-jingli 

这种URL就能保证唯一化而不会和其他情况混淆了,所以URL中要尽量用有意义的字符。这不是因为要在URL增加关键词密度而这么做的,是为了方便搜索引擎抓取。 

以上是因为爬虫固有的特点造成的抓取障碍,而有时网站的结构也能造成爬虫的抓取障碍。这种结构在《优化网站的抓取与收录》一文中用的名字是“无限空间”。文中举了一个日历的例子:如很多博客上都会有一个日历,顺着这个日历的日期一直往下点,永远都有链接供你点击的,因为时间是无限的。 

其实还有更多的“无限空间”的例子,只是“无限空间”这个名词没怎么翻译好,翻译做“无限循环”就容易理解多了。 举一个例子: 

京东商城笔记本分类页面: http://www.360buy.com/products/670-671-672-0-0-0-0-0-0-0-1-1-1.html

筛选条件

筛选条件

当点击“惠普”+“11英寸”这2个条件后能出来一个页面,点击“联想”+“14英寸”+“独立显卡”也能出来一个页面。那总共能出来的页面有多少呢? 

这个页面中,品牌有18个分类、价格9个分类、尺寸7个分类、平台3个分类、显卡2个分类。 那么可以组合成的URL个数为:

按1个条件筛选: 18+9+7+3+2 = 39 。

按2个条件筛选:18×9+18×7+18×3+18×2+9×7+9×3+9×2+7×3+7×2+3×2=527 。

按3个条件筛选:18×9×7+18×9×3+18×9×2+18×7×3+18×7×2+18×3×2+9×7×3+9×7×2+9×3×2+7×3×2=3093。

按4个条件筛选:18×9×7×3+18×9×7×2+18×7×3×2+18×9×3×2+9×7×3×2=7776。

按5个条件筛选:18×9×7×3×2=6804。

总共可以组合出的URL数量为:39+527+3093+7776+6804=18239 个。

笔记本分类里总共才 624个商品,要放在18239个页面中,而有的页面,一个页面就能放32个产品。势必造成大量的页面是没有商品的。如点击这几个筛选条件后,就没有匹配的商品出来了:

无结果

无结果

这样的结果,就是造成大量重复的内容以及消耗爬虫很多不必要的时间,这也可以认为是“无限空间”。 这类情况非常常见。如

无限空间

某房产网的无限空间

上面举的京东商城的例子还是不怎么严重的,有的网站能组合出几亿甚至无穷无尽个URL出来。我在国内和国外看过那么多同类的网站,居然发现迄今为止只有两家网站注意到了这个问题。究其原因,还是因为很多SEO人员不太重视数据,这种问题稍微分析爬虫的日志就可以看出来的。直到现在,还有一些SEOer认为把这些以前是动态的页面静态化是个有积极意义的事情,没看到不好的一面就是这样的动作制造出了大量重复的页面,向来就是一个在SEO方面不好的改动。

——————————————-

现在终于能抽空写点文章。公司的网站已经做好。为:http://www.lightyear-hz.com/            

在6.26日会有一次SEO培训,有意向的朋友可以报名。同时公司也在招SEO人员、英文翻译和PHP程序员。



159 Responses to “ 如何规划好网站的URL(1) ”

  1. 史诺比 说:

    博主 做的 都是阿里巴巴 这种大型站点

    对我们这种 小站来说

    方式和方法 差别还是很大的

    • 小欧 说:

      不对!所有的网站都应该是一样的。

      搜索引擎不会像我们人这样,带着有色的眼睛去看人下菜。

      • 浅见 说:

        我觉得,正是因为这种一致性,导致大网站和小网站同样的方法不完全适用的情况。
        大网站如果得到SE信赖,内链的优化就把小网站远远甩在后面。小网站就那几百个页面,除了高质大量的外链,怎么和大网站竞争相同的关键词?
        虽然说基本原则一样,内容为王,但是到具体的操作,差异就很大了。我想楼主是这个意思。
        个人见解。

      • 小欧 说:

        那你说小网站现在该怎么办?

      • 浅见 说:

        呵呵我只是说下看法。好办法倒是没有,我进入这个行业才两个月。就像百度站长俱乐部里LEE一直强调的,搜索者看到搜索结果觉得好,那就是好的。而许多好的内容往往就在大网站里。就算大网站里没有,是转载,百度也以为他们转载排到前面是符合搜索者需求的。
        照此看来,即使很多优秀原创,也可能排到后面。需要一些优秀的营销思想将那些流量转化到自己网站上。
        小网站,本就应该得到较少的流量从搜索引擎那。但是得到的流量就要转化成利润。我个人从搜索引擎角度来看就是这样的。非要优化上去我知识有限,抱歉了

      • 史诺比 说:

        个人认为 小站点 就是用外链去轰了

    • recollection 说:

      史诺比 借楼一用

      国平大哥、终于更新文章了

      URL规划问题很早以前就在研究、URL的书写、目录结构、蜘蛛爬取规律、规避信息干扰 等

      前不久、做了个小实验、关于蜘蛛取爬取规律、小向个人证实了下
      “百度蜘蛛无论爬或不爬网页都可以判断该网页有没有更新”
      是不是所有搜索引擎都可以做到这点吗、
      疑问:“真的是在没有抓取后情况下,可以来判断吗”
      好像国平大哥上面提到:“爬虫有一个特点,就是它不能实时的比较它正在抓取的内容是不是重复的内容。因为如果要做到实时的比较,那它至少要把正在抓取的页面和那些已经在索引库的页面做对比,这是不可能短时间内可以完成的。 前面把所有URL统一放到一个待抓取列表中的方法只能避免那种URL完全一模一样的重复抓取,但是无法应对URL不一样、但是内容一样的抓取。 ”
      好像这里提出了: “只有在抓取后、才可以知道网页是否有更新”!

    • sem 说:

      静态化不好不如不静态化!!!精品,每次读,都有不同收获。读着爽,期待第二篇~~~

  2. ming 说:

    国平大哥,我浏览了一下你的网站http://www.lightyear-hz.com/index.php,我用的浏览器是firefox,发现左边业务介绍的字体好小,看起来很模糊,点击进去看详细内容也是一样,字体好小,浏览起来很不舒服,效果还不如右边的招聘信息好。

    这可是会影响你的业务啊,呵呵

  3. koala 说:

    这么忙还要写博客,真是难为国平了。
    国平有空的话能不能就google惩罚方面的内容稍微说一下

  4. niunan 说:

    沙发。。。。。
    小小WEB程序员票过。。。准备上班。。。

  5. 蓝仁 说:

    天啊,终于更新了,我以为新公司忙顾不上更新了呢。。。

  6. Wish 说:

    好久没出文章了,先顶再看

  7. Wish 说:

    之前做一个项目,就是URL处理得不够,由于URL太多,全部用一个英文加数字序号,不知会不会有影响?

  8. 某人 说:

    一写就是很长,很有料,很干货!

  9. 蓝仁 说:

    请教个问题:
    所以更好的静态化是这样的:
    http://www.semyj.com/archives/seo-jingli

    同样是数字ID,用这样的可以吗?
    http://www.semyj.com/archives/1.html

    这样是不是就可以保证URL是唯一的了?

  10. Cheap Watches 说:

    URL的问题比想象中的严重啊,汗啊,有参数都不好,这下囧了

  11. Nero 说:

    郁闷。 我的差很远了….

  12. 蓝色九月 说:

    很好,很强大,mark下,抽空过来细读下,现在头疼。

  13. SEM 说:

    对RUL剖析的真彻底!受教了!

  14. 啊聊 说:

    出新文章啊,先顶再看

  15. zzx 说:

    国平老师!我用遨游浏览器的极速模式下查看光年公司的主页,发现左边正文的文字好小,看不清楚

  16. 哈哈,老大终于更新了啊,好好学习学习

  17. hxz 说:

    国平大哥,请问像京东和房产网这种最好的处理是怎么样呢?

  18. 十月八日 说:

    那像京东这种的网站怎么处理呢?
    不用URL传参数,而是记录到Cookie或者其它?

    • 浅见 说:

      我的想法是可以用具体单词代替ID。比如原先 电脑-联想-4000价位,url表示为:1-1-1。那么可以用comp-Lenovo-four这样来表示。

    • 天客 说:

      方法两种:
      1、使用nofollow
      2:这类带参数的不要伪静态,或者让url出现某种有特征的东西,然后用robots.txt屏蔽掉。

  19. Kevin 说:

    京东这么做 是可以生成更多的长尾词吧?

  20. [...] This post was mentioned on Twitter by 残暴的悟空, Li Xilin. Li Xilin said: 如何规划好网站的URL(1) http://bit.ly/axOtlJ [...]

  21. 终于更新了.支持!

  22. 备案窝 说:

    说的非常细致,赞一个!

  23. lowkey 说:

    每次看国平老师的文章都是一次对SEO理解的洗礼,发现不能发现的东西,大站的优化方式能够给我们提供的就是从另外一个视角看待平时做的一些优化措施。

  24. M8软件 说:

    很受用,谢谢。。。。。

  25. 小欧 说:

    按照你上面说的,带”/”越多,是不是就意味着目录越深?就越难抓取?

    比如这个URL:

    http://××××.net/2010/06/08/2233

    这算深的吗?

    • 国平 说:

      深还是不深是相对的。

    • 浅见 说:

      文中的意思我理解的为:本身深度不影响抓取,但是当待抓取页面超过爬虫限度后,爬虫根据权限进行先后抓取。这个深度就是一种权限的判断。/A/B和/A比自然/A优先,当/A/B和/A/B/C时自然优先/A/B。所以说是相对的。

  26. 开颜一笑 说:

    文章写的太好啦,保存下来,慢慢品读。

  27. 菊花残 说:

    终于更新了,期待更多!

  28. 菊花残 说:

    请教国平大哥一个问题:
    A网站301重定向到B网站,A网站早就关了,但是从B网站日志中,看到Baiduspider和Googlebot抓取A网站一些目录,但是B网站中根本就不存在这些文件和目录,所以很多这种404错误,特别是Baiduspider,返回很多404错误,请问这对网站有影响吗?怎样去掉这种错误呢?robots中屏蔽可以吗?

    • 菊花残 说:

      希望给个意见啦!

    • 天客 说:

      这是SE抓取更新的问题。建议不用管他,时间长了,SE就会去掉这些没用的页面。

      • 菊花残 说:

        我是用robots直接屏蔽掉这些文件夹的,会不会受影响?太多的这种404错误,我怕影响蜘蛛效率,占用带宽!

      • 天客 说:

        使用robots.txt屏蔽掉,这样每次蜘蛛爬取页面时,就会先读取robots.txt 就不会去读这些网页了。404错误就会越来越少。

  29. niunan 说:

    上面说的360的商品选择页面,既然http://www.360buy.com/products/670-671-672-0-0-0-0-0-0-0-1-1-1.html
    这种方法会造成很多空白页面浪费爬虫的抓取时间,那像这种分类的应该怎么搞才是最好的呢?做成一个动态页吗?
    我现在的公司商城的商品列表页就是像京东那样的,只是我是动态的,不管是怎么点页面的地址都是
    http://aaa.com/product_list.aspx
    不知道这样行不行。。呵呵。

  30. 美罗华 说:

    来学习一下博主的文章!写的不错!支持了!

  31. 星林 说:

    昨晚进来还没更新,今天进来更新了,支持!!

  32. 刀削客 说:

    现在做的站接手后全部用了中文路径,在排名上效果不错,但是在sitemap里由于只支持UTF8所以编码后的很多地址都成为了无法访问的乱码,选择中文路径的SITEMAP问题怎么解决?我准备从数据库读出非中文路径(因为会生成两个页面一个是中文路径的,还有一个非的)自己写sitemap了,但是这样做我想对页面本身似乎也不大,并且还有重复的页面在服务器上,借地方问一下各位还有什么方法去做中文路径的sitemap?

  33. SEO聚宝盆 说:

    简短化、语义化、无死循环,未来URL的优化趋势。

  34. 林清水 说:

    其实,我一直有个疑问,就是,像http://www.semyj.com/archives/1136为什么没后面的.html现在终于明白了,这个文章确实不错!刚,名字打错了

  35. 心无杂念 说:

    那应该如何有效的解决文章中提到的京东分类页面的重复问题?

  36. ming 说:

    国平老师,真希望你能出一本关于SEO的书,这样可以帮助到更多的人。

  37. 越中小程 说:

    国平的公司竟然离我如此之近,最多300米,不知道能不能到时候拜访一下?

  38. 天客 说:

    1、我一直在思考多个Spider 是如何协作处理页面的?今天这个文章算是其中一篇吧?
    2、对URL的抓取,优先级是不是还应该考虑sitemap中定义的优先级?谷歌官方是多次强调sitemap的重要性,也是希望能给spider一些优先级参考吧。
    3、关于网站的URL地址深浅,国外的SEO做得好的很多大型网站现在还是保留目录浅点的做法。并且统一做法,都保持有意义的关键词embeding in the url.
    谷歌官方也对URI地址保持尽量简短提出了要求。目录浅也是保持目录简短的一种有效做法。

    唉,叹呀!说来说去,真感觉像是SEO在给谷歌打工!不过,双赢也不错!

    • 国平 说:

      sitemap.xml的本质就是模拟以前爬虫对一个URL的判断。所以里面的权重设置很重要。

    • 国平 说:

      从http标头里也可以判断网页有没有更新。

      • 从http标头里也可以判断网页有没有更新。

        这句话不太明白,请教各位高手。

      • recollection 说:

        呵呵、谢谢
        国平大哥是回答我的问题吧、从HTML标头就能判断网页有没有更新、那么这个也是需要爬取网页后才能判断哦、只是说在如果检测HTML标头后、没有更新、就停止对该页进行爬取!

        那么从国平大哥的话中,只能理解到、蜘蛛判断网页是否更新、还是需要对网页进行爬取的! 是吗?

      • 静态页面能通过http头可以判断网页有没有更新,但动态页面呢?

  39. 菊花残 说:

    网站的“Lynx在线版”,使用的时候,上面都会显示这种乱码:
    绋嬪簭鎻愪緵锛?a href=’http://www.lightyear-hz.com/’>鏉窞鍏夊勾淇℃伅鎶€鏈湁闄愬叕鍙?/a>

  40. 菊花残 说:

    底部也有:鐗堟潈鎵€鏈夛細鏉窞鍏夊勾淇℃伅鎶€鏈湁闄愬叕鍙?/a>

  41. 情怀剥落 说:

    国内外哪两个网站注意到了这个无限空间的问题啊,能否分享下

  42. Levis Jeans 说:

    来学习一下博主的文章!写的不错!支持了!

  43. 小手工活 说:

    通过搜索才找到这里的!SEO 我也是刚刚开始接触 要多请教了!

  44. AnQ 说:

    期待好久,国平大哥终于更新了。

  45. seo学习 说:

    虽然国平大哥很久没更新博客了,但是粉丝还是多啊

  46. 终于看到国平更新博客了,每一次来都有惊喜!

  47. 梧桐树 说:

    请问下6.26号的SEO培训是免费的么
    很想有这样的学习机会

  48. 梧桐树 说:

    robots.txt

    有人喜欢有人忧
    真是一个不可缺少的重要文件

  49. 总算更新了。犹如一股暖流过来

  50. tbw淘宝网 说:

    博主,立正,我来报道。

  51. 博百优 说:

    不错,文章很长,很有东西,值得学习思考,感谢分享

  52. 黑猫 说:

    真正做到,知其所以然,需要积淀与研究。感谢国平。

  53. Paul.lim 说:

    有个问题麻烦张老师能指点下
    我想和别人交换链接来推广特定关键字,指向到站内某个固定的产品目录页
    但我的网址是动态的
    这样会不会有效果?有没有必要重写成静态的?

  54. 京东360 说:

    我就是默默的看看~~不发表意见~

  55. 北大青鸟 说:

    很不错的博客,赞一下。

  56. 快播电影 说:

    拜读了,对于大型网站有指导意义。

  57. 济南百度 说:

    回访一下,希望多多交流啊。

  58. 北京seo 说:

    终于更新了,受教受教!

  59. 007 说:

    能否写一下关于PR的文章,可能也会有很多人走入误区的,国平能否赐教下.

  60. 博主的文章真不错
    文笔秀丽

  61. cannot 说:

    URL只是一小步。即便url做的唯一、接受性好,全部被索引,但还有个重要问题,搜索引擎不把链接放出来啊。我看一个网站,sitemap索引2万,但site:却只有300,这个不知道有什么理想的解决方案。

  62. CJseo 说:

    请教下国平大哥,像无限空间的问题,如何有效的解决,采用动态url或者robots屏蔽?

  63. 新一 说:

    支持一下国平大哥。很精彩的文章,又学习到了。

  64. 博彩通 说:

    端午节快乐!!大家吃粽子了吗?

  65. 前列腺炎 说:

    精品呀,佩服。

  66. Super_XQ 说:

    真看不出京东的url怎么不唯一了,怎么造成循环了。

  67. 博百优 说:

    拜读楼主的文章 感谢回访

  68. 博百优 说:

    博主的文章写的很好 我会经常关注你的 并期待回访问 共同进步

  69. 10V 说:

    同意国平大哥上面文章中的内容,这里向说一下文章中没有提到的东西。

    大型网站的页面静态化并不仅仅是简单的把动态的URL转写成静态的URL

    京东这样网站的流量非常大,尤其是搜索这块,当并发量很大的时候,如果不进行静态化处理,经常会拖垮服务器群组。这里所说的静态化可以理解为通过静态文件(或Memcache等缓存技术)将动态数据进行缓存。

    先说一下,为什么没有用Memcache(将搜索结果以键值对的形式缓存在内存中)。这点如国平大哥所说,单只搜索这块,各种过滤条件之间相乘起来足足有18239个,这时使用Memcache一是太浪费资源,二是命中率会很低。

    接下来说一下静态文件缓存。举个简单的例子,当用户点击某一分类的时候,首先会判断这个分类是否已经有缓存文件(通常是.html这样的静态化文件),如果有就直接读取并展示这个文件,如果没有,则根据关键词生成搜索条件并在数据库中查找匹配项,然后将搜索结果生成缓存文件并展示(这样一来,在指定的缓存时间内,用户下次再点击这个分类的时候,就可以直接读取缓存文件,不去进行数据库查询了,大大的节省了服务期端的资源,同时提高了展示页面的速度,因为当数据很多时,查询数据库时间非常耗时的事情。)。

    实际上,那些分类条件是不会经常变换的,所以,只需要写一个定时执行文件,每隔几小时批量更新一下这些缓存文件即可,这样就不用通过用户访问来出发静态化操作了,更进一步降低了服务器端的压力。

    解释完静态化之后,再来说一下SEO。静态的url是不是比动态的url更容易被收录?这个问题一直存在争议,这里不做讨论。随着google对搜索引擎排名做的一些调整,可以看出,页面的展示速度已经作为一个比较重要的衡量指标了。静态化的页面在打开速度方面要比纯动态的页面提高了至少一个数量级。但正如国平大哥所说,仅仅单纯的将页面静态化,会忽略了不好的一面,就是这样的动作制造出了大量重复的页面,向来就是一个在SEO方面不好的改动。所以最好是能在这两个方面找到一个平衡点: 将有搜索内容的页面静态化,通过/products/670-671-672-0-0-0-0-0-0-0-1-1-1.html这样的URL访问,将没有匹配内容的页面静态化到同一个类似于404那样的页面。

    小弟才疏学浅,不知道这样的做法是否可以实现,期待大牛的答案

  70. 博百优 说:

    我又来看你的文章了 写的不错 希望加油

  71. 刘磊 说:

    先留言,晚上再慢慢分析

  72. 博百优 说:

    文章写的不错 请楼主加油并回访

  73. hostgator 说:

    真的很受用·学习了!

  74. SEO聚宝盆 说:

    没有十全十美的程序,还是把不需要的URL屏蔽掉好。

  75. aiyini 说:

    写的不错,只有有数据和页面,才能增加收录。收录好了,来的流量和相关的搜索量就大。

  76. alisunstar 说:

    经常来哈“这篇读完真的收获不少呢

  77. 看了你的站很不错,支持一下。

  78. 重要找到茫茫网站海洋中的亮点了,继续努力啊。

  79. 对于像京东这种会生成很多无产品页面的情况,具体如何屏蔽呢?是不是先找出没有产品的页面,然后在robot.txt里面进行屏蔽?如果这样的话,那产品每次有改动,都要重新这个过程呢?应该用正则表达式也不能正确地屏蔽吧?!
    或者可能可以开发一个工具,根据数据库中数据来生成要屏蔽的页面列表。

  80. SEO软件 说:

    谢谢分享,我会继续关注你的博客!

  81. Привет. Я Боня писала коммент на вашу статью про кино но мне никто не ответил. Здесь нужно зарегистрироватся что ли как я поняла ?

  82. 好贴,我不支持谁支持!

  83. 宝宝成长 说:

    到此一游了,楼主给你捧场

  84. 苗木 说:

    来顶一下,呵呵不错,学习了,周末马上到了祝周末愉快!

  85. 周末了,来拜访一下博主,度过一个愉快的周末吧。

  86. oxila 说:

    终于更新博文了。

  87. 1 闲着也是闲着,来点分分!

  88. 楼主,高手
    如何学习网赚,网赚新手学习
    楼主共同进步

  89. 无意间进入blog,很不错,收藏了,博主继续努力

  90. justhost 说:

    这篇文章原来是国平老师的文章啊··学习了

  91. 喜欢博主的文章,期待…

  92. seonly 说:

    唉,差距太大了,国平老师的每篇文章都要重复研读,慢慢消化。。。

  93. 紫砂壶 说:

    这种好文不顶不行

  94. 高小双 说:

    难道以前对URL理解有误,URL不是增加关键词的密度而是判断唯一性!!

  95. 精辟,第一次发现这地方,下次再来!

  96. 不错的内容,赞一下

  97. 俏物悄语 说:

    哈哈 羡慕啊~~说的真好

  98. 苗木 说:

    来看看 不想错过

  99. 麦网m18.com 说:

    好贴,我不支持谁支持!

  100. jd523 说:

    终于更新,国平的每篇文章都很受教!

  101. edenjiao 说:

    被雨堵在一家快印店里,想起来看你的博客,公司网站出来了。恭喜啊!

  102. 菏泽论坛 说:

    我在百度搜东西来,结果搜到你的博客了,随便看看,愿你的博客越办越好

  103. 诳人 说:

    朋友推荐的,第一次来,真的很好,学习到很多,国平大哥很强!

  104. 网页模板不错,方便共享下子咯,向博主学习,技持博主。

  105. 东莞seo 说:

    文章好深奥,博主对搜索引擎理解好深刻啊!敬佩

  106. 一笑 说:

    每次来读,都有新的收获。

  107. Niko.Han 说:

    很久没有看到国平老师的文章了,非常感谢~!

  108. 你的博客真火啊!很多行业人士在这和你讨论留言~

    高手额呵呵~

    想问下我的一个站织梦多一层目录比另一个zblog博客的站排名上面是不是差很多。
    例如:织梦的www.abc.com/一级目录/日期/文档

    zblog的www.abc.com/一级目录/文档
    我感觉会差很多

  109. 好专业哈! 呵呵默默的研究研究楼主的文章

    非常感谢您的无私分享哦

  110. 小慧兰子 说:

    专家级人物啊,好!好!支持。

  111. 文秘之家 说:

    每一次来,不错的文章,很喜欢

  112. 掼蛋 说:

    我有一个很奇怪的问题,贵站也是utf-8使用lynx不乱码,而我们的站会乱码呢?

  113. 红酒 说:

    具体怎么屏蔽呢?万分感谢!

  114. 神秘欧 说:

    总结一下:url要语义化,简短化,层次逻辑化,层次低于两层为佳

  115. 虫虫博客 说:

    呵呵…URL的操作的确包含了太多的东西在里边了….

  116. 法文 说:

    以前有见过一个站点把所有的页面都放在根目录下,并且都有很好的pr,当时就误以为是不是这样URL比较短就对搜索引擎友好那。今天看了国平老师的文章后我才明白到底该怎么做。

  117. v 说:

    像文中京东这种例子,我觉得既然已经生成那么多页面,何不做好这些页面呢?
    这种多个筛选条件的匹配也是有潜在的搜索需求的,而且用户点过来就显示没商品也很不友好。其实国平的意思是为了提高蜘蛛效率,屏蔽这些没内容的页面只是一种方法,给这些页面做上内容并进行引导也可以是一种方法。
    把筛选条件当成变量关键字,创造一些内容,再加上一些引导,对搜索引擎来说多了有价值的页面,对用户来说增强了这些页面的可读性。

  118. robinli 说:

    那个筛选项产生大量重复页面的问题很多b2c都有,博主说两个网站注意到了 是那两个?
    阿里和麦包包吗?

发表回复