详解《光年SEO日志分析系统2.0》

《光年SEO日志分析系统》刚才升级到了2.0,有朋友在论坛里提问说不知道怎么用数据分析来指导业务,我就趁新版本发布的时候顺便说明一下各项功能。

《光年SEO日志分析系统》的介绍:http://www.semyj.com/archives/1309
2.0版本的下载地址还是以前那个:http://www.semyj.com/upload/gnanalyzer.rar

第二版增加了更多的分析维度,还增加了日志拆分的功能。

下面先来看几个固定的分析维度,下面的数据是semyj.com我这个博客的日志分析数据。

首先是“概要分析”:

概要分析

概要分析

 

这里有各个爬虫“访问次数”、“总停留时间”和“总抓取量”的统计。从上面这个数据可以看出,百度爬虫的抓取深度是不高的:访问1868次,抓取量是2968,平均每次抓取1.59页。这其实是百度爬虫普遍的抓取特征,在绝大部分网站上都是这个规律。抓取深度不高的话,会造成很多层级很深的页面不会被抓取到;以及造成少数页面被反反复复在抓取,浪费了爬虫的时间。这样,很多网站想要在百度上获得收录就成了问题,特别是大中型网站。我所接触的所有大中型网站,在刻意去优化之前,一年下来很多网站至少还有一半的网页没有被百度爬虫抓取到,部分网站甚至更严重。相比之下Google的抓取深度就好很多,总的抓取量也大一些。

这里面比较重要的数据是那个“总抓取量”,因为它影响网站的收录量,进而影响网站的SEO流量。在《网页加载速度是如何影响SEO效果的》一文中说明过抓取量和SEO流量的关系。这个“总抓取量”的数据是好还是坏,是要根据每个网站的实际情况来看的。就semyj.com这个网站来说,它现在有53篇文章,300多个网页,而现在google每天有16484个抓取量,百度有2968个抓取量。如果光看这个数据,那看起来这300多个网页基本上在一天之内应该是能被抓取到的。但是很多大中型网站就不一样。

这里我先要说明一个有些人会混淆的问题。为什么我上面会刻意说明一下文章数量和网页数量呢,这是因为文章数量肯定是不等于网页数量的。不过有些人去查收录量的时候就忽视了这个常识。如某网站的文章量(或称单个资讯数量)是30万,去搜索引擎用site等语法去查询收录量是29万,就觉得自己的收录量差不多了,而实际可能差得很远。

因为单个页面都会派生出很多其他页面的。如果打开某一个文章页面,去数一下里面的URL,除去那些模板上重复的,还是有那么一些URL是只有当前这个页面上才有的,也就是这个页面派生出来的。而一个URL对应一个页面,所以一个网站上拥有的页面数量是这个网站的信息量的好几倍,有时甚至是十几二十倍。

所以在看这个“总抓取量”之前,需要把自己网站内可能拥有的页面数量统计一遍。可以用lynx在线版把每一类型的页面上的URL都提取出来看一看。网页总的数量知道了,再和“总抓取量”做对比,就可以知道这个数据是好还是差了。我觉得基本上,google爬虫的抓取量要是网站页面数量的2倍以上,抓取量才算及格,baidu爬虫就需要更多了。因为实际上这个抓取量里面还有很多是重复抓取的;还有和上一天相比,每天的新增的页面抓取不是很多的。

这三个数据:“访问次数”、“总停留时间”和“总抓取量”,都是数字越高对网站越有利,所以需要想很多办法提高他们。大多数时候看他们绝对值没什么用处,而要看现在的和过去的比较值。如果你能每天去一直追踪这些数据的变化情况,就能发现很多因素是如何影响这些数据的。

以下其他数据也是如此某个当前数据的值有时候不一定有意义的,但是长期跟踪这个数据的变化就能发现很多因素之间是如何互相影响的。

然后是“目录抓取”的数据:

目录抓取统计

目录抓取统计

这个“目录”抓取的数据是对“总抓取量”的一个细分。一个网站当中,一定是有重点页面和非重点页面的,这个数据就可以让你看看哪一类型的页面被抓取的多,及时做一些调整。

还有就是可以去搜索引擎按URL特征查询一下各个目录下的页面的收录情况,再来和这个目录下的搜索引擎的抓取数据做一个对比,就可以发现更多的问题。对于semyj.com来说,看完这个数据就知道,可能那300多个网页在一天之内还是不能全部被抓取一遍的,因为原来大部分抓取都在bbs这个目录下。(有时候就是有很多这样意外的情况发生,bbs这个目录早已经做了301跳转,没想到还有这么大的抓取量。——看数据永远能知道真相是什么。)

接着是“页面抓取”的数据:

页面抓取

页面抓取

这个数据把一个网站中那些被重复抓取的页面统计了出来,并分别统计是哪些爬虫分别抓取了多少次。大家多分析几个网站就会明白,百度爬虫经常是过度抓取的常客。这个数据也验证了前面的数据:因为它平均每次抓取1.59页,也就是每次来抓取都停留在表层,但是又经常来抓,所以势必导致少部分页面是经常被百度抓取的。因为有重复抓取的存在,所以一个网站光看抓取量大不大是没什么用的,还要看有多少不重复的页面被抓取到了。还有就是要想办法解决这个问题。

在“蜘蛛IP排行”数据里,统计了每个爬虫IP的访问情况:

IP排行

IP排行

如果分析过很多网站,就会发现爬虫对某一个站的访问,特定时间内的IP段都会集中在某一个C段。这是由搜索引擎的原理决定的,感兴趣的朋友可以查询相关书籍。知道这个特征有时候可以用得着。

报表里有个查询IP地址的功能,可以查询那些爬虫IP是不是真的,如上图红框内的IP,就是一个伪装成google爬虫的采集者。

这个数据和上面的所有数据都一样,前后对比就可以发现更多的信息。

以下是“关键字分析”的数据:

关键词分析

关键词分析

“类型”这里是说明这个关键词是从网页搜索还是图片搜索或视频搜索里来的SEO流量。而“上次用关键字”,是统计用户搜索当前的关键词进入网站之前,是在搜索什么词语。这个功能只有百度有效,因为百度在url中记录了用户上次使用的关键词。 这个地方的界面还需要修改,下一版本中会完善。
 
“状态码分析”报告中,现在把用户碰到的状态吗和爬虫碰到的状态码分开了,其他没有什么改变:
状态码

状态码

这里每一行数据都分为两个部分,第1部分是表示哪个文件出现了这个状态码,第2部分是表示发生在哪个网页。从上面的数据可以看出,这个网站在被一些黑客工具扫描。
 
在《光年SEO日志分析系统》第二版中,最重要的升级是增加了“日志拆分”功能。有了这个功能,就可以用任意维度去分析网站日志了。
以下是可以拆分的日志字段:
拆分字段

拆分字段

 只要你的网站日志是齐全的,有了日志拆分功能这个功能就相当于有了一个数据仓库。这个时候查看网站的数据,就:只有你想不到,没有它查不到的。

如:我们要查看上面那个伪装成google蜘蛛的IP采集了哪些网页,就把拆分条件定义为:ip等于222.186.24.59,agent等于googlebot,就可以把日志拆分出来了;还有要看是哪些IP在用黑客工具扫描网站时,就把拆分条件定义为:url等于MIRSERVER.RAR或等于WWWROOT.RAR等等就可以看到了。

我还建议大家多去拆分爬虫的抓取轨迹,把某一个爬虫IP的抓取路径拆分出来,观察它的抓取路径,再和网站上的URL对应,就能明白爬虫抓取的很多规律。

其实本来还应该开发一个日志合并的功能,但是这个功能实在太简单,一般我们用DOS里面的copy命令就可以解决这个问题:

Copy命令

Copy命令

这样,你可以把网站一星期内的、一个月内的甚至半年来的日志合并起来分析。《光年SEO日志分析系统》是支持分析无限大的日志的,只要你有时间。

在“设置”-“性能设置”里,有两个地方要注意。一个是那个“蜘蛛计算间隔”,这里表示一个蜘蛛多少时间内没有活动就算它离开了。这里要注意对比分析的时候每次都要是同一个时间,因为这里的时间按改变了,那计算爬虫来访的次数就变了。还有一个是“分析显示条数”,现在你可以自己定义在报表中要显示多少行数据,默认只有5条。

文章太长就写到这里,《光年SEO日志分析系统》目前是收费的软件,免费版能用10次或是30天。到光年论坛用论坛金币可以购买。 http://www.gnbase.com/plugin.php?id=phpcome_gift:index 

——–以下是广告———————-

第二期SEO培训2月26日开始  

两个微博:腾讯http://t.qq.com/guoping001 新浪 http://t.sina.com.cn/1688760913 



248 Responses to “ 详解《光年SEO日志分析系统2.0》 ”

  1. 我勒个去 说:

    哇塞,貌似是沙发呀。呵呵。
    刚才在论坛上提到了这个的使用用法,现在刚好看看!!

  2. 云浮seo 说:

    先占个位置,慢慢再看

  3. Aiverson 说:

    科学的SEO,这是我在国平老师这里学到的最多的东西.

  4. 爱非鱼 说:

    光年日志分析系统真是个好东西!
    谢谢国平无私奉献

  5. 我在我思 说:

    终于更新了,沙发?

  6. sansed 说:

    linux服务器日志太大,有几个G,我试试能不能爬动!

  7. 菠菜 说:

    强大的日志分析软件…

  8. Cavin 说:

    国平终于更新了~~

  9. 李振峰 说:

    谢谢国平老师的分享,很想报老师的培训,不过培训对于我们草根站长来说确实有点贵,学费低点更有利于老师SEO思想的传播!

    • 蓝仁 说:

      物有所值,就当是对自己的投资了,我觉得价钱还能接受,就是时间安排上不够灵活,对培训的介绍也不是太多(看了新版的培训介绍页面),个人比较关注,在线培训会不会有录音?然后是有相关资料吗?希望有亲身经历的朋友可以解答一下~谢谢

    • 119 说:

      学费的确不算贵

  10. 上海seo 说:

    这个不错,很需要这款软件的,谢谢分享

  11. 潮流购物 说:

    嗯,国平老师的每一篇文章都那么给力啊。

  12. seoaqua 说:

    希望推出linux版呀:)

  13. 更新了 说:

    终于更新了,很需要,特来支持国平大哥

  14. 美瞳 说:

    哈哈,昨天还在国平的博客留言说好久没出新文章,今天就有啦!~希望国平能分享一些SEO分析的思维和方法。因为这方面的资料实在太少了。。

  15. 旁氏官网 说:

    bucuo ,支持一下,很有道理!

  16. 陈剑 说:

    收费多少呢,看承受范围来支持

  17. Electronics 说:

    不错,下载 来看看。支持国平。

  18. Wosoho 说:

    这个分析系统好像只适用标明身份的记录,有的日志文件是看不到这些信息的

  19. 姜成 说:

    这个工具比上一个版本更新了很多的功能,很实用。

  20. ZZZZ 说:

    数据很详细!

  21. netfox 说:

    这次更新的确不错,特别是能够根据自己定义来分析,感谢国平的分享,目前用了几次还不知道收费是多少钱

  22. 湖北seo 说:

    强大的工具,谢谢啊!

  23. yy 说:

    终于等到更新了

  24. 下在看着别的文章,那么快就更新了。

  25. 光年日志软件是好东西,现在分析的好透彻

  26. SEO分享 说:

    “所以在看这个‘总抓取量’之前,需要把自己网站内可能拥有的页面数量统计一遍。可以用lynx在线版把每一类型的页面上的URL都提取出来看一看。”这个方法貌似没有可实施性。怎么才能正大自己网站的页面数量呢?

  27. 聚云seo 说:

    哇塞。。。不收费?竟然是免费的!!

  28. 给力啊 说:

    支持光年啊,像巴斯一样,飞吧。

  29. 一灰 说:

    还能说什么呢,顶,好用!

  30. NSS 说:

    咱们软件对于爬虫访问停留时间是如何定义的,多久没有抓取算作是离开了?这个时间间隔是多少?

  31. NSS 说:

    还有个问题,我发现同一份日志文件,我用二代分析出来的关键字要比一代分析出的少很多。

  32. Skillet 说:

    终于更新了 不错哦~

  33. 冷库安装 说:

    抓取总量“16484”,是指抓取了16484页吗?

  34. 去痘印 说:

    很不错的东东一直在用这个工具!

  35. 发表论文 说:

    得试试这个工具,相信有效果。

  36. tiger 说:

    不太明白搜索的抓取时间是怎么统计出来的

  37. 淘宝商城 说:

    光年给力啊。。谢谢分享。

  38. SEO 说:

    这工具真好,万分感谢!

  39. 小陶 说:

    终于更新版本了哈 国平老师太给力了 谢谢!

  40. 快速备案 说:

    这么好的工具一定要支持!

  41. 御泥坊 说:

    真的是太强大了 好好研究去啦

  42. 不错,支持一下,很好的。

  43. 宠物网 说:

    跟到国平老师学了不少东西,这个工具很好用,我现在一直在用,不过是1.0版的!~

  44. NSS 说:

    弱弱的问一句,购买的话去哪里交钱的?

  45. eve isk 说:

    看起来不错,很想试一试。

  46. alone 说:

    这个貌似不错哦,收下看下

  47. 陆行 说:

    请问 AWStats 这个分析软件的log 怎么载入到 这个软件下,只有蜘蛛爬行的日志。 log 载入后,软件什么东西都不生成。

  48. 广州seo 说:

    很详细,看看!

  49. Avi 说:

    支持国平老师。
    以前使用过WLExpert.exe分析网站日志,能了解到的东西比较少,现在看了这篇文章,很不错,准备下载试用一下:)

  50. SEO是什么 说:

    谢谢分享,我做英文站点,但是,使用的中文流量统计,我感觉那里面的数据不准确,想分析日志文件,我先下载回来试试看,再来分享心得

  51. 刘运威 说:

    这个软件对网站分析很好啊,正版的是多少RMB呢

  52. 义乌SEO 说:

    貌似这个软件挺高端的。数据分析这一块,的确需要花费很多时间!

  53. baby stroller 说:

    现在SEO也不容易啊,不稳定

  54. 二大人 说:

    这个日志系统非常好,谢谢。

  55. 第二纪元 说:

    过来学习一下,很有作用!

  56. 武汉SEO 说:

    这个东西不错~

  57. 红涛 说:

    真不错的东西,给力

  58. 上海seo 说:

    这个分析系统不错

  59. 肖俊 说:

    国平老师这个工具很强大啊,数据分析能力很给力。

  60. 网站运营 说:

    不错的工具,很有实用性。

  61. 纸艺网 说:

    我这问题状态码的URL怎么只显示前5个

  62. jaw crusher 说:

    国平老师的博客终于更新了。这个工具很不错。很实用。

  63. 一亩三分地 说:

    请问这个数据是每天的吗

  64. 股票入门 说:

    不错,国平大哥的文章很实用,一直关注。

  65. 确实是好东西,

    就是不知道最后统计的数据准确度有多高

    期待更多精品……

  66. LED水族灯 说:

    好东西啊,可惜要收费,唉,先收录地址再说

  67. 美芯 说:

    这个有点意思

  68. 标点符 说:

    最好有awstats的Extra Section代码分享哈~

  69. 南京SEO 说:

    这个工具很给力啊!晚上好好研究研究……

  70. 不错,下载了看看

  71. 古水鱼 说:

    这个系统现在是免费的吗?

  72. 很有实用性的软件,我支持一下

  73. 博主你好,我用的是phpnow在vps上搭建服务器环境来运行,没有用iis,可以用这个软件分析日志吗?不知道phpnow有没有日志。

  74. 牛掌柜 说:

    请问国平老师,用户状态码与蜘蛛状态码有什么区别呢?

    我用软件分析了一个日志,
    用户状态码有304,302,301,404

    但是蜘蛛状态码什么也没有

  75. 海军seo 说:

    这个日志分析软件是我目前见过最详细的日志分析的..赞一个!

  76. 屈晓璞 说:

    呵呵,佩服,还是要多研究SE才是王道啊

  77. 下载试用一下。

  78. 光年日志分析软件还是很不错的

  79. 欧莎女装 说:

    非常有价值的工具

  80. 很实用的工具啊,绝对的支持

  81. louis vuitton 说:

    分析蜘蛛抓取有什么用?一直迷惑这个问题!

  82. 面瘫治疗 说:

    看起来很实用,我也想试试

  83. 先下个免费版的试试,呵呵。

  84. 标点符 说:

    感谢国平老师的分析思路,相关功能已经在awstats上实现。
    以下为我整理的http://www.biaodianfu.com/awstats-extra-sections.html
    还望国平老师多指点。

  85. MISSHA 说:

    很好,很强大。。

  86. 日志分析软件还是很不错的

  87. 武汉seo 说:

    不错的东西。

  88. 妍雪 说:

    刚用的。很不错

  89. table lamps 说:

    真的有效果吗》

  90. 防伪标签 说:

    看起来功能很强大的啊 可以免费不 现在都是免费的时代啊

  91. 好有深度的文章,需要仔细看几遍

  92. 土特产 说:

    看上去不错哦!

  93. 南通seo 说:

    这个工具不错

  94. 朋悦 说:

    没试过,今晚回去研究一下

  95. 来过看下,没试用过,要试下,才知道,好不好用。

  96. 弱弱的问一句,这些能看到蜘蛛的爬行记录以后怎么优化

  97. 工具用了,感觉不错。还有没有其它的工具分享分享

  98. sky 说:

    国平老师,想购买软件,已联系QQ,没回复。还有就是想了解下,购买这个软件没有提供教程的?希望能提供相应的使用教程,或者使用方法案例,这样对购买者更负责任,你说呢?毕竟付出了资金,相对免费服务来说还是要有区别的吧

  99. 一直没找到一个可用的分析工具·! 谢谢·!

  100. 肾病医院 说:

    以前下了有一个·! 但是不会用·!

  101. 左旋肉碱 说:

    这个软件真的很好,强力支持博主开发更给力的seo工具。

  102. 干嘛放毒啊 说:

    好软件功能很好,可为什么要放毒呢,AVG杀毒软件报毒

  103. 很不错的软件 谢谢分享

  104. 武汉seo 说:

    下了不会用。

  105. quality-led 说:

    貌似挺不错的,试一下。

  106. qingwei1y 说:

    看上去不错,下载下来试了一下,分析不出来。

  107. 这个软件还是很不错的

  108. 幽游 说:

    2.0比1.0强多了,不过有点贵哈。
    看了国平的介绍也开始养成看日志的习惯了,呵呵。

  109. 看起来是不错的软件,但是好像很复杂的数据,看到有点不知所措了,呵呵

  110. 下下试试,谢谢分享·

  111. 广州SEO 说:

    一直在寻找一个合适的优化工具.
    看来这个做得不错,试试看.

  112. Living Game 说:

    国平老师的文章是必看的~顶

  113. 网赚网 说:

    非常好的分享,这种分析方法自己从来没做过,看来有机会得向老师系统学习下 科学seo的做法了

  114. Microhu 说:

    貌似百度的分析结果有点不准确呢.

  115. 赵雪艳 说:

    看来,大家使用着不错。下载下来,试试。

  116. 太有用了,一定要看看

  117. 很强大的软件。

  118. 哇塞,也太专业了吧。佩服

  119. 不错的东西,很强大

  120. 这个分析软件很不错,一直在找!呵呵

  121. 学习啦。。谢谢博主

  122. 钢铁 说:

    朋友推荐过来的,下下试试,谢谢分享。

  123. 鼻之光 说:

    看上去很有用啊,下载回来看看了

  124. pptv 说:

    这个还不知道怎么用呢,有时间看看….

  125. rubber parts 说:

    非常感谢老师的无私奉献!好东西大家一起分享!

  126. clothing 说:

    不错,用用看~

  127. chuanqisifu 说:

    看看,认真研究一下,好东西o

  128. 朵朵假发 说:

    谢谢!下载用用

  129. 这软件不错啊 ,只是还不知道怎么用,看了这篇文章,发现这软件很好很实用的啊

  130. 很给力的分析系统,待测试一下!

  131. 武汉橱柜 说:

    奇怪 目录抓取 出现了我网站么有的目录

  132. 不错。我也下载个用用。

  133. 汽车人 说:

    很不错啊,辛苦了

  134. 谢谢!下载用用。免费的么?

  135. [...] 具体的用法国平博客上有:http://www.semyj.com/archives/1539 [...]

  136. 网站什么回事呢。

  137. 邓鸿 说:

    光年论坛的文章看了真是受益匪浅,希望能够在这里多学多交流。

  138. 免费的可以用10天?
    我的网站用着试试。

  139. 陶醉 说:

    不错,这软件实用

  140. 这软件,太喜欢了!seo利器!

  141. 说:

    太可惜了 我们公司内部已经有这样的分析程序

  142. 黄冈论坛 说:

    很需要,特来支持国平大哥

  143. 襄阳SEO 说:

    用了这个分析工具,很强大!!

  144. 灰色状态 说:

    请问如何从上面的数据分析,可以看出这个网站在被一些黑客工具扫描呢?

  145. 这个小东西,功能听强大啊·

  146. 很牛的工具,谢谢分享!希望开发更多好工具啊~

  147. 北京装修 说:

    真是强大的东西啊啊

  148. 今天用了一下软件,查看了下我网站的访问数据,确实挺方便的。

    这里感谢作者一下,呵呵。

    多谢提供好软件。

  149. 好软件。。。。。顶下。。。

  150. 看完之后感觉有很多疑问啊, 比如怎么查询网站总量?文章说的那个lynx在线版无法正常使用,看来需要学习的东西还非常多,以后得多来跟国平大哥学习科学的SEO.

  151. 艾黎 说:

    科学严谨 继续学习

  152. 这个还需要学习一下

  153. 辽宁seo 说:

    这是一个奇迹

  154. 飞翔的羽毛 说:

    过来多学些一点

  155. C帅 说:

    国平老师的博客每篇文章都很值得细看,这篇文章也看了好几遍了,或许自己的理解力有点问题,想请教下国平老师几个问题:
    1.以百度蜘蛛为例,软件“页面分析”中,我的网站有16个页面被抓取,其中只有1个页面被重复抓取45次,其他各一次,总共59次;但是“概要分析”中却显示百度蜘蛛访问次数132次;总抓取量230,这个有冲突吗?

    2.IP排行里面,IP查询里面有两个参数“本站主数据”和“参考数据一”,以百度蜘蛛为例,这两个数据要怎么看不是假的,比如都是北京的,一个是联通一个是电信?

    希望国平老师看到留言如果有空的话能帮我解答下。

    最后要说明下喜欢你的“数据指导SEO思想”~~

  156. 双色球 说:

    国平老师,去哪里买金币啊

  157. 990关键字 说:

    哇,这个软件的功能好强大啊,很好奇

  158. 宅娱乐 说:

    很好用的工具,我正在使用光年SEO分析宅娱乐的日志,发现了不少问题

  159. 下载用用看 好东西啊!

  160. 下载来试试 ,是需要这种系统化的工具哈。

  161. 卡夫特 说:

    下载来试试 ,是需要这种系统化的工具哈。

  162. 看看这个软件好用,seo能用数据说话就更好了

  163. 球迷围巾 说:

    慕名而来,收获颇丰,感谢!

  164. 苏州seo 说:

    科学seo,数据说话,以后也好好利用数据,学做科学seo!

  165. 不错的工具,分析的很是透彻啊。。

  166. 云晨守望 说:

    真的很不错,支持一个

  167. 不错~~ 下下来用了下,不过还有很多东西都不懂啊~

  168. ahugeng 说:

    正在使用,感谢!

  169. alone 说:

    这个能否帮我通过论坛的账户审核呢?谢谢了

  170. 一新导购 说:

    这个工具好,一定要下载看下!

  171. 肉牛 说:

    很好用的工具,大家多多使用

  172. 李李 说:

    你好 老师 ! 我有一个问题想请教你一下 希望你看到能帮忙回答一下
    问题是 用光年日志分析系统查出来数据 知道蜘蛛大量的爬取了非重要的页面的时候 解决方法是不是用robots禁止被大量抓取的非重要页面??、

  173. 纱管纸 说:

    以后就多来您这里转转了。

  174. 陈天铸 说:

    我到现在还迷茫 怎么通过这些数据来分析。。。请老师指点下

  175. 揭阳seo 说:

    光年分析软件太强大了,特别喜欢

  176. 站翼 说:

    软件非常强大 还在学习中

  177. gxwuming 说:

    lynx在线版 – http://lynx.semyj.com/ 打不开了,望国平能处理一下!

  178. 阜阳SEO 说:

    这么多人看啊

发表回复