Lynx浏览器在SEO上的应用

曾经有朋友问我怎么才能判断一个SEOer是不是高手。我就出了一个主意,就建议他问那个SEOer是不是知道Lynx在SEO上的应用方法。这么来提问,其实能从一个侧面反映这个SEOer对SEO研究有多深的。

现在SEO行业,虽然有很多以讹传讹的言论,但是如果自己经常实践,还是能找到很多真正有用的操作方法。实践久了,也能判断谁的说法正确,谁的说法有问题,这样的SEOER,可以放心的让他去操作一些比较重要的网站了。再进一步的给网站各个细节优化过程中,就会发现很多以前别人没有谈到过,也很难在优化一些小网站的过程中注意到的细节。这些细节,在别的地方很难找到相关的参考资料,或者根本就找不到。但是在google的《google网站质量指南》、《google黑板报》、《google中文网站管理员博客》,基本上都可以找到关于这些细节的只言片语的。只不过那里面也只是给出了一个方向,更具体的细节还是要靠你自己再去实践。

《google网站质量指南》 的第一页 ,就已经建议大家去用Lynx这个工具区检测你的网站:

使用诸如 Lynx 的文本浏览器来检查您的网站,因为大多数搜索引擎信息采集软件查看您网站的方式与 Lynx 几乎一样。如果诸如 Javascript、Cookie、会话 ID、框架、DHTML 或 Flash 等复杂功能造成您无法在文本浏览器中看到整个网站,则搜索引擎信息采集软件在抓取您的网站时可能会遇到问题。

这里提到了“Lynx查看网站的方式和搜索引擎几乎一样的”。一个SEOer,如果真的到了很多细节都无法从别人那里获取参考的程度,那这段话相信他很难忽视掉的。

我用了一段时间的Lynx,发现这个曾经的文本浏览器和搜索引擎爬虫很像的。你所听过的爬虫特性,在这里面都能找到一点影子。

比如检测隐藏链接,我们只知道搜索引擎是不喜欢的,但是具体的检测方法是怎么样的呢? 如果你用熟了Lynx,就发现一个非常简单的命令就搞定了。

首先要搭建一个Lynx的运行环境。Lynx不能用那种编译过的在windows下运行的版本,有很多功能是不能用的。建议在XP下装一个虚拟机,然后在虚拟机里装一个linux系统来运行Lynx。

虚拟机软件用 VirtualBox 或者 VMWare,具体的安装方法大家google之。 Linux系统推荐用Ubuntu,它可以在图形界面上安装lynx。

在装了Lynx的Linux系统的命令模式下输入:lynx -dump www.alibaba.com  并回车,这个页面上的隐藏链接就一览无余了。如:

检测出了隐藏链接

检测出了隐藏链接

然后再进一步的分析一下,是哪些链接Lynx会认为是隐藏链接呢?

可以看到,至少以下的一种链接是会被Lynx认为是隐藏链接的。代码为:

 <a href=”http://www.alibaba.com”>  </a>

这个链接,即没有文字作为锚文本,也没有图片或其他作为链接的对象。如果不去加载CSS文件或JS文件,光就这个代码,在网页上是看不到这个链接的存在的。当然这就是隐藏链接,毫无争议的。

 这是Lynx认为的情况,搜索引擎也是一样的。从整个互联网来看,这种检测方法在99%的情况下都不会冤枉一个网站的。对于google来说,一个检测方法,如果能有40%以上的反作弊效率,那是非常好的一个方法。

一个非作弊的网站,产生这种情况的原因,是因为网页设计人员的一些“奇怪”的代码写法。如果你去检测你的网站,说不定也能看到这些隐藏链接。

当然,Lynx的作用不止这个。它首先是能以一个可视化的角度来展现爬虫看到了什么内容。用它可以挨个检查你的网页给搜索引擎爬虫展现了怎么样的内容。如:

Lynx看到的内容

Lynx看到的内容

然后才是其他的一些功能:

  • 可以检测网页代码的完整性。如果提示有“Bad HTML”就要注意一下。
  • 可以和IE一样查看源文件。 命令在附录中。
  • 对cookie的跟踪是特别对待的。会提示你是不是跟踪cookie。
  • 对框架和表单的处理和爬虫是一样的。
  • URL太多参数,会造成浏览困难。
  • 可以查看网页返回的http头信息

……

你会看到很多似曾相识的东西。

Lynx 的出现时期,恰好是第一个爬虫程序诞生的时候。有相当大的理由相信他们的是一样的理念。而且现在维护和更新Lynx的人员,有些也在维护其他开源的爬虫程序。你其实也可以把Lynx看成一个可视化的爬虫。

HTTrack 是一个比较宏观的爬虫模拟器。而Lynx就更细节一些,也更实用一点。

———————————————

附录 Lynx的简要使用说明:

移动命令:
下方向键:页面上的下一个链接(用高亮度显示)。
上方向键:页面上的前一个链接(用高亮度显示)。
回车和右方向键:
跳转到链接指向的地址。
左方向键:回到上一个页面。

滚动命令:
+,Page-Down,Space,Ctrl+f:
向下翻页。
-,Page-Up,b,Ctrl+b:
向上翻页。
Ctrl+a: 移动到当前页的最前面。
Ctrl+e: 移动到当前页的最后面。
Ctrl+n: 向下翻两行。
Ctrl+p: 往回翻两行。
): 向下翻半页。
(: 往回翻半页。
#: 回到当前页的 Toolbar 或 Banner。

文件操作命令:

c: 建立一个新文件。
d: 下载选中的文件。
E: 编辑选中的文件。
f: 为当前文件显示一个选项菜单。
m: 修改选中文件的名字或位置。
r: 删除选中的文件。
t: Tag highlighted file。
u: 上载一个文件到当前目录。

其他命令:

?,h: 帮助。
a: 把当前链接加入到一个书签文件里。
c: 向页面的拥有者发送意见或建议。
d: 下载当前链接。
e: 编辑当前文件。
g: 跳转到一个用户指定的URL或文件。
G: 编辑当前页的URL,并跳转到这个URL。
i: 显示文档索引。
j: 执行预先定义的“短”命令。
k: 显示键盘命令列表。
l: 列出当前页上所有链接的地址。
m: 回到首页。
o: 设置选项。
p: 把当前页输出到文件,e-mail,打印机或其他地方。
q: 退出。
/: 在当前页内查找字符串。
s: 在外部搜索输入的字符串。
n: 搜索下一个。
v: 查看一个书签文件。
V: 跳转到访问过的地址。
x: 不使用缓存。
z: 停止当前传输。
[backspace]:
跳转到历史页(同 V 命令)。
=: 显示当前页的信息。
: 查看当前页的源代码。
!: 回到shell提示符下。
_: 清除当前任务的所有授权信息。
*: 图形链接模式的切换开关。
@: 8位传输模式或CJK模式的切换开关。
[: pseudo_inlines 模式的切换开关。
]: 为当前页或当前链接发送一个“HEAD”请求。
Ctrl+r: 重新装如当前页并且刷新屏幕。
Ctrl+w: 刷新屏幕。
Ctrl+u: 删除输入的行。
Ctrl+g: 取消输入或者传送。
Ctrl+t: 跟踪模式的切换开关。
;: 看 Lynx 对当前任务的跟踪记录。
Ctrl+k: 调用 Cookie Jar 页。
数字键: 到后面的第 n 个链接。



41 Responses to “ Lynx浏览器在SEO上的应用 ”

  1. mars 说:

    学习了。楼主的文章真是字字含金啊!

  2. KK 说:

    新知识

  3. 我@soho 说:

    拜读!学习很多啊。

  4. 马龙飞 说:

    果然很强 祝 SEM一家之言越来越好

  5. 学习
    这个以前真没在意

  6. cm 说:

    看到这篇文章,我笑啦. 哈哈…
    非常非常感谢!!!

  7. 真厉害,这些在以前都是不知道的阿!

  8. seang 说:

    学习了…

  9. fxy110 说:

    没有理由说不好

  10. SEO研究院 说:

    字字是金子。

  11. imwxm 说:

    好东西 学习了

  12. 太深奥了,没搞懂,来流量就行了,那些太深奥的技术不去理它

  13. lowkey 说:

    我还真的是不会用。呵呵~~!

  14. 叶夜曳 说:

    Windows版的我怎么都不会用啊

  15. 英文SEO 说:

    貌似博主说的软件不适合win XP系统是吧 怎么我下的不能用

  16. 家铭 说:

    新知识,学到了很多

  17. Kong 说:

    感谢博主无私的分享·

  18. 转角遇到钱 说:

    Lynx在WIN系统下是无法运行的!我一直都是在虚拟系统中用

  19. 核桃 说:

    这个浏览器我很少用到,因为WINDOWS下的支持实在不太好,不过用来检查这些细节的确是值得推荐,在清理一些页面无关的代码时显得很有用。

    上次在跟张帆讨论的时候发现一个奇怪的问题,当一个链接定义过title的时候,Lynx会在显示链接的时候显示title而不是显示锚文本,这个有点奇怪。

  20. 大排 说:

    好东西,试验一下去

  21. 啊聊 说:

    学习了,另外一种境界

  22. 杭州小斯 说:

    高手!遇见高手!疯狂学习中…立刻实践下!幸好没删虚拟机!

  23. Evance 说:

    国平,记得上一次偶提出的那一个问题:
    为什么lynx有时候会把一个看起来完全没有任何问题的链接看作是hidden links呢??

    我查过很多资料,都还没有得到比较有效的结果叻

    • 云浮seo 说:

      对啊,我网站上的一个留言本链接也被看作是hidden links了,我也在找答案的。为什么会有这种情况,国平大哥能告诉一下吗?

  24. 福州seo 说:

    我也是个非专业的seo
    这个工具今天才发现
    可惜是XP的系统不能用
    要不还真想拿来测试一下看看

  25. qzhlove 说:

    只能在linux上使用?

  26. 叶夜曳 说:

    Windows下无法显示中文。。

  27. [...] 《google网站质量指南》里尽管事无巨细写了很多,但是还有很多是点到即止的。像我在《Lynx浏览器在SEO上的应用》里写的Lynx就是。还有一些是要你自己去发掘的,像《我也谈一下nofollow》里写的nofollow属性,《google网站质量指南》是在很多篇文章里从不同的角度谈到了它的特点。很多条目是因为那件事情本无法仔细描述而没有详细写,还有一些是因为不能透漏更具体的信息以免被喜欢spam的人利用。 [...]

  28. [...] 在SEO上的应用和Lynx浏览器在SEO上的应用以及利用Google Search Appliance [...]

  29. cave 说:

    希望能一直保持现在这样

  30. LV 说:

    独孤推荐说得真是不错,你的博客真的写得很好

  31. Junke 说:

    我在ubuntu下安装了lynx,发现对中文支持不好。使用lynx -dump查看隐藏链接,不看不知道,一看吓一跳。260多个链接都被lynx认为是隐藏链接。
    我再用lynx -dump去查看很多优化的不错的网站,也发现数量惊人隐藏链接。

    如果google果真以此来判断网站是否作弊,哪这些含有N多“隐藏链接”的网站不是都应该被拔掉了吗?

    小弟愚见,望高手指正。

    最后推荐另一款不错的文本浏览器,w3m。对中文支持良好,ubuntu自带。刚使用不久,还没发现查看隐藏链接的功能。

  32. seo博客 说:

    讲得非常细致,很好的文章。不过,个人认为,做seo不必这么细致、较真,可以去检测一下首页、栏目页,或者都不检测。我觉得个别的错误不会对seo造成太大的影响,一个错误的、隐藏链接也不会被判定会作弊。但对于您的细致认真,还是非常敬佩的,这是一种严谨的治学和工作态度,非常值得学习。

Leave a Reply