曾经有朋友问我怎么才能判断一个SEOer是不是高手。我就出了一个主意,就建议他问那个SEOer是不是知道Lynx在SEO上的应用方法。这么来提问,其实能从一个侧面反映这个SEOer对SEO研究有多深的。
现在SEO行业,虽然有很多以讹传讹的言论,但是如果自己经常实践,还是能找到很多真正有用的操作方法。实践久了,也能判断谁的说法正确,谁的说法有问题,这样的SEOER,可以放心的让他去操作一些比较重要的网站了。再进一步的给网站各个细节优化过程中,就会发现很多以前别人没有谈到过,也很难在优化一些小网站的过程中注意到的细节。这些细节,在别的地方很难找到相关的参考资料,或者根本就找不到。但是在google的《google网站质量指南》、《google黑板报》、《google中文网站管理员博客》,基本上都可以找到关于这些细节的只言片语的。只不过那里面也只是给出了一个方向,更具体的细节还是要靠你自己再去实践。
在《google网站质量指南》 的第一页 ,就已经建议大家去用Lynx这个工具区检测你的网站:
使用诸如 Lynx 的文本浏览器来检查您的网站,因为大多数搜索引擎信息采集软件查看您网站的方式与 Lynx 几乎一样。如果诸如 Javascript、Cookie、会话 ID、框架、DHTML 或 Flash 等复杂功能造成您无法在文本浏览器中看到整个网站,则搜索引擎信息采集软件在抓取您的网站时可能会遇到问题。
这里提到了“Lynx查看网站的方式和搜索引擎几乎一样的”。一个SEOer,如果真的到了很多细节都无法从别人那里获取参考的程度,那这段话相信他很难忽视掉的。
我用了一段时间的Lynx,发现这个曾经的文本浏览器和搜索引擎爬虫很像的。你所听过的爬虫特性,在这里面都能找到一点影子。
比如检测隐藏链接,我们只知道搜索引擎是不喜欢的,但是具体的检测方法是怎么样的呢? 如果你用熟了Lynx,就发现一个非常简单的命令就搞定了。
首先要搭建一个Lynx的运行环境。Lynx不能用那种编译过的在windows下运行的版本,有很多功能是不能用的。建议在XP下装一个虚拟机,然后在虚拟机里装一个linux系统来运行Lynx。
虚拟机软件用 VirtualBox 或者 VMWare,具体的安装方法大家google之。 Linux系统推荐用Ubuntu,它可以在图形界面上安装lynx。
在装了Lynx的Linux系统的命令模式下输入:lynx -dump www.alibaba.com 并回车,这个页面上的隐藏链接就一览无余了。如:

检测出了隐藏链接
然后再进一步的分析一下,是哪些链接Lynx会认为是隐藏链接呢?
可以看到,至少以下的一种链接是会被Lynx认为是隐藏链接的。代码为:
<a href=”http://www.alibaba.com”> </a>
这个链接,即没有文字作为锚文本,也没有图片或其他作为链接的对象。如果不去加载CSS文件或JS文件,光就这个代码,在网页上是看不到这个链接的存在的。当然这就是隐藏链接,毫无争议的。
这是Lynx认为的情况,搜索引擎也是一样的。从整个互联网来看,这种检测方法在99%的情况下都不会冤枉一个网站的。对于google来说,一个检测方法,如果能有40%以上的反作弊效率,那是非常好的一个方法。
一个非作弊的网站,产生这种情况的原因,是因为网页设计人员的一些“奇怪”的代码写法。如果你去检测你的网站,说不定也能看到这些隐藏链接。
当然,Lynx的作用不止这个。它首先是能以一个可视化的角度来展现爬虫看到了什么内容。用它可以挨个检查你的网页给搜索引擎爬虫展现了怎么样的内容。如:

Lynx看到的内容
然后才是其他的一些功能:
……
你会看到很多似曾相识的东西。
Lynx 的出现时期,恰好是第一个爬虫程序诞生的时候。有相当大的理由相信他们的是一样的理念。而且现在维护和更新Lynx的人员,有些也在维护其他开源的爬虫程序。你其实也可以把Lynx看成一个可视化的爬虫。
HTTrack 是一个比较宏观的爬虫模拟器。而Lynx就更细节一些,也更实用一点。
———————————————
附录 Lynx的简要使用说明:
移动命令:
下方向键:页面上的下一个链接(用高亮度显示)。
上方向键:页面上的前一个链接(用高亮度显示)。
回车和右方向键:
跳转到链接指向的地址。
左方向键:回到上一个页面。
滚动命令:
+,Page-Down,Space,Ctrl+f:
向下翻页。
-,Page-Up,b,Ctrl+b:
向上翻页。
Ctrl+a: 移动到当前页的最前面。
Ctrl+e: 移动到当前页的最后面。
Ctrl+n: 向下翻两行。
Ctrl+p: 往回翻两行。
): 向下翻半页。
(: 往回翻半页。
#: 回到当前页的 Toolbar 或 Banner。
文件操作命令:
c: 建立一个新文件。
d: 下载选中的文件。
E: 编辑选中的文件。
f: 为当前文件显示一个选项菜单。
m: 修改选中文件的名字或位置。
r: 删除选中的文件。
t: Tag highlighted file。
u: 上载一个文件到当前目录。
其他命令:
?,h: 帮助。
a: 把当前链接加入到一个书签文件里。
c: 向页面的拥有者发送意见或建议。
d: 下载当前链接。
e: 编辑当前文件。
g: 跳转到一个用户指定的URL或文件。
G: 编辑当前页的URL,并跳转到这个URL。
i: 显示文档索引。
j: 执行预先定义的“短”命令。
k: 显示键盘命令列表。
l: 列出当前页上所有链接的地址。
m: 回到首页。
o: 设置选项。
p: 把当前页输出到文件,e-mail,打印机或其他地方。
q: 退出。
/: 在当前页内查找字符串。
s: 在外部搜索输入的字符串。
n: 搜索下一个。
v: 查看一个书签文件。
V: 跳转到访问过的地址。
x: 不使用缓存。
z: 停止当前传输。
[backspace]:
跳转到历史页(同 V 命令)。
=: 显示当前页的信息。
: 查看当前页的源代码。
!: 回到shell提示符下。
_: 清除当前任务的所有授权信息。
*: 图形链接模式的切换开关。
@: 8位传输模式或CJK模式的切换开关。
[: pseudo_inlines 模式的切换开关。
]: 为当前页或当前链接发送一个“HEAD”请求。
Ctrl+r: 重新装如当前页并且刷新屏幕。
Ctrl+w: 刷新屏幕。
Ctrl+u: 删除输入的行。
Ctrl+g: 取消输入或者传送。
Ctrl+t: 跟踪模式的切换开关。
;: 看 Lynx 对当前任务的跟踪记录。
Ctrl+k: 调用 Cookie Jar 页。
数字键: 到后面的第 n 个链接。
学习了。楼主的文章真是字字含金啊!
新知识
拜读!学习很多啊。
你的头像真好玩
果然很强 祝 SEM一家之言越来越好
学习
这个以前真没在意
看到这篇文章,我笑啦. 哈哈…
非常非常感谢!!!
真厉害,这些在以前都是不知道的阿!
学习了…
没有理由说不好
字字是金子。
好东西 学习了
太深奥了,没搞懂,来流量就行了,那些太深奥的技术不去理它
我还真的是不会用。呵呵~~!
Windows版的我怎么都不会用啊
貌似博主说的软件不适合win XP系统是吧 怎么我下的不能用
新知识,学到了很多
感谢博主无私的分享·
Lynx在WIN系统下是无法运行的!我一直都是在虚拟系统中用
这个浏览器我很少用到,因为WINDOWS下的支持实在不太好,不过用来检查这些细节的确是值得推荐,在清理一些页面无关的代码时显得很有用。
上次在跟张帆讨论的时候发现一个奇怪的问题,当一个链接定义过title的时候,Lynx会在显示链接的时候显示title而不是显示锚文本,这个有点奇怪。
好东西,试验一下去
学习了,另外一种境界
高手!遇见高手!疯狂学习中…立刻实践下!幸好没删虚拟机!
http://www.fdisk.com/doslynx/wlynx/lynx_w32.2.8.3dev.17.zip
Win版下载地址
国平,记得上一次偶提出的那一个问题:
为什么lynx有时候会把一个看起来完全没有任何问题的链接看作是hidden links呢??
我查过很多资料,都还没有得到比较有效的结果叻
对啊,我网站上的一个留言本链接也被看作是hidden links了,我也在找答案的。为什么会有这种情况,国平大哥能告诉一下吗?
我也是个非专业的seo
这个工具今天才发现
可惜是XP的系统不能用
要不还真想拿来测试一下看看
只能在linux上使用?
楼主这篇文章似乎到处 都有?
http://www.cnzhanzhang.com/viewthread.php?tid=25206
转载于本站
Windows下无法显示中文。。
用要设置字符集的
[...] 《google网站质量指南》里尽管事无巨细写了很多,但是还有很多是点到即止的。像我在《Lynx浏览器在SEO上的应用》里写的Lynx就是。还有一些是要你自己去发掘的,像《我也谈一下nofollow》里写的nofollow属性,《google网站质量指南》是在很多篇文章里从不同的角度谈到了它的特点。很多条目是因为那件事情本无法仔细描述而没有详细写,还有一些是因为不能透漏更具体的信息以免被喜欢spam的人利用。 [...]
[...] 在SEO上的应用和Lynx浏览器在SEO上的应用以及利用Google Search Appliance [...]
希望能一直保持现在这样
学习了
独孤推荐说得真是不错,你的博客真的写得很好
我在ubuntu下安装了lynx,发现对中文支持不好。使用lynx -dump查看隐藏链接,不看不知道,一看吓一跳。260多个链接都被lynx认为是隐藏链接。
我再用lynx -dump去查看很多优化的不错的网站,也发现数量惊人隐藏链接。
如果google果真以此来判断网站是否作弊,哪这些含有N多“隐藏链接”的网站不是都应该被拔掉了吗?
小弟愚见,望高手指正。
最后推荐另一款不错的文本浏览器,w3m。对中文支持良好,ubuntu自带。刚使用不久,还没发现查看隐藏链接的功能。
国平文章里已经说了,google肯定也会考虑其他因素。。。如网站权威性等等
Dober zacetek
讲得非常细致,很好的文章。不过,个人认为,做seo不必这么细致、较真,可以去检测一下首页、栏目页,或者都不检测。我觉得个别的错误不会对seo造成太大的影响,一个错误的、隐藏链接也不会被判定会作弊。但对于您的细致认真,还是非常敬佩的,这是一种严谨的治学和工作态度,非常值得学习。
做好每个细节是对于一个网站是非常有必要的。学习了..
hey there really good little website you have here
I apply the same design template on my own website yet unfortunately for whichever explanation it seems to stream more rapidly on this web site eventhough your own is carrying considerably more multimedia. Are you currently using any plug ins or widgets which will quicken it up? Do you think you could possibly share the widgets so I can use these on my own site so twilight eclipse users could watch twilight new moon online trailers and films easier I’d be ever so thankful – thank you ahead of time
Hi, it’s a bit offtopic but may I ask you where did you get this blog template? I’m going to start bloggin as well, I’m a bit noob though but I really like it
Let me know… Anyway, nice website!
Nice post, this is exactly the information I was looking for. Are you going to be covering this topic in greater detail soon? Hope so! Thanks
请教下用Lynx在线浏览器看网站的几个问题
本帖最后由 ccchina 于 2010-6-1 06:55 编辑
1、用Lynx浏览器看我的网站 最开头是#[1]RSS网站标题
这个#[1]RSS 放在网站标题前面是不是有问题
我的网站是用ecshop做的
请教高手 ,这是什么意思呢? 是否需要改动呢?
2、为什么用lynx在线浏览器看部分网站(PR值 Seo都做得不错) 的网站 看不到任何文本呢?
是不是lync在线浏览器还有问题?
I love your post. It’s very informative. Thanks for sharing. Hope to see more interesting post form your site.,:)
Thanks for sharing the link, but unfortunately it seems to be down… Does anybody have a mirror or another source? Please reply to my post if you do!
Thanks,
William
希望你天天写文章,可以让我们学习更多的东西
Great site! This is very informative. Hope to see more interesting blog from your amazing site. Thank you for sharing.
[...] 另外一个搜索引擎蜘蛛分析SEO工具就是Lynx, Lynx可以帮你查看蜘蛛看到你网页的内容,以及内容关键词出现的位置。同时Google谷歌管理工具里面的”像Googlebot一样抓取“都可以帮助我们查看搜索引擎蜘蛛的体验。 [...]
I really appreciate the effort that was put into this info you have posted.
Your header is a bit wonky in Opera, mate.