<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>SEM 一家之言 &#187; SEM工具</title>
	<atom:link href="http://www.semyj.com/archives/category/seo-gongju/feed" rel="self" type="application/rss+xml" />
	<link>http://www.semyj.com</link>
	<description>关注SEO和PPC</description>
	<lastBuildDate>Sun, 18 Jul 2010 00:26:23 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.9.2</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<item>
		<title>Google 关键词批量获取工具</title>
		<link>http://www.semyj.com/archives/1255</link>
		<comments>http://www.semyj.com/archives/1255#comments</comments>
		<pubDate>Sun, 18 Jul 2010 00:25:48 +0000</pubDate>
		<dc:creator>国平</dc:creator>
				<category><![CDATA[SEM工具]]></category>

		<guid isPermaLink="false">http://www.semyj.com/?p=1255</guid>
		<description><![CDATA[在做SEM工作的过程中，经常要和关键词打交道。有时候因为各种需要，要查询某一批词语的信息，比如要查到他们的搜索量，而这批词语数量可能还不少。另外有的时候，需要准备好一个你这个行业内潜在用户有可能搜索的所有词语的词库。
“Google关键词工具”（https://adwords.google.com/select/KeywordToolExternal）是很多人常用的工具之一。这个工具即可以查询某个关键词的搜索量，还可以由一个词查出这个词语的相关词，非常适合用来扩展词库。但是如果手工把一个个的词语输入进去查询，非常的单调又耗时。 为了说明这个软件的作用，先来看看google关键词工具一次最简单的查询，这样的工作要是重复上百次估计很多人都受不了。

 
最近因为有很多人有这种批量化获取关键词的需求，所以有了这个“Google 关键词批量获取工具”。
以下是这个工具的截图：
软件的第一步，就是要选择是否登录帐号查询。这里的帐号是指左边网页中的adwords帐号。在不登录帐号的情况下，每个关键词只能查出最多100个相关关键词。在登录帐号以后，可以查出最多800个相关关键词。而adwords帐号很容易获取，任何一个gmail账户登录一下然后按照提示操作就可以，免费的（不充值就是）。在adwords账户没有登录的情况下，在查询时，会出现一次验证码。但是输入验证码以后，只要页面还处于活动状态，验证码就不会再出现。
第二步是把要查询的关键词输入进去，粘贴进去也可，一行一个关键词。为了防止这个软件被滥用而造成大家都用不了，这个版本暂时被限制一次只能查一百个词语。
第三步就是选择文件保存的位置。 在按“开始”键之前，你可以在左边的网页中，点击“高级选项”来选择一些限制条件。
最后按“开始”，软件就会自动下载你需要的文件。这个过程完全是模拟手工的操作。
“Google 关键词批量获取工具”的下载地址为：
http://www.semyj.com/google_tool/google.rar
Google的关键词文件被下载后，是一个个的压缩包，不可能再去一个个的解压缩查看。可以按如下步骤操作：
1，先把文件批量解压缩： 选中所有的下载文件（不能选中非压缩文件），然后点右键选择“解压到当前文件夹”。这样所有的解压后文件就都在同一个文件夹了。
2，用本站的“CSV文件合并工具”把所有的文件合并到同一个Excel文件里。
“CSV文件合并工具”的下载地址为：
http://www.semyj.com/google_tool/csvtool.rar
3，在Excel里（推荐Excel2007）把重复的关键词去重即可。
希望这两个工具能对大家有用。软件都很粗糙，还有很多不完善的地方，大家在使用过程中有什么问题尽管反馈，会在第一时间内修复。大家还有什么需要自动化操作的软件也可以提出来。
这种获取关键词的方式，还可以用adwords API实现，但是那个方式google还需要收取费用，特别是在这种查询相关关键词以及获取这些关键词的搜索数据的时候，比较消耗API单位，平均每查一个关键词都比较费钱，所以这个用软件的方法还蛮物美价廉的。
]]></description>
			<content:encoded><![CDATA[<p>在做SEM工作的过程中，经常要和关键词打交道。有时候因为各种需要，要查询某一批词语的信息，比如要查到他们的搜索量，而这批词语数量可能还不少。另外有的时候，需要准备好一个你这个行业内潜在用户有可能搜索的所有词语的词库。</p>
<p>“Google关键词工具”（<a href="https://adwords.google.com/select/KeywordToolExternal" target="_blank">https://adwords.google.com/select/KeywordToolExternal</a>）是很多人常用的工具之一。这个工具即可以查询某个关键词的搜索量，还可以由一个词查出这个词语的相关词，非常适合用来扩展词库。但是如果手工把一个个的词语输入进去查询，非常的单调又耗时。 为了说明这个软件的作用，先来看看google关键词工具一次最简单的查询，这样的工作要是重复上百次估计很多人都受不了。</p>
<p><span id="more-1255"></span></p>
<div class="wp-caption alignnone" style="width: 546px"><object classid="clsid:d27cdb6e-ae6d-11cf-96b8-444553540000" width="536" height="544" codebase="http://download.macromedia.com/pub/shockwave/cabs/flash/swflash.cab#version=6,0,40,0"><param name="quality" value="high" /><param name="src" value="http://www.semyj.com/wp-content/uploads/2010/07/googleadwords.swf" /><embed type="application/x-shockwave-flash" width="536" height="544" src="http://www.semyj.com/wp-content/uploads/2010/07/googleadwords.swf" quality="high"></embed></object><p class="wp-caption-text">大量重复操作</p></div>
<p> </p>
<p>最近因为有很多人有这种批量化获取关键词的需求，所以有了这个“Google 关键词批量获取工具”。</p>
<p>以下是这个工具的截图：</p>
<div id="attachment_1258" class="wp-caption alignnone" style="width: 510px"><a href="http://www.semyj.com/wp-content/uploads/2010/07/adwords-gongju2.gif"><img class="size-full wp-image-1258" title="adwords-gongju2" src="http://www.semyj.com/wp-content/uploads/2010/07/adwords-gongju2.gif" alt="软件截图" width="500" height="375" /></a><p class="wp-caption-text">软件截图</p></div>
<p>软件的第一步，就是要选择是否登录帐号查询。这里的帐号是指左边网页中的adwords帐号。在不登录帐号的情况下，每个关键词只能查出最多100个相关关键词。在登录帐号以后，可以查出最多800个相关关键词。而adwords帐号很容易获取，任何一个gmail账户登录一下然后按照提示操作就可以，免费的（不充值就是）。在adwords账户没有登录的情况下，在查询时，会出现一次验证码。但是输入验证码以后，只要页面还处于活动状态，验证码就不会再出现。</p>
<p>第二步是把要查询的关键词输入进去，粘贴进去也可，一行一个关键词。为了防止这个软件被滥用而造成大家都用不了，这个版本暂时被限制一次只能查一百个词语。</p>
<p>第三步就是选择文件保存的位置。 在按“开始”键之前，你可以在左边的网页中，点击“高级选项”来选择一些限制条件。</p>
<div id="attachment_1267" class="wp-caption alignnone" style="width: 510px"><a href="http://www.semyj.com/wp-content/uploads/2010/07/adwords-gongju3.gif"><img class="size-full wp-image-1267" title="adwords-gongju3" src="http://www.semyj.com/wp-content/uploads/2010/07/adwords-gongju3.gif" alt="高级选项" width="500" height="508" /></a><p class="wp-caption-text">高级选项</p></div>
<p>最后按“开始”，软件就会自动下载你需要的文件。这个过程完全是模拟手工的操作。</p>
<p><strong>“Google 关键词批量获取工具”的下载地址为：</strong></p>
<p><a href="http://www.semyj.com/google_tool/google.rar">http://www.semyj.com/google_tool/google.rar</a></p>
<p>Google的关键词文件被下载后，是一个个的压缩包，不可能再去一个个的解压缩查看。可以按如下步骤操作：</p>
<p>1，先把文件批量解压缩： 选中所有的下载文件（不能选中非压缩文件），然后点右键选择“解压到当前文件夹”。这样所有的解压后文件就都在同一个文件夹了。</p>
<div id="attachment_1274" class="wp-caption alignnone" style="width: 398px"><a href="http://www.semyj.com/wp-content/uploads/2010/07/adwords-gongju4.gif"><img class="size-full wp-image-1274" title="adwords-gongju4" src="http://www.semyj.com/wp-content/uploads/2010/07/adwords-gongju4.gif" alt="批量解压缩" width="388" height="308" /></a><p class="wp-caption-text">批量解压缩</p></div>
<p>2，用本站的“CSV文件合并工具”把所有的文件合并到同一个Excel文件里。</p>
<div id="attachment_1281" class="wp-caption alignnone" style="width: 529px"><a href="http://www.semyj.com/wp-content/uploads/2010/07/adwords-gongju6.gif"><img class="size-full wp-image-1281" title="adwords-gongju6" src="http://www.semyj.com/wp-content/uploads/2010/07/adwords-gongju6.gif" alt="CSV合并工具" width="519" height="384" /></a><p class="wp-caption-text">CSV合并工具</p></div>
<p><strong>“CSV文件合并工具”的下载地址为：</strong></p>
<p><a href="http://www.semyj.com/google_tool/csvtool.rar">http://www.semyj.com/google_tool/csvtool.rar</a></p>
<p>3，在Excel里（推荐Excel2007）把重复的关键词去重即可。</p>
<div id="attachment_1276" class="wp-caption alignnone" style="width: 405px"><a href="http://www.semyj.com/wp-content/uploads/2010/07/adwords-gongju5.gif"><img class="size-full wp-image-1276" title="adwords-gongju5" src="http://www.semyj.com/wp-content/uploads/2010/07/adwords-gongju5.gif" alt="去重处理" width="395" height="397" /></a><p class="wp-caption-text">去重处理</p></div>
<p>希望这两个工具能对大家有用。软件都很粗糙，还有很多不完善的地方，大家在使用过程中有什么问题尽管反馈，会在第一时间内修复。大家还有什么需要自动化操作的软件也可以提出来。</p>
<p>这种获取关键词的方式，还可以用adwords API实现，但是那个方式google还需要收取费用，特别是在这种查询相关关键词以及获取这些关键词的搜索数据的时候，比较消耗API单位，平均每查一个关键词都比较费钱，所以这个用软件的方法还蛮物美价廉的。</p>
]]></content:encoded>
			<wfw:commentRss>http://www.semyj.com/archives/1255/feed</wfw:commentRss>
		<slash:comments>61</slash:comments>
		</item>
		<item>
		<title>对你有用的谷歌SEM工具</title>
		<link>http://www.semyj.com/archives/975</link>
		<comments>http://www.semyj.com/archives/975#comments</comments>
		<pubDate>Sun, 10 Jan 2010 03:18:05 +0000</pubDate>
		<dc:creator>Phyllis</dc:creator>
				<category><![CDATA[PPC入门]]></category>
		<category><![CDATA[SEM工具]]></category>

		<guid isPermaLink="false">http://www.semyj.com/?p=975</guid>
		<description><![CDATA[好久没写东西了。这个博客原来是两个人合写的，但是绝大部分都是国平一个人在写。写文章对我真的是一件很痛苦的事情。今天这篇大部分是翻译自Gordon的文章，我觉得这些内容对于营销人员是非常有用的。
&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;-
作为一个站长或者PPCer, SEOer, 不论你是要开展付费搜索计划，还是希望对网站的自然搜索流量更进一步的观察，你都可以用谷歌的很多工具帮助制定计划，优化投放或者衡量产出。
谷歌的工具主要可以分为三类：
付费搜索工具-搜索网络
付费搜索工具-内容网络
自然搜索工具
在不同阶段，谷歌的工具都可以帮助你：

广告计划阶段-
谷歌搜索解析， 关键词工具，基于搜索的关键词工具,  流量估算工具， Ad Planner，多媒体广告制作工具, 相关搜索, 神奇罗盘, Adwords编辑器；
广告投放阶段-
转化优化工具，出价模拟工具，广告预览工具，展示位置工具，网站排除工具， 地理位置、语言等选择，投放时间设置
追踪效果，衡量产出-
使用转化跟踪工具，谷歌分析来跟踪不同来源流量的投入产出，用网站优化工具改善网站转化率，使用网站管理员工具找到并解决网站问题。
这个PPT更详细一点：


大部分工具可以在这个页面找到简介（只能找到英文版）
大部分工具我都用过，不过最喜欢用，用的最多是 adwords编辑器，关键词工具，谷歌分析，ad planner，特别推荐大家用ad planner，可能很多人都用过了，是一个非常有用的工具。
]]></description>
			<content:encoded><![CDATA[<p>好久没写东西了。这个博客原来是两个人合写的，但是绝大部分都是国平一个人在写。写文章对我真的是一件很痛苦的事情。今天这篇大部分是翻译自<a href="http://www.gordonchoi.com/google-sem-tools-20091204">Gordon</a>的文章，我觉得这些内容对于营销人员是非常有用的。</p>
<p>&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;-</p>
<p>作为一个站长或者PPCer, SEOer, 不论你是要开展付费搜索计划，还是希望对网站的自然搜索流量更进一步的观察，你都可以用谷歌的很多工具帮助制定计划，优化投放或者衡量产出。<br />
谷歌的工具主要可以分为三类：<br />
付费搜索工具-搜索网络<br />
付费搜索工具-内容网络<br />
自然搜索工具<br />
在不同阶段，谷歌的工具都可以帮助你：</p>
<p><span id="more-975"></span><br />
<strong>广告计划阶段-</strong><br />
<a href="http://www.google.com/insights/search/" target="_blank">谷歌搜索解析</a>， <a href="https://adwords.google.com/select/KeywordToolExternal" target="_blank">关键词工具</a>，<a href="http://www.google.com/sktool/">基于搜索的关键词工具</a>, <a href="http://www.google.com/sktool/" target="_blank"> 流量估算工具</a>， <a href="https://www.google.com/adplanner" target="_blank">Ad Planner</a>，多媒体广告制作工具, 相关搜索, 神奇罗盘, Adwords编辑器；<br />
<strong>广告投放阶段-</strong><br />
转化优化工具，出价模拟工具，广告预览工具，展示位置工具，网站排除工具， 地理位置、语言等选择，投放时间设置<br />
<strong>追踪效果，衡量产出-</strong><br />
使用<strong>转化跟踪工具</strong>，<strong>谷歌分析</strong>来跟踪不同来源流量的投入产出，用<strong>网站优化工具</strong>改善网站转化率，使用<strong>网站管理员工具</strong>找到并解决网站问题。</p>
<p>这个PPT更详细一点：</p>
<ul>
<iframe src="http://docs.google.com/present/embed?id=0AVGMTTM9RD1ZZGt4Y3NxZ18xODRmOXI5a3FncQ" frameborder="0" width="410" height="342"></iframe></ul>
<p>大部分工具可以在<a href="http://www.google.com/agencytoolkit/index-b.html" target="_blank">这个页面</a>找到简介（只能找到英文版）</p>
<p>大部分工具我都用过，不过最喜欢用，用的最多是 adwords编辑器，关键词工具，谷歌分析，ad planner，特别推荐大家用ad planner，可能很多人都用过了，是一个非常有用的工具。</p>
]]></content:encoded>
			<wfw:commentRss>http://www.semyj.com/archives/975/feed</wfw:commentRss>
		<slash:comments>49</slash:comments>
		</item>
		<item>
		<title>Lynx 在线版以及浏览器插件</title>
		<link>http://www.semyj.com/archives/827</link>
		<comments>http://www.semyj.com/archives/827#comments</comments>
		<pubDate>Thu, 26 Nov 2009 08:09:16 +0000</pubDate>
		<dc:creator>国平</dc:creator>
				<category><![CDATA[SEM工具]]></category>

		<guid isPermaLink="false">http://www.semyj.com/?p=827</guid>
		<description><![CDATA[最近还是太忙，所以关于内外部链接的文章还没开始写。现在给大家一个Lynx 在线版以及相关的浏览器插件。
我在《Lynx浏览器在SEO上的应用》一文中介绍过这个工具。不过有些人说在linux下没有安装好或者有乱码的出现。后来有人给我看了国外的一个Lynx在线版，但是那个在线版也存在着一些问题。我的这个Lynx 在线版把那些问题都解决了，使用起来还不错。
如果正在仔细阅读《google网站质量指南》的朋友应该能注意到，在这个《google网站质量指南》里，至少十几篇文章中都出现了要你去用Lynx检测网站的提示。而且是一到具体的做法的时候，都说：请用Lynx去检测你的网站，因为它和爬虫看到的内容几乎一样。这个工具在05年就有一些一线的SEOer在用了。
使用方法非常简单，你只要填入你要查看的URL，点击“查看”就可以了。网址要以http://开头。


URL:





如，我输入http://www.baidu.com/ ，查看到的界面如下：



输出的结果分为两部分：
第一部分，就是搜索引擎爬虫看到的内容，这个内容和别的查看方式都不一样。不仅显示了文字信息，还显示了网页的结构信息。去了解搜索引擎的原理就会知道，这种结构信息也是搜索引擎会储存下来的。 并且在分析你的网站讲了什么信息的时候，这些结构信息就是判断的依据。每个锚文本旁边还标上了这个链接的序号。
第二部分就是网站中所有爬虫能够识别的链接。有些网页这里会显示隐藏的链接。经常有人问我这个隐藏链接要不要紧，我这里统一回答一下：其实不是太重要，当你网站的SEO优化是正规的方法的话，可以忽视掉这个；但是当你用了很多黑帽的方法，这个隐藏链接就是让你“罪加一等”的地方。所以在alibaba的首页虽然也检测出几个隐藏链接，但是都没改过来。
刚接触这个工具，可能很多人不觉得这个工具有什么用的。建议大家用这个工具前，先看完以下几篇文章：
《分词与索引库》
《Lynx浏览器在SEO上的应用》
《把Web标准化进行得更彻底一点》
《“丰富网页摘要”，让你的网站与众不同。》
《“锚文本”在SEO方面的重要性》
这个工具支持绝大部分编码，日文、韩文、俄文等等都没问题的。
还有两个浏览器插件，一个是给 Firefox的，一个是给IE 的。
1，下载Lynx 在线版 for IE                           IE卸载文件
2，下载Lynx 在线版 for Firefox
装上了插件后，在你浏览一个网页的时候，在网页上点击右键的弹出菜单里，会有“以Lynx方式查看”的选项。这样非常方便平常大家查看网页。
由于这个工具放在国外的虚拟主机上，可能速度有点慢的。我还不知道有多少人会用这个工具，到时候可能有短暂的时间会使用不了。
不过大家可以先慢慢用着，以后还有讲述如何更好的应用这个工具的文章。
为了更好的推广这个工具，大家可以在自己的网站上，加上这个工具。
代码为：
&#60;form action=&#8221;http://lynx.semyj.com/lynxview.php&#8221; enctype=&#8221;application/x-www-form-urlencoded&#8221; method=&#8221;get&#8221; target=&#8221;_blank&#8221;&#62;
URL:
&#60;input id=&#8221;url&#8221; style=&#8221;width: 300px;&#8221; name=&#8221;url&#8221; type=&#8221;text&#8221; value=&#8221;http://&#8221; /&#62; &#60;input type=&#8221;submit&#8221; value=&#8221;查看&#8221; /&#62;
&#60;/form&#62;
另外 Lynx 的发音为：[liŋks]    点此听发音：http://www.103.net/dictzh/content/pronzh/000073867585.mp3

]]></description>
			<content:encoded><![CDATA[<p>最近还是太忙，所以关于内外部链接的文章还没开始写。现在给大家一个Lynx 在线版以及相关的浏览器插件。</p>
<p>我在《Lynx浏览器在SEO上的应用》一文中介绍过这个工具。不过有些人说在linux下没有安装好或者有乱码的出现。后来有人给我看了国外的一个Lynx在线版，但是那个在线版也存在着一些问题。我的这个Lynx 在线版把那些问题都解决了，使用起来还不错。</p>
<p>如果正在仔细阅读《google网站质量指南》的朋友应该能注意到，在这个《google网站质量指南》里，至少十几篇文章中都出现了要你去用Lynx检测网站的提示。而且是一到具体的做法的时候，都说：<a href="http://www.google.com/support/webmasters/bin/answer.py?hl=cn&amp;answer=35769#2" target="_blank">请用Lynx去检测你的网站，因为它和爬虫看到的内容几乎一样</a>。这个工具在05年就有一些一线的SEOer在用了。</p>
<p>使用方法非常简单，你只要填入你要查看的URL，点击“查看”就可以了。网址要以http://开头。</p>
<hr style="border:1 dashed #5151A2" size="1" />
<div>
<form action="http://lynx.semyj.com/lynxview.php" enctype="application/x-www-form-urlencoded" method="get" target="_blank">URL:</p>
<input id="url" style="width: 300px;" name="url" type="text" value="http://" />
<input type="submit" value="查看" />
</p>
<hr style="border:1 dashed #5151A2" size="1" />
<p><span id="more-827"></span></p>
<p>如，我输入http://www.baidu.com/ ，查看到的界面如下：</p>
</form>
</div>
<form action="http://lynx.semyj.com/lynxview.php" enctype="application/x-www-form-urlencoded" method="get">
<div id="attachment_847" class="wp-caption alignnone" style="width: 513px"><img class="size-full wp-image-847" title="lynx" src="http://www.semyj.com/wp-content/uploads/2009/11/lynx.gif" alt="以lynx查看百度" width="503" height="507" /><p class="wp-caption-text">以lynx查看百度</p></div>
<p>输出的结果分为两部分：</p>
<p>第一部分，就是搜索引擎爬虫看到的内容，这个内容和别的查看方式都不一样。不仅显示了文字信息，还显示了网页的结构信息。去了解搜索引擎的原理就会知道，这种结构信息也是搜索引擎会储存下来的。 并且在分析你的网站讲了什么信息的时候，这些结构信息就是判断的依据。每个锚文本旁边还标上了这个链接的序号。</p>
<p>第二部分就是网站中所有爬虫能够识别的链接。有些网页这里会显示隐藏的链接。经常有人问我这个隐藏链接要不要紧，我这里统一回答一下：其实不是太重要，当你网站的SEO优化是正规的方法的话，可以忽视掉这个；但是当你用了很多黑帽的方法，这个隐藏链接就是让你“罪加一等”的地方。所以在alibaba的首页虽然也检测出几个隐藏链接，但是都没改过来。</p>
<p>刚接触这个工具，可能很多人不觉得这个工具有什么用的。建议大家用这个工具前，先看完以下几篇文章：</p>
<p>《<a href="http://www.semyj.com/archives/544">分词与索引库</a>》</p>
<p>《<a href="http://www.semyj.com/archives/426">Lynx浏览器在SEO上的应用</a>》</p>
<p>《<a href="http://www.semyj.com/archives/84">把Web标准化进行得更彻底一点</a>》</p>
<p>《<a href="http://www.semyj.com/archives/374">“丰富网页摘要”，让你的网站与众不同。</a>》</p>
<p>《<a href="http://www.semyj.com/archives/153">“锚文本”在SEO方面的重要性</a>》</p>
<p>这个工具支持绝大部分编码，日文、韩文、俄文等等都没问题的。</p>
<p>还有两个浏览器插件，一个是给 Firefox的，一个是给IE 的。</p>
<p>1，下载<a href="http://www.semyj.com/upload/lynx.reg">Lynx 在线版 for IE  </a>                         <a href="http://www.semyj.com/upload/lynx_unistall.reg">IE卸载文件</a></p>
<p>2，下载<a href="http://www.semyj.com/upload/lynx_viewer.xpi">Lynx 在线版 for Firefox</a></p>
<p>装上了插件后，在你浏览一个网页的时候，在网页上点击右键的弹出菜单里，会有“以Lynx方式查看”的选项。这样非常方便平常大家查看网页。</p>
<div id="attachment_882" class="wp-caption alignnone" style="width: 483px"><img class="size-full wp-image-882" title="IE-FF" src="http://www.semyj.com/wp-content/uploads/2009/11/IE-FF.gif" alt="浏览器右键菜单" width="473" height="381" /><p class="wp-caption-text">浏览器右键菜单</p></div>
<p>由于这个工具放在国外的虚拟主机上，可能速度有点慢的。我还不知道有多少人会用这个工具，到时候可能有短暂的时间会使用不了。</p>
<p>不过大家可以先慢慢用着，以后还有讲述如何更好的应用这个工具的文章。</p>
<p>为了更好的推广这个工具，大家可以在自己的网站上，加上这个工具。</p>
<p>代码为：</p>
<blockquote><p>&lt;form action=&#8221;http://lynx.semyj.com/lynxview.php&#8221; enctype=&#8221;application/x-www-form-urlencoded&#8221; method=&#8221;get&#8221; target=&#8221;_blank&#8221;&gt;</p>
<p>URL:</p>
<p>&lt;input id=&#8221;url&#8221; style=&#8221;width: 300px;&#8221; name=&#8221;url&#8221; type=&#8221;text&#8221; value=&#8221;http://&#8221; /&gt; &lt;input type=&#8221;submit&#8221; value=&#8221;查看&#8221; /&gt;</p>
<p>&lt;/form&gt;</p></blockquote>
<p>另外 Lynx 的发音为：[liŋks]    点此听发音：<a href="http://www.103.net/dictzh/content/pronzh/000073867585.mp3" target="_blank">http://www.103.net/dictzh/content/pronzh/000073867585.mp3</a></p>
</form>
]]></content:encoded>
			<wfw:commentRss>http://www.semyj.com/archives/827/feed</wfw:commentRss>
		<slash:comments>108</slash:comments>
<enclosure url="http://www.103.net/dictzh/content/pronzh/000073867585.mp3" length="4104" type="audio/mpeg" />
		</item>
		<item>
		<title>SEO工具条-Searchstatus汉化增强版</title>
		<link>http://www.semyj.com/archives/778</link>
		<comments>http://www.semyj.com/archives/778#comments</comments>
		<pubDate>Mon, 09 Nov 2009 11:59:23 +0000</pubDate>
		<dc:creator>国平</dc:creator>
				<category><![CDATA[SEM工具]]></category>

		<guid isPermaLink="false">http://www.semyj.com/?p=778</guid>
		<description><![CDATA[Searchstatus 是一个Firefox上的SEO插件，是一个非常好用的SEO辅助工具。不过因为它的官方版本只有英文版，所以普及程度还不高。我最近花时间把这个插件汉化了一下并增减了上面的一些功能，现在提供给大家使用。
点击下面的图标就可以安装。或者把文件下载下来后，把这个文件拖到Firefox的窗口上也可以安装。

文件URL：http://www.semyj.com/upload/searchstatus-1.31-zh-cn.xpi
在Firefox 3.0/3.5  下测试通过。 Firefox 3.5下载地址：
http://dl1.g-fox.cn/chinaedition/releases/zh-CN/FirefoxChinaEdition-latest.exe
安装后，工具条默认显示在右下角的浏览器状态栏里。

鼠标左键点击“工具栏菜单”，是更新所有的Rank值。鼠标右键点击“工具栏菜单”，是弹出工具栏菜单。
在“选项”里可以设置这个工具条的位置，有四大位置可以调。
这四大位置分别对应浏览器的如下位置：
在这些显示Rank值的按钮上，鼠标左击是更新Rank值。特别注意PR值有时候因为google服务器的问题是不会显示的，所以要多点几下。每个按钮，鼠标右击都能弹出相关的功能菜单。如：
compete是一个类似alexa的统计信息，但它是统计用户在一个网站上的停留时间的百分比。
mozRank 是 www.seomoz.org 自己推出的一个类似PR值的统计数据。
建议长期打开着“高亮Nofollow链接”，当然要先看一下《我也谈一下nofollow》这篇文章。
“计算关键词密度”这个功能里，只有关键词的显示次数是准确的，总字段和百分比由于是用英语的习惯按照空格分词的，所以不准确。
“查询网站收录量”里，我在原版的基础上增加了查询百度的收录量这个功能。百度的反向链接查询功能已经失效，所以没加。
另外注意一点的是：每次查询一个网页的信息，最好先刷新一下那个页面再来查。
最后，用它去欣赏一下google的robots.txt文件和sitemap.xml文件吧。
如果有什么Bug，请反馈给我。
]]></description>
			<content:encoded><![CDATA[<p>Searchstatus 是一个Firefox上的SEO插件，是一个非常好用的SEO辅助工具。不过因为它的官方版本只有英文版，所以普及程度还不高。我最近花时间把这个插件汉化了一下并增减了上面的一些功能，现在提供给大家使用。</p>
<p>点击下面的图标就可以安装。或者把文件下载下来后，把这个文件拖到Firefox的窗口上也可以安装。</p>
<div class="mceTemp"><a href="http://www.semyj.com/upload/searchstatus-1.31-zh-cn.xpi"><img class="alignnone size-full wp-image-794" title="点此下载" src="http://www.semyj.com/wp-content/uploads/2009/11/fiefox.gif" border="0" alt="fiefox" width="150" height="46" /></a></div>
<div class="mceTemp">文件URL：<a href="http://www.semyj.com/upload/searchstatus-1.31-zh-cn.xpi">http://www.semyj.com/upload/searchstatus-1.31-zh-cn.xpi</a></div>
<div class="mceTemp">在Firefox 3.0/3.5  下测试通过。 Firefox 3.5下载地址：</div>
<div class="mceTemp"><a href="http://dl1.g-fox.cn/chinaedition/releases/zh-CN/FirefoxChinaEdition-latest.exe" target="_blank">http://dl1.g-fox.cn/chinaedition/releases/zh-CN/FirefoxChinaEdition-latest.exe</a></div>
<p>安装后，工具条默认显示在右下角的浏览器状态栏里。</p>
<div id="attachment_788" class="wp-caption alignnone" style="width: 274px"><img class="size-full wp-image-788" title="Searchstatus-2" src="http://www.semyj.com/wp-content/uploads/2009/11/Searchstatus-2.gif" border="0" alt="软件菜单" width="264" height="314" /><p class="wp-caption-text">软件菜单</p></div>
<p><span id="more-778"></span></p>
<p>鼠标左键点击“工具栏菜单”，是更新所有的Rank值。鼠标右键点击“工具栏菜单”，是弹出工具栏菜单。</p>
<p>在“选项”里可以设置这个工具条的位置，有四大位置可以调。</p>
<div id="attachment_786" class="wp-caption alignnone" style="width: 360px"><img class="size-full wp-image-786" title="Searchstatus-1" src="http://www.semyj.com/wp-content/uploads/2009/11/Searchstatus-1.gif" alt="选择位置" width="350" height="360" /><p class="wp-caption-text">选择位置</p></div>
<p>这四大位置分别对应浏览器的如下位置：</p>
<div id="attachment_790" class="wp-caption alignnone" style="width: 543px"><img class="size-full wp-image-790" title="Searchstatus-3" src="http://www.semyj.com/wp-content/uploads/2009/11/Searchstatus-3.gif" alt="工具条位置" width="533" height="265" /><p class="wp-caption-text">工具条位置</p></div>
<p>在这些显示Rank值的按钮上，鼠标左击是更新Rank值。特别注意PR值有时候因为google服务器的问题是不会显示的，所以要多点几下。每个按钮，鼠标右击都能弹出相关的功能菜单。如：</p>
<div id="attachment_792" class="wp-caption alignnone" style="width: 382px"><img class="size-full wp-image-792" title="Searchstatus-4" src="http://www.semyj.com/wp-content/uploads/2009/11/Searchstatus-4.gif" alt="每个按钮都有一个菜单" width="372" height="237" /><p class="wp-caption-text">每个按钮都有一个菜单</p></div>
<p>compete是一个类似alexa的统计信息，但它是统计用户在一个网站上的停留时间的百分比。</p>
<p>mozRank 是 <a href="http://www.seomoz.org" target="_blank">www.seomoz.org</a> 自己推出的一个类似PR值的统计数据。</p>
<p>建议长期打开着“高亮Nofollow链接”，当然要先看一下《<a href="http://www.semyj.com/archives/104">我也谈一下nofollow</a>》这篇文章。</p>
<p>“计算关键词密度”这个功能里，只有关键词的显示次数是准确的，总字段和百分比由于是用英语的习惯按照空格分词的，所以不准确。</p>
<p>“查询网站收录量”里，我在原版的基础上增加了查询百度的收录量这个功能。百度的反向链接查询功能已经失效，所以没加。</p>
<p>另外注意一点的是：每次查询一个网页的信息，最好先刷新一下那个页面再来查。</p>
<p>最后，用它去欣赏一下google的robots.txt文件和sitemap.xml文件吧。</p>
<div id="attachment_813" class="wp-caption alignnone" style="width: 495px"><img class="size-full wp-image-813" title="Searchstatus-6" src="http://www.semyj.com/wp-content/uploads/2009/11/Searchstatus-61.gif" alt="google自己的sitemap.xml文件" width="485" height="494" /><p class="wp-caption-text">google自己的sitemap.xml文件</p></div>
<p>如果有什么Bug，请反馈给我。</p>
]]></content:encoded>
			<wfw:commentRss>http://www.semyj.com/archives/778/feed</wfw:commentRss>
		<slash:comments>63</slash:comments>
		</item>
		<item>
		<title>google 的良苦用心：网站管理员工具</title>
		<link>http://www.semyj.com/archives/692</link>
		<comments>http://www.semyj.com/archives/692#comments</comments>
		<pubDate>Sat, 24 Oct 2009 09:26:02 +0000</pubDate>
		<dc:creator>国平</dc:creator>
				<category><![CDATA[SEM工具]]></category>

		<guid isPermaLink="false">http://www.semyj.com/?p=692</guid>
		<description><![CDATA[2005年的google做了大量的调整，因为到了05年，很多SEO的方法慢慢泛滥了起来。同时很多网站主对google如何对待他们的网站一直没有明确的途径去了解。google应对这个局面的方法非常的开放，也非常聪明，就是希望和网站主达成一种双赢的局面。所以有了google webmaster tools （网站管理员工具）这个工具。
这个工具从推出到现在，经历了很多次的增增减减，它努力追求让这个工具越来越对站长有利。一直以来，我都看到很多人对它的认识还不够深刻，所以单独来讲一讲这个工具是很有必要的。
《利用Google Search Appliance 服务器做SEO》一文中，我曾经说：“会把GSA后台的操作也讲述一下。到时候你会对google webmaster tool这个工具有更深一层的理解。”  GSA就是一台把google整个硬件和软件打包在一起的服务器。这台服务器就是一个小型的google搜索引擎，它以前的版本的名字就叫 google mini , 能形象的说明这个服务器的性质。
 
现在我就把GSA后台的截图发出来，大家一定能发现点什么。
这个后台对很多人来说一定有似曾相识的感觉，因为在google webmastel tools里，不光界面和这个相似，里面的很多功能其实都已经有了。
google webmastel tools的前身是google sitemaps，以前主要的用途是让网站主解决爬虫的抓取故障和提交sitemap。这两大功能其实只解决了google爬虫抓取的局限性，这主要只解决了google自己的问题。而那时SEO越来越流行，很多网站甚至用作弊的方法来做SEO。大家这么忙活，无非是想从google上面多拉一点流量，这个是广大网站主需要解决的问题。
本来，SEO看起来和搜索引擎是矛盾的。百度对SEO的认识就是这样，所以它仇视SEO，把自己和很多做SEO的网站主搞得处于对立的局面。
但是google不这么认为的。因为搜索引擎需要大量的网站来供应内容，它的期望是内容主次分明，越优质越好。而网站主希望能从搜索引擎获取流量，期望值是流量不光越多越好，还要越匹配越好的。那两者之间其实可以达成双赢的局面。
我做了很多年SEO，虽然从google获得了大量的流量。但是也越来越发现我是在给google打工的。因为我把一个网站的结构理顺了，把重要的内容突出了，google就知道了我网站有些什么内容，也知道了这些内容中的重点。这样，至少在判断我这个网站讲了什么内容的时候，google是很有把握的。而当很多网站都这么做的时候，google的内容质量整体就上升了一个等级。用户从google搜索到的内容更符合他们的需求了。同时，网站主凭借着主次分明的内容拿到的流量也是匹配网站主需求的优质的流量。
google从一开始就会这样说：“好吧，网站主，既然你想得到你想要的流量，那你提供相关的内容给我。你如果不知道什么是相关的内容，那么我来告诉你，还告诉你怎么来突出重点。”
所以《google网站质量指南》里的几百篇文章，以及google webmastel tools都是来告诉你要如何提供什么内容给搜索引擎。在我看来，google webmastel tools是google提供的最好的SEO工具，里面的每一个功能都是和SEO相关的，google在里面告诉你了要如何做SEO。
GSA的硬件和google现在用的服务器是一样的，包括传说中的自带电源和从没向外界说过的几公斤重的散热片。
这个GSA的软件部分，后台应该是google.com的老版本的一个子集。所以你可以简单的认为google的后台也是这样的。为了能尽量为网站主着想，google陆陆续续的把后台的一些功能都放进了google webmastel tools里。对于google来说，只要不泄露自己的核心机密，很多的数据和工具，如果能对网站主做好SEO有帮助的话，就把它开放出来让大家使用。
我就不一一说明每个功能在SEO上的作用，因为这个里面的很多细节都繁琐得可以写成一篇文章。以下就讲几个最近在google webmastel tools增减的功能，看看google是出于什么目的来调整的。
1，google webmastel tools 里有个控制爬虫“抓取速度”的选项，以前只能控制三个速度，就是“更快”、“正常”、“更慢”。而在我以前操作的google mini（GSA的老版本）中，也有这样一个调节爬虫抓取速度的选项，但是是一个拉动的滑块，可以调节出非常精确的抓取速度来。某一天，当我验证完一个新站的时候，发现google webmastel tools也已经是这样的了。
 这个对于很多网站来说是很有好处的，因为那些网站不怕你爬虫来得多了把服务器爬死，就怕你不经常来。
2，最近增加的“像 Googlebot 一样抓取”的功能，在GSA的后台也是有的，只是不是这种表现形式。为什么要加一个这样的功能呢？这是因为google在抓取很多网站的时候碰到的一些问题越来越多才加这个功能的。
同一个网页，搜索引擎爬虫看到的和你用浏览器看到的其实是不一样的。因为浏览器有很大的容错性，你少一个&#60;div&#62;，或者html标签没有关闭，只要不错得离谱的话，网页看起来还是很正常的。 但是搜索引擎爬虫是不会这样的，你在CMS上或者代码上有什么问题，会让爬虫看不到你的页面。所以你需要模拟搜索引擎爬虫去访问你的网页，看看搜索引擎访问到的源代码是不是你真实的源代码。这个google模拟爬虫，还可以查看一个网页的返回码。这是因为一个网页，如果你给搜索引擎返回多个返回码，根据各种情况，搜索引擎要么不收录你的网页，要么你的用户从搜索引擎点进你的网站会出现500错误（服务器内部错误）。
我在《Lynx浏览器在SEO上的应用》一文中建议大家用Lynx去访问你的网页也有这样的原因， 那个工具也可以实现这样的功能。可惜的是尽管google在《网站质量指南》里力荐这个浏览器，但是还是很多人不会去用，所以google干脆把这个功能放在google webmastel tools里了。
3，我还是低估了google的良苦用心程度。当我前几天看到新推出的这个“参数处理”的功能的时候，几乎要感动得哭了。
大家可能对URL静态化是有一些疑虑的。因为很久以前google说URL要静态化，而google年初的时候又说不要静态化了。为什么会有这么截然不同的说法呢？ 其实URL静不静态化根本不是问题的核心，核心问题是出在URL的参数上。如果有人仔细去看《HTTrack 在SEO上的应用》一文，并不断地去使用这个工具的话，就会发现：是因为URL上的参数复杂，才导致了爬虫陷入死循环的。现在即使你把URL静态化，如果没有处理好的话，和没有去静态化是一样的效果。关于这点以后还要写一篇文章才能说得清楚。
google当然清楚是由参数引起的，所以在以前，它都是有一套自己的方法过滤参数的。但是，这个过滤方法并不一定很准，可能你觉得不是参数的重要的页面，google把你过滤了，那就不会收录了。所以google就干脆让你自己来调节，先自动过滤一些参数，然后让你看看哪些参数过滤错了，或者还有哪些参数没有过滤，就由你来告诉google。
这篇文章太长了，更多内容以后再写。
]]></description>
			<content:encoded><![CDATA[<p>2005年的google做了大量的调整，因为到了05年，很多SEO的方法慢慢泛滥了起来。同时很多网站主对google如何对待他们的网站一直没有明确的途径去了解。google应对这个局面的方法非常的开放，也非常聪明，就是希望和网站主达成一种双赢的局面。所以有了google webmaster tools （网站管理员工具）这个工具。</p>
<p>这个工具从推出到现在，经历了很多次的增增减减，它努力追求让这个工具越来越对站长有利。一直以来，我都看到很多人对它的认识还不够深刻，所以单独来讲一讲这个工具是很有必要的。</p>
<p>《<a href="http://www.semyj.com/archives/9">利用Google Search Appliance 服务器做SEO</a>》一文中，我曾经说：“会把GSA后台的操作也讲述一下。到时候你会对google webmaster tool这个工具有更深一层的理解。”  GSA就是一台把google整个硬件和软件打包在一起的服务器。这台服务器就是一个小型的google搜索引擎，它以前的版本的名字就叫 google mini , 能形象的说明这个服务器的性质。</p>
<div id="attachment_696" class="wp-caption alignnone" style="width: 442px"><img class="size-full wp-image-696" title="google-mini-gsa" src="http://www.semyj.com/wp-content/uploads/2009/10/google-mini-gsa.jpg" alt="黄色的是GSA，蓝色的是google mini" width="432" height="272" /><p class="wp-caption-text">黄色的是GSA，蓝色的是google mini</p></div>
<p> <span id="more-692"></span></p>
<p>现在我就把GSA后台的截图发出来，大家一定能发现点什么。</p>
<div id="attachment_731" class="wp-caption alignnone" style="width: 584px"><img class="size-full wp-image-731" title="Snap9" src="http://www.semyj.com/wp-content/uploads/2009/10/Snap91.gif" alt="GSA后台" width="574" height="543" /><p class="wp-caption-text">GSA后台</p></div>
<p>这个后台对很多人来说一定有似曾相识的感觉，因为在google webmastel tools里，不光界面和这个相似，里面的很多功能其实都已经有了。</p>
<p>google webmastel tools的前身是google sitemaps，以前主要的用途是让网站主解决爬虫的抓取故障和提交sitemap。这两大功能其实只解决了google爬虫抓取的局限性，这主要只解决了google自己的问题。而那时SEO越来越流行，很多网站甚至用作弊的方法来做SEO。大家这么忙活，无非是想从google上面多拉一点流量，这个是广大网站主需要解决的问题。</p>
<p>本来，SEO看起来和搜索引擎是矛盾的。百度对SEO的认识就是这样，所以它仇视SEO，把自己和很多做SEO的网站主搞得处于对立的局面。</p>
<p>但是google不这么认为的。因为搜索引擎需要大量的网站来供应内容，它的期望是内容主次分明，越优质越好。而网站主希望能从搜索引擎获取流量，期望值是流量不光越多越好，还要越匹配越好的。那两者之间其实可以达成双赢的局面。</p>
<p>我做了很多年SEO，虽然从google获得了大量的流量。但是也越来越发现我是在给google打工的。因为我把一个网站的结构理顺了，把重要的内容突出了，google就知道了我网站有些什么内容，也知道了这些内容中的重点。这样，至少在判断我这个网站讲了什么内容的时候，google是很有把握的。而当很多网站都这么做的时候，google的内容质量整体就上升了一个等级。用户从google搜索到的内容更符合他们的需求了。同时，网站主凭借着主次分明的内容拿到的流量也是匹配网站主需求的优质的流量。</p>
<p>google从一开始就会这样说：“好吧，网站主，既然你想得到你想要的流量，那你提供相关的内容给我。你如果不知道什么是相关的内容，那么我来告诉你，还告诉你怎么来突出重点。”</p>
<p>所以《google网站质量指南》里的几百篇文章，以及google webmastel tools都是来告诉你要如何提供什么内容给搜索引擎。在我看来，google webmastel tools是google提供的最好的SEO工具，里面的每一个功能都是和SEO相关的，google在里面告诉你了要如何做SEO。</p>
<p>GSA的硬件和google现在用的服务器是一样的，包括传说中的自带电源和从没向外界说过的几公斤重的散热片。</p>
<div id="attachment_702" class="wp-caption alignnone" style="width: 510px"><img class="size-full wp-image-702" title="1878265" src="http://www.semyj.com/wp-content/uploads/2009/10/1878265.jpg" alt="google的专利-自带电源" width="500" height="285" /><p class="wp-caption-text">google的专利-自带电源</p></div>
<p>这个GSA的软件部分，后台应该是google.com的老版本的一个子集。所以你可以简单的认为google的后台也是这样的。为了能尽量为网站主着想，google陆陆续续的把后台的一些功能都放进了google webmastel tools里。对于google来说，只要不泄露自己的核心机密，很多的数据和工具，如果能对网站主做好SEO有帮助的话，就把它开放出来让大家使用。</p>
<p>我就不一一说明每个功能在SEO上的作用，因为这个里面的很多细节都繁琐得可以写成一篇文章。以下就讲几个最近在google webmastel tools增减的功能，看看google是出于什么目的来调整的。</p>
<p>1，google webmastel tools 里有个控制爬虫“抓取速度”的选项，以前只能控制三个速度，就是“更快”、“正常”、“更慢”。而在我以前操作的google mini（GSA的老版本）中，也有这样一个调节爬虫抓取速度的选项，但是是一个拉动的滑块，可以调节出非常精确的抓取速度来。某一天，当我验证完一个新站的时候，发现google webmastel tools也已经是这样的了。</p>
<div id="attachment_706" class="wp-caption alignnone" style="width: 510px"><img class="size-full wp-image-706" title="Snap10" src="http://www.semyj.com/wp-content/uploads/2009/10/Snap10.gif" alt="调节抓取速度" width="500" height="249" /><p class="wp-caption-text">调节抓取速度</p></div>
<p> 这个对于很多网站来说是很有好处的，因为那些网站不怕你爬虫来得多了把服务器爬死，就怕你不经常来。</p>
<p>2，最近增加的“像 Googlebot 一样抓取”的功能，在GSA的后台也是有的，只是不是这种表现形式。为什么要加一个这样的功能呢？这是因为google在抓取很多网站的时候碰到的一些问题越来越多才加这个功能的。</p>
<div id="attachment_708" class="wp-caption alignnone" style="width: 354px"><img class="size-full wp-image-708" title="Snap5" src="http://www.semyj.com/wp-content/uploads/2009/10/Snap5.gif" alt="模拟google爬虫" width="344" height="574" /><p class="wp-caption-text">模拟google爬虫</p></div>
<p>同一个网页，搜索引擎爬虫看到的和你用浏览器看到的其实是不一样的。因为浏览器有很大的容错性，你少一个&lt;div&gt;，或者html标签没有关闭，只要不错得离谱的话，网页看起来还是很正常的。 但是搜索引擎爬虫是不会这样的，你在CMS上或者代码上有什么问题，会让爬虫看不到你的页面。所以你需要模拟搜索引擎爬虫去访问你的网页，看看搜索引擎访问到的源代码是不是你真实的源代码。这个google模拟爬虫，还可以查看一个网页的返回码。这是因为一个网页，如果你给搜索引擎返回多个返回码，根据各种情况，搜索引擎要么不收录你的网页，要么你的用户从搜索引擎点进你的网站会出现500错误（服务器内部错误）。</p>
<p>我在《<a href="http://www.semyj.com/archives/426">Lynx浏览器在SEO上的应用</a>》一文中建议大家用Lynx去访问你的网页也有这样的原因， 那个工具也可以实现这样的功能。可惜的是尽管google在《网站质量指南》里力荐这个浏览器，但是还是很多人不会去用，所以google干脆把这个功能放在google webmastel tools里了。</p>
<p>3，我还是低估了google的良苦用心程度。当我前几天看到新推出的这个“参数处理”的功能的时候，几乎要感动得哭了。</p>
<div id="attachment_709" class="wp-caption alignnone" style="width: 476px"><img class="size-full wp-image-709" title="Snap4" src="http://www.semyj.com/wp-content/uploads/2009/10/Snap4.gif" alt="参数调节功能" width="466" height="201" /><p class="wp-caption-text">参数调节功能</p></div>
<p>大家可能对URL静态化是有一些疑虑的。因为很久以前google说URL要静态化，而google年初的时候又说不要静态化了。为什么会有这么截然不同的说法呢？ 其实URL静不静态化根本不是问题的核心，核心问题是出在URL的参数上。如果有人仔细去看《<a href="http://www.semyj.com/archives/123">HTTrack 在SEO上的应用</a>》一文，并不断地去使用这个工具的话，就会发现：是因为URL上的参数复杂，才导致了爬虫陷入死循环的。现在即使你把URL静态化，如果没有处理好的话，和没有去静态化是一样的效果。关于这点以后还要写一篇文章才能说得清楚。</p>
<p>google当然清楚是由参数引起的，所以在以前，它都是有一套自己的方法过滤参数的。但是，这个过滤方法并不一定很准，可能你觉得不是参数的重要的页面，google把你过滤了，那就不会收录了。所以google就干脆让你自己来调节，先自动过滤一些参数，然后让你看看哪些参数过滤错了，或者还有哪些参数没有过滤，就由你来告诉google。</p>
<p>这篇文章太长了，更多内容以后再写。</p>
]]></content:encoded>
			<wfw:commentRss>http://www.semyj.com/archives/692/feed</wfw:commentRss>
		<slash:comments>67</slash:comments>
		</item>
		<item>
		<title>Lynx浏览器在SEO上的应用</title>
		<link>http://www.semyj.com/archives/426</link>
		<comments>http://www.semyj.com/archives/426#comments</comments>
		<pubDate>Tue, 18 Aug 2009 04:52:36 +0000</pubDate>
		<dc:creator>国平</dc:creator>
				<category><![CDATA[SEM工具]]></category>

		<guid isPermaLink="false">http://www.semyj.com/?p=426</guid>
		<description><![CDATA[曾经有朋友问我怎么才能判断一个SEOer是不是高手。我就出了一个主意，就建议他问那个SEOer是不是知道Lynx在SEO上的应用方法。这么来提问，其实能从一个侧面反映这个SEOer对SEO研究有多深的。
现在SEO行业，虽然有很多以讹传讹的言论，但是如果自己经常实践，还是能找到很多真正有用的操作方法。实践久了，也能判断谁的说法正确，谁的说法有问题，这样的SEOER,可以放心的让他去操作一些比较重要的网站了。再进一步的给网站各个细节优化过程中，就会发现很多以前别人没有谈到过，也很难在优化一些小网站的过程中注意到的细节。这些细节，在别的地方很难找到相关的参考资料，或者根本就找不到。但是在google的《google网站质量指南》、《google黑板报》、《google中文网站管理员博客》，基本上都可以找到关于这些细节的只言片语的。只不过那里面也只是给出了一个方向，更具体的细节还是要靠你自己再去实践。
在《google网站质量指南》 的第一页 ，就已经建议大家去用Lynx这个工具区检测你的网站：
使用诸如 Lynx 的文本浏览器来检查您的网站，因为大多数搜索引擎信息采集软件查看您网站的方式与 Lynx 几乎一样。如果诸如 Javascript、Cookie、会话 ID、框架、DHTML 或 Flash 等复杂功能造成您无法在文本浏览器中看到整个网站，则搜索引擎信息采集软件在抓取您的网站时可能会遇到问题。
这里提到了“Lynx查看网站的方式和搜索引擎几乎一样的”。一个SEOer，如果真的到了很多细节都无法从别人那里获取参考的程度，那这段话相信他很难忽视掉的。

我用了一段时间的Lynx，发现这个曾经的文本浏览器和搜索引擎爬虫很像的。你所听过的爬虫特性，在这里面都能找到一点影子。
比如检测隐藏链接，我们只知道搜索引擎是不喜欢的，但是具体的检测方法是怎么样的呢？ 如果你用熟了Lynx，就发现一个非常简单的命令就搞定了。
首先要搭建一个Lynx的运行环境。Lynx不能用那种编译过的在windows下运行的版本，有很多功能是不能用的。建议在XP下装一个虚拟机，然后在虚拟机里装一个linux系统来运行Lynx。
虚拟机软件用 VirtualBox 或者 VMWare，具体的安装方法大家google之。 Linux系统推荐用Ubuntu，它可以在图形界面上安装lynx。
在装了Lynx的Linux系统的命令模式下输入：lynx -dump www.alibaba.com  并回车,这个页面上的隐藏链接就一览无余了。如：
然后再进一步的分析一下，是哪些链接Lynx会认为是隐藏链接呢？
可以看到，至少以下的一种链接是会被Lynx认为是隐藏链接的。代码为：
 &#60;a href=&#8221;http://www.alibaba.com&#8221;&#62;  &#60;/a&#62;
这个链接，即没有文字作为锚文本，也没有图片或其他作为链接的对象。如果不去加载CSS文件或JS文件，光就这个代码，在网页上是看不到这个链接的存在的。当然这就是隐藏链接，毫无争议的。
 这是Lynx认为的情况，搜索引擎也是一样的。从整个互联网来看，这种检测方法在99%的情况下都不会冤枉一个网站的。对于google来说，一个检测方法，如果能有40%以上的反作弊效率，那是非常好的一个方法。
一个非作弊的网站，产生这种情况的原因，是因为网页设计人员的一些“奇怪”的代码写法。如果你去检测你的网站，说不定也能看到这些隐藏链接。
当然，Lynx的作用不止这个。它首先是能以一个可视化的角度来展现爬虫看到了什么内容。用它可以挨个检查你的网页给搜索引擎爬虫展现了怎么样的内容。如：
然后才是其他的一些功能：

可以检测网页代码的完整性。如果提示有“Bad HTML”就要注意一下。
可以和IE一样查看源文件。 命令在附录中。
对cookie的跟踪是特别对待的。会提示你是不是跟踪cookie。
对框架和表单的处理和爬虫是一样的。
URL太多参数，会造成浏览困难。
可以查看网页返回的http头信息

&#8230;&#8230;
你会看到很多似曾相识的东西。
Lynx 的出现时期，恰好是第一个爬虫程序诞生的时候。有相当大的理由相信他们的是一样的理念。而且现在维护和更新Lynx的人员，有些也在维护其他开源的爬虫程序。你其实也可以把Lynx看成一个可视化的爬虫。
HTTrack 是一个比较宏观的爬虫模拟器。而Lynx就更细节一些，也更实用一点。
&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;
附录 Lynx的简要使用说明：
移动命令：
下方向键：页面上的下一个链接(用高亮度显示)。
上方向键：页面上的前一个链接(用高亮度显示)。
回车和右方向键：
跳转到链接指向的地址。
左方向键：回到上一个页面。
滚动命令：
+,Page-Down,Space,Ctrl+f：
向下翻页。
-,Page-Up,b,Ctrl+b：
向上翻页。
Ctrl+a： 移动到当前页的最前面。
Ctrl+e： 移动到当前页的最后面。
Ctrl+n： 向下翻两行。
Ctrl+p： 往回翻两行。
)： 向下翻半页。
(： 往回翻半页。
#： 回到当前页的 Toolbar 或 Banner。
文件操作命令：
c： 建立一个新文件。
d： 下载选中的文件。
E： 编辑选中的文件。
f： 为当前文件显示一个选项菜单。
m： 修改选中文件的名字或位置。
r： 删除选中的文件。
t： Tag highlighted file。
u： 上载一个文件到当前目录。
其他命令：
?,h： 帮助。
a： 把当前链接加入到一个书签文件里。
c： 向页面的拥有者发送意见或建议。
d： 下载当前链接。
e： 编辑当前文件。
g： 跳转到一个用户指定的URL或文件。
G： 编辑当前页的URL，并跳转到这个URL。
i： 显示文档索引。
j： 执行预先定义的“短”命令。
k： [...]]]></description>
			<content:encoded><![CDATA[<p>曾经有朋友问我怎么才能判断一个SEOer是不是高手。我就出了一个主意，就建议他问那个SEOer是不是知道Lynx在SEO上的应用方法。这么来提问，其实能从一个侧面反映这个SEOer对SEO研究有多深的。</p>
<p>现在SEO行业，虽然有很多以讹传讹的言论，但是如果自己经常实践，还是能找到很多真正有用的操作方法。实践久了，也能判断谁的说法正确，谁的说法有问题，这样的SEOER,可以放心的让他去操作一些比较重要的网站了。再进一步的给网站各个细节优化过程中，就会发现很多以前别人没有谈到过，也很难在优化一些小网站的过程中注意到的细节。这些细节，在别的地方很难找到相关的参考资料，或者根本就找不到。但是在google的《google网站质量指南》、《google黑板报》、《google中文网站管理员博客》，基本上都可以找到关于这些细节的只言片语的。只不过那里面也只是给出了一个方向，更具体的细节还是要靠你自己再去实践。</p>
<p>在<a href="http://www.google.com/support/webmasters/bin/answer.py?hl=cn&amp;answer=35769" target="_blank">《google网站质量指南》 的第一页</a> ，就已经建议大家去用Lynx这个工具区检测你的网站：</p>
<p><em>使用诸如 </em><a href="http://www.google.com/search?hl=zh_CN&amp;q=lynx+browser"><em>Lynx</em></a><em> 的文本浏览器来检查您的网站，因为大多数搜索引擎信息采集软件查看您网站的方式与 Lynx 几乎一样。如果诸如 Javascript、Cookie、会话 ID、框架、DHTML 或 Flash 等复杂功能造成您无法在文本浏览器中看到整个网站，则搜索引擎信息采集软件在抓取您的网站时可能会遇到问题。</em></p>
<p>这里提到了“Lynx查看网站的方式和搜索引擎几乎一样的”。一个SEOer，如果真的到了很多细节都无法从别人那里获取参考的程度，那这段话相信他很难忽视掉的。</p>
<p><span id="more-426"></span></p>
<p>我用了一段时间的Lynx，发现这个曾经的文本浏览器和搜索引擎爬虫很像的。你所听过的爬虫特性，在这里面都能找到一点影子。</p>
<p>比如检测隐藏链接，我们只知道搜索引擎是不喜欢的，但是具体的检测方法是怎么样的呢？ 如果你用熟了Lynx，就发现一个非常简单的命令就搞定了。</p>
<p>首先要搭建一个Lynx的运行环境。Lynx不能用那种编译过的在windows下运行的版本，有很多功能是不能用的。建议在XP下装一个虚拟机，然后在虚拟机里装一个linux系统来运行Lynx。</p>
<p>虚拟机软件用 VirtualBox 或者 VMWare，具体的安装方法大家google之。 Linux系统推荐用Ubuntu，它可以在图形界面上安装lynx。</p>
<p>在装了Lynx的Linux系统的命令模式下输入：lynx -dump www.alibaba.com  并回车,这个页面上的隐藏链接就一览无余了。如：</p>
<div id="attachment_442" class="wp-caption alignnone" style="width: 464px"><img class="size-full wp-image-442" title="Snap1" src="http://www.semyj.com/wp-content/uploads/2009/08/Snap1.gif" alt="检测出了隐藏链接" width="454" height="262" /><p class="wp-caption-text">检测出了隐藏链接</p></div>
<p>然后再进一步的分析一下，是哪些链接Lynx会认为是隐藏链接呢？</p>
<p>可以看到，至少以下的一种链接是会被Lynx认为是隐藏链接的。代码为：</p>
<p> &lt;a href=&#8221;http://www.alibaba.com&#8221;&gt;  &lt;/a&gt;</p>
<p>这个链接，即没有文字作为锚文本，也没有图片或其他作为链接的对象。如果不去加载CSS文件或JS文件，光就这个代码，在网页上是看不到这个链接的存在的。当然这就是隐藏链接，毫无争议的。</p>
<p> 这是Lynx认为的情况，搜索引擎也是一样的。从整个互联网来看，这种检测方法在99%的情况下都不会冤枉一个网站的。对于google来说，一个检测方法，如果能有40%以上的反作弊效率，那是非常好的一个方法。</p>
<p>一个非作弊的网站，产生这种情况的原因，是因为网页设计人员的一些“奇怪”的代码写法。如果你去检测你的网站，说不定也能看到这些隐藏链接。</p>
<p>当然，Lynx的作用不止这个。它首先是能以一个可视化的角度来展现爬虫看到了什么内容。用它可以挨个检查你的网页给搜索引擎爬虫展现了怎么样的内容。如：</p>
<div id="attachment_443" class="wp-caption alignnone" style="width: 493px"><img class="size-full wp-image-443" title="Snap2" src="http://www.semyj.com/wp-content/uploads/2009/08/Snap2.gif" alt="Lynx看到的内容" width="483" height="479" /><p class="wp-caption-text">Lynx看到的内容</p></div>
<p>然后才是其他的一些功能：</p>
<ul>
<li>可以检测网页代码的完整性。如果提示有“Bad HTML”就要注意一下。</li>
<li>可以和IE一样查看源文件。 命令在附录中。</li>
<li>对cookie的跟踪是特别对待的。会提示你是不是跟踪cookie。</li>
<li>对框架和表单的处理和爬虫是一样的。</li>
<li>URL太多参数，会造成浏览困难。</li>
<li>可以查看网页返回的http头信息</li>
</ul>
<p>&#8230;&#8230;</p>
<p>你会看到很多似曾相识的东西。</p>
<p>Lynx 的出现时期，恰好是第一个爬虫程序诞生的时候。有相当大的理由相信他们的是一样的理念。而且现在维护和更新Lynx的人员，有些也在维护其他开源的爬虫程序。你其实也可以把Lynx看成一个可视化的爬虫。</p>
<p><a href="http://www.semyj.com/archives/123">HTTrack 是一个比较宏观的爬虫模拟器</a>。而Lynx就更细节一些，也更实用一点。</p>
<p>&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;</p>
<p>附录 Lynx的简要使用说明：</p>
<p>移动命令：<br />
下方向键：页面上的下一个链接(用高亮度显示)。<br />
上方向键：页面上的前一个链接(用高亮度显示)。<br />
回车和右方向键：<br />
跳转到链接指向的地址。<br />
左方向键：回到上一个页面。</p>
<p>滚动命令：<br />
+,Page-Down,Space,Ctrl+f：<br />
向下翻页。<br />
-,Page-Up,b,Ctrl+b：<br />
向上翻页。<br />
Ctrl+a： 移动到当前页的最前面。<br />
Ctrl+e： 移动到当前页的最后面。<br />
Ctrl+n： 向下翻两行。<br />
Ctrl+p： 往回翻两行。<br />
)： 向下翻半页。<br />
(： 往回翻半页。<br />
#： 回到当前页的 Toolbar 或 Banner。</p>
<p>文件操作命令：</p>
<p>c： 建立一个新文件。<br />
d： 下载选中的文件。<br />
E： 编辑选中的文件。<br />
f： 为当前文件显示一个选项菜单。<br />
m： 修改选中文件的名字或位置。<br />
r： 删除选中的文件。<br />
t： Tag highlighted file。<br />
u： 上载一个文件到当前目录。</p>
<p>其他命令：</p>
<p>?,h： 帮助。<br />
a： 把当前链接加入到一个书签文件里。<br />
c： 向页面的拥有者发送意见或建议。<br />
d： 下载当前链接。<br />
e： 编辑当前文件。<br />
g： 跳转到一个用户指定的URL或文件。<br />
G： 编辑当前页的URL，并跳转到这个URL。<br />
i： 显示文档索引。<br />
j： 执行预先定义的“短”命令。<br />
k： 显示键盘命令列表。<br />
l： 列出当前页上所有链接的地址。<br />
m： 回到首页。<br />
o： 设置选项。<br />
p： 把当前页输出到文件，e-mail，打印机或其他地方。<br />
q： 退出。<br />
/： 在当前页内查找字符串。<br />
s： 在外部搜索输入的字符串。<br />
n： 搜索下一个。<br />
v： 查看一个书签文件。<br />
V： 跳转到访问过的地址。<br />
x： 不使用缓存。<br />
z： 停止当前传输。<br />
[backspace]：<br />
跳转到历史页(同 V 命令)。<br />
=： 显示当前页的信息。<br />
： 查看当前页的源代码。<br />
!： 回到shell提示符下。<br />
_： 清除当前任务的所有授权信息。<br />
*： 图形链接模式的切换开关。<br />
@： 8位传输模式或CJK模式的切换开关。<br />
[： pseudo_inlines 模式的切换开关。<br />
]： 为当前页或当前链接发送一个“HEAD”请求。<br />
Ctrl+r： 重新装如当前页并且刷新屏幕。<br />
Ctrl+w： 刷新屏幕。<br />
Ctrl+u： 删除输入的行。<br />
Ctrl+g： 取消输入或者传送。<br />
Ctrl+t： 跟踪模式的切换开关。<br />
;： 看 Lynx 对当前任务的跟踪记录。<br />
Ctrl+k： 调用 Cookie Jar 页。<br />
数字键： 到后面的第 n 个链接。</p>
]]></content:encoded>
			<wfw:commentRss>http://www.semyj.com/archives/426/feed</wfw:commentRss>
		<slash:comments>53</slash:comments>
		</item>
		<item>
		<title>HTTrack 在SEO上的应用</title>
		<link>http://www.semyj.com/archives/123</link>
		<comments>http://www.semyj.com/archives/123#comments</comments>
		<pubDate>Fri, 10 Jul 2009 08:53:12 +0000</pubDate>
		<dc:creator>国平</dc:creator>
				<category><![CDATA[SEM工具]]></category>

		<guid isPermaLink="false">http://www.semyj.com/?p=123</guid>
		<description><![CDATA[这纯粹是一条个人喜好，我经常拿HTTrack模拟搜索引擎爬虫用。
HTTrack是一个网站镜像工具，本来是用来抓取网站做离线浏览用的。但是我发现它的爬虫特性和搜索引擎爬虫非常的像，逐渐应用到了自己的SEO工作中。其实这两种看似不同的爬虫做的都是同样的工作，就是复制网站并存储下来（搜索引擎的网页快照就是被存储下来的内容）。以下是这个软件的界面：
 
软件的官方网站是：http://www.httrack.com/ 软件安装后可以换成中文界面。
一般用它来检测网站的坏链接和测试搜索引擎对这个网站可能面临的抓取问题。另外用它也可以探知一些SEO做法的由来。
软件的使用方法非常简单，在“Web地址”里填上URL就可以了。然后点“选项”，
先看“扫描规则”


这样的扫描规则搜索引擎也一定会有的，比如不收录.exe文件,zip文件等等。然后不收录一些特定的跟踪链接， 如 ad.doubleclick.net 。你需要把一些搜索引擎爬虫不收录的特征加进去。
然后在“搜寻”里面，很多的特征都是现在搜索引擎爬虫的特征：
搜索引擎不会接受cookie,所以取消“接收cookie”。
至于“解析java文件”，google 爬虫也会去解析java文件的。这是一个像HTTrack这样的通用爬虫都可以做到的事情。可能很多人还不知道，google会去试图解析javascript代码。如果你的页面上放很多javascript代码，就会使爬虫的停留时间增加，进而影响爬虫效率。这也可以算是为什么要把javascript代码外调的另一个原因。
还有，有些javascript代码里面的URL，google爬虫是可以收录的，原因不明。这样做可能是因为有些内容很好的网站，很多链接就是喜欢用javascript来做的缘故吧。但是不代表你的链接可以用javascript来做。
HTTrack也同样能识别并遵守robots.txt文件。
至于url hacks ，就是让那种带 www和不带www的网址，如www.***.com和 ***.com。以及有斜杠和无斜杠的网址，如http://www.***.com 和 www.***.com  能统一。
这种网站上URL不统一的状况爬虫程序其实能很简单的处理好。至于google为什么要网站所有者在webmaster tool 后台指定一下“首选域”，是因为有些网站 www.***.com 和***.com 指向不同的内容。所以google不能那么武断的就认为www.***.com 和***.com是同一个网站。
至于“流量控制”和“限制”，
里面可以设置“连接数”和“深度”什么的。我相信google也有这些设置，不然，google的《网站质量指南》里不会这么写“如果站点地图上的链接超过 100 个，则需要将站点地图拆分为多个网页。”
至于深度，有报告说，google抓取的最大深度是12。超时时间可以设为10秒。
还有其他“浏览器标识”和“预存区”也和搜索引擎爬虫一样的。
下面用它来抓取一个网站，看看会有什么样的情况。
首先爬虫会去网站根目录下访问 robots.txt文件，如果碰到该网站的二级域名，还会去二级域名下访问robots.txt文件。这个和搜索引擎是一样的。
在抓取的时候，是多线程的，你可以实时的看到哪些URL正在被抓取以及速度怎么样。
很多人用它抓取完一个网站后会惊讶的发现有很多没什么SEO价值的页面在被抓取。而这些“垃圾链接”竟然还是最先被抓取到的。可惜这个爬虫不支持nofollow属性，不然更加能模拟google爬虫。你还会用它发现很多死链接和超时的页面。
要是经常使用，你还会发现这个软件的一个规律，就是在抓取那些动态URL的时候，经常会产生重复抓取的现象，抓取URL类似www.***.com/index.asp?=12345  这样页面会陷入到死循环当中。这个和早期的google爬虫又是一样的。由此判断，这应该是爬虫天生的一个弱点，可能它没办法实时的比较多个页面的内容，如果加上网页程序在处理URL ID的上遇到什么问题，就会重复抓取。也由此得出为什么要有URL静态化了。 URL的静态化与其叫静态化不如叫唯一化，其实只要给网页内容一个唯一的、结构不容易陷入死循环的URL即可，这就是静态化的本质。
google最新的声明不要静态化，是不希望爬虫从一种重复抓取陷入到另一种重复抓取才这样说的。其实google举例的那几种不好的静态化一般是不会发生的。只要你明白那些URL中的参数代表什么，还有不要把很多个参数直接rewrite到静态化的URL里即可。
用这个软件，能让你直观的感受一个爬虫是怎么工作的。对于让一个新手正确认识爬虫有帮助。
这个软件的功能也差不多就这么多，要逼真的模拟搜索引擎爬虫，就要用《google网站质量指南》里提到的Lynx。但是Lynx是一个页面一个页面检查的。以后会写一篇应用Lynx的文章。
更好的模拟google爬虫就要用GSA了。不应该说是模拟，而应该说它就是google爬虫。
用HTTrack、Lynx和GSA，再配合服务器LOG日志里面的爬虫分析，会让你对爬虫的了解到达一个更高的水平。分析爬虫会让你得益很多的。很多都以后再讲。
]]></description>
			<content:encoded><![CDATA[<p>这纯粹是一条个人喜好，我经常拿HTTrack模拟搜索引擎爬虫用。</p>
<p>HTTrack是一个网站镜像工具，本来是用来抓取网站做离线浏览用的。但是我发现它的爬虫特性和搜索引擎爬虫非常的像，逐渐应用到了自己的SEO工作中。其实这两种看似不同的爬虫做的都是同样的工作，就是复制网站并存储下来（搜索引擎的网页快照就是被存储下来的内容）。以下是这个软件的界面：</p>
<div id="attachment_125" class="wp-caption alignnone" style="width: 510px"><img class="size-full wp-image-125" title="Snap3" src="http://www.semyj.com/wp-content/uploads/2009/07/Snap3.gif" alt="HTTrack界面" width="500" height="424" /><p class="wp-caption-text">HTTrack界面</p></div>
<p> <span id="more-123"></span></p>
<p>软件的官方网站是：<a href="http://www.httrack.com/" target="_blank">http://www.httrack.com/</a> 软件安装后可以换成中文界面。</p>
<p>一般用它来检测网站的坏链接和测试搜索引擎对这个网站可能面临的抓取问题。另外用它也可以探知一些SEO做法的由来。</p>
<p>软件的使用方法非常简单，在“Web地址”里填上URL就可以了。然后点“选项”，</p>
<div class="mceTemp">先看“扫描规则”</div>
<div class="mceTemp">
<div id="attachment_128" class="wp-caption alignnone" style="width: 429px"><img class="size-full wp-image-128" title="Snap5" src="http://www.semyj.com/wp-content/uploads/2009/07/Snap5.gif" alt="扫描规则" width="419" height="334" /><p class="wp-caption-text">扫描规则</p></div>
</div>
<p>这样的扫描规则搜索引擎也一定会有的，比如不收录.exe文件,zip文件等等。然后不收录一些特定的跟踪链接， 如 ad.doubleclick.net 。你需要把一些搜索引擎爬虫不收录的特征加进去。</p>
<p>然后在“搜寻”里面，很多的特征都是现在搜索引擎爬虫的特征：</p>
<div id="attachment_131" class="wp-caption alignnone" style="width: 457px"><img class="size-full wp-image-131" title="Snap1" src="http://www.semyj.com/wp-content/uploads/2009/07/Snap1.gif" alt="搜寻" width="447" height="259" /><p class="wp-caption-text">搜寻</p></div>
<p>搜索引擎不会接受cookie,所以取消“接收cookie”。</p>
<p>至于“解析java文件”，google 爬虫也会去解析java文件的。这是一个像HTTrack这样的通用爬虫都可以做到的事情。可能很多人还不知道，google会去试图解析javascript代码。如果你的页面上放很多javascript代码，就会使爬虫的停留时间增加，进而影响爬虫效率。这也可以算是为什么要把javascript代码外调的另一个原因。</p>
<p>还有，有些<strong>javascript代码里面的URL，google爬虫是可以收录的，原因不明。</strong>这样做可能是因为有些内容很好的网站，很多链接就是喜欢用javascript来做的缘故吧。但是不代表你的链接可以用javascript来做。</p>
<p>HTTrack也同样能识别并遵守robots.txt文件。</p>
<p>至于url hacks ，就是让那种带 www和不带www的网址，如www.***.com和 ***.com。以及有斜杠和无斜杠的网址，如http://www.***.com 和 www.***.com  能统一。</p>
<p>这种网站上URL不统一的状况爬虫程序其实能很简单的处理好。至于google为什么要网站所有者在webmaster tool 后台指定一下“首选域”，是因为有些网站 www.***.com 和***.com 指向不同的内容。所以google不能那么武断的就认为www.***.com 和***.com是同一个网站。</p>
<p>至于“流量控制”和“限制”，</p>
<div id="attachment_133" class="wp-caption alignnone" style="width: 332px"><img class="size-full wp-image-133" title="Snap2" src="http://www.semyj.com/wp-content/uploads/2009/07/Snap21.gif" alt="流量控制" width="322" height="243" /><p class="wp-caption-text">流量控制</p></div>
<div id="attachment_134" class="wp-caption alignnone" style="width: 346px"><img class="size-full wp-image-134" title="Snap3" src="http://www.semyj.com/wp-content/uploads/2009/07/Snap31.gif" alt="限制" width="336" height="320" /><p class="wp-caption-text">限制</p></div>
<p>里面可以设置“连接数”和“深度”什么的。我相信google也有这些设置，不然，google的《网站质量指南》里不会这么写“如果站点地图上的链接超过 100 个，则需要将站点地图拆分为多个网页。”<br />
至于深度，有报告说，google抓取的最大深度是12。超时时间可以设为10秒。</p>
<p>还有其他“浏览器标识”和“预存区”也和搜索引擎爬虫一样的。</p>
<div id="attachment_135" class="wp-caption alignnone" style="width: 447px"><img class="size-full wp-image-135" title="Snap4" src="http://www.semyj.com/wp-content/uploads/2009/07/Snap41.gif" alt="其他设置" width="437" height="139" /><p class="wp-caption-text">其他设置</p></div>
<p>下面用它来抓取一个网站，看看会有什么样的情况。</p>
<p>首先爬虫会去网站根目录下访问 robots.txt文件，如果碰到该网站的二级域名，还会去二级域名下访问robots.txt文件。这个和搜索引擎是一样的。</p>
<p>在抓取的时候，是多线程的，你可以实时的看到哪些URL正在被抓取以及速度怎么样。</p>
<p>很多人用它抓取完一个网站后会惊讶的发现有很多没什么SEO价值的页面在被抓取。而这些“垃圾链接”竟然还是最先被抓取到的。可惜这个爬虫不支持nofollow属性，不然更加能模拟google爬虫。你还会用它发现很多死链接和超时的页面。</p>
<p>要是经常使用，你还会发现这个软件的一个规律，就是在抓取那些动态URL的时候，经常会产生重复抓取的现象，抓取URL类似www.***.com/index.asp?=12345  这样页面会陷入到死循环当中。这个和早期的google爬虫又是一样的。由此判断，这应该是爬虫天生的一个弱点，可能它没办法实时的比较多个页面的内容，如果加上网页程序在处理URL ID的上遇到什么问题，就会重复抓取。也由此得出为什么要有URL静态化了。 URL的静态化与其叫静态化不如叫唯一化，其实只要给网页内容一个唯一的、结构不容易陷入死循环的URL即可，这就是静态化的本质。</p>
<p>google最新的声明不要静态化，是不希望爬虫从一种重复抓取陷入到另一种重复抓取才这样说的。其实google举例的那几种不好的静态化一般是不会发生的。只要你明白那些URL中的参数代表什么，还有不要把很多个参数直接rewrite到静态化的URL里即可。</p>
<p>用这个软件，能让你直观的感受一个爬虫是怎么工作的。对于让一个新手正确认识爬虫有帮助。</p>
<p>这个软件的功能也差不多就这么多，要逼真的模拟搜索引擎爬虫，就要用《google网站质量指南》里提到的Lynx。但是Lynx是一个页面一个页面检查的。以后会写一篇应用Lynx的文章。</p>
<p><a href="http://www.semyj.com/archives/9" target="_self">更好的模拟google爬虫就要用GSA了</a>。不应该说是模拟，而应该说它就是google爬虫。</p>
<p>用HTTrack、Lynx和GSA，再配合服务器LOG日志里面的爬虫分析，会让你对爬虫的了解到达一个更高的水平。分析爬虫会让你得益很多的。很多都以后再讲。</p>
]]></content:encoded>
			<wfw:commentRss>http://www.semyj.com/archives/123/feed</wfw:commentRss>
		<slash:comments>39</slash:comments>
		</item>
		<item>
		<title>利用Google Search Appliance 服务器做SEO</title>
		<link>http://www.semyj.com/archives/9</link>
		<comments>http://www.semyj.com/archives/9#comments</comments>
		<pubDate>Fri, 26 Jun 2009 08:06:40 +0000</pubDate>
		<dc:creator>国平</dc:creator>
				<category><![CDATA[SEM工具]]></category>

		<guid isPermaLink="false">http://www.semyj.com/?p=9</guid>
		<description><![CDATA[
昨天，Stephen留在中国的Google Search Appliance 服务器到了。这次Google Search Appliance（简称 GSA）和去年用的那个google mini不一样，这个GSA基本上可以看做是google mini的升级版本吧。

Google推出GSA的目的是让那些信息量暴增的企业和机构能用它建立自己的搜索引擎。它支持的格式有220多种，你可以用它来抓取和收录自己的博客、网站、数据库和网络文件夹等等。它是机器和软件全部打包在一起的。
Google官方网站介绍：http://www.google.com/enterprise/search/gsa.html  

 
主要特点有以下这些，随意看看就好：
 
- 有一个连接器管理工具，可以让你收录和那些非WEB格式的文档。如：word,pdf,flash 等等
- 如果使用 Feed API 和元数据搜索功能，可以为自己的论坛建立搜索功能。
- 还提供了强大的 Onebox 编程接口，可以让你在搜索结果中展现一些定制的信息。
- 强大的安全搜索功能支持多种身份认证方式，使用户在搜索结果中只见到自己有权限访问的文档。
- 为小规模文档设计了专门的网页排序算法。
- 用户可以定制搜索结果界面，甚至以 XML 格式的形式，来整合到您自己的应用中去。
 
这个对SEO也是非常有用的。为什么这么说呢？
 
你可以把这个GSA看做是google 的微缩版，它有爬虫，有索引库，有排序算法。它的的硬件和软件都是现在google.com这个网站正在用的东西。所以两者之间相似程度非常的高。我在过去操作google mini的时候已经证实：至少它的抓取机制和现在的google.com几乎是一摸一样的。
 
它的排序算法，我觉得也会有很大的相似度。当然不会一摸一样的，因为现有的GSA好像是依据06年的搜索技术改变而来，而以google每年450次的算法调整频率，到现在也相差比较多了。但是至少和现在的排序算法会有相当大的相似度。
 
还有一些有意思的东西，大家看上面提到的两个特点：“Onebox 编程接口”和“在搜索结果中只见到自己有权限访问的文档”。这其实就是现在google的一些应用。
 
Onebox在搜索引擎现有的排序算法中享有优先级，它的数据来源就是Google Base或其他google产品。这次GSA也提供了这种Onebox的编程接口，现在自己亲手给自己的GSA添加Onebox，一定会对你如何利用Onebox拿到更多流量有帮助的。
 
“在搜索结果中只见到自己有权限访问的文档”，这个就类似igoogle 。还有google其他一些产品，在搜索结果页面，你登陆了gmail看到的和不登陆看到的是不一样的。
 
还有更多的细节，会在以后详细讲述，会把GSA后台的操作也讲述一下。到时候你会对google webmaster tool这个工具有更深一层的理解。
 
下面直接上图，机器顶部：
 


机箱非常的重，可能有40多公斤。
为了保护里面的数据和硬件，机箱要用专用的螺丝刀才能打开。Google在服务器硬件上有很多专利的。



背面和一般的服务器没太大差别，但是注意它有一进一出两个网线口。设置它的时候需要用另一台电脑辅助。



来一张google机柜里的图：

google mini (只有GSA一半大小）

利用GSA服务器做SEO测试，可以做出完美的SEO网页。 



]]></description>
			<content:encoded><![CDATA[<div>
<div class="mceTemp">昨天，Stephen留在中国的Google Search Appliance 服务器到了。这次Google Search Appliance（简称 GSA）和去年用的那个google mini不一样，这个GSA基本上可以看做是google mini的升级版本吧。</div>
</div>
<p>Google推出GSA的目的是让那些信息量暴增的企业和机构能用它建立自己的搜索引擎。它支持的格式有220多种，你可以用它来抓取和收录自己的博客、网站、数据库和网络文件夹等等。它是机器和软件全部打包在一起的。</p>
<p>Google官方网站介绍：<a href="http://www.google.com/enterprise/search/gsa.html" target="_blank">http://www.google.com/enterprise/search/gsa.html</a>  </p>
<div id="attachment_15" class="wp-caption alignnone" style="width: 510px"><img class="size-full wp-image-15" title="google-mini-gsa5" src="http://www.semyj.com/wp-content/uploads/2009/06/google-mini-gsa5.jpg" alt="Google Search Appliance 正面3" width="500" height="305" /><p class="wp-caption-text">Google Search Appliance 正面</p></div>
<div class="mceTemp"><span id="more-9"></span></div>
<p> <br />
主要特点有以下这些，随意看看就好：<br />
 <br />
- 有一个连接器管理工具，可以让你收录和那些非WEB格式的文档。如：word,pdf,flash 等等<br />
- 如果使用 Feed API 和元数据搜索功能，可以为自己的论坛建立搜索功能。<br />
- 还提供了强大的 Onebox 编程接口，可以让你在搜索结果中展现一些定制的信息。<br />
- 强大的安全搜索功能支持多种身份认证方式，使用户在搜索结果中只见到自己有权限访问的文档。<br />
- 为小规模文档设计了专门的网页排序算法。<br />
- 用户可以定制搜索结果界面，甚至以 XML 格式的形式，来整合到您自己的应用中去。<br />
 <br />
这个对SEO也是非常有用的。为什么这么说呢？<br />
 <br />
你可以把这个GSA看做是google 的微缩版，它有爬虫，有索引库，有排序算法。它的的硬件和软件都是现在google.com这个网站正在用的东西。所以两者之间相似程度非常的高。我在过去操作google mini的时候已经证实：至少它的抓取机制和现在的google.com几乎是一摸一样的。<br />
 <br />
它的排序算法，我觉得也会有很大的相似度。当然不会一摸一样的，因为现有的GSA好像是依据06年的搜索技术改变而来，而以<a href="http://news.cnet.com/8301-10784_3-9921148-7.html" target="_blank">google每年450次的算法调整频率</a>，到现在也相差比较多了。但是至少和现在的排序算法会有相当大的相似度。<br />
 <br />
还有一些有意思的东西，大家看上面提到的两个特点：“Onebox 编程接口”和“在搜索结果中只见到自己有权限访问的文档”。这其实就是现在google的一些应用。<br />
 <br />
Onebox在搜索引擎现有的排序算法中享有优先级，它的数据来源就是Google Base或其他google产品。这次GSA也提供了这种Onebox的编程接口，现在自己亲手给自己的GSA添加Onebox，一定会对你如何利用Onebox拿到更多流量有帮助的。<br />
 <br />
“在搜索结果中只见到自己有权限访问的文档”，这个就类似igoogle 。还有google其他一些产品，在搜索结果页面，你登陆了gmail看到的和不登陆看到的是不一样的。<br />
 <br />
还有更多的细节，会在以后详细讲述，会把GSA后台的操作也讲述一下。到时候你会对google webmaster tool这个工具有更深一层的理解。<br />
 </p>
<div class="mceTemp">下面直接上图，机器顶部：</div>
<p> </p>
<div class="mceTemp">
<div id="attachment_24" class="wp-caption alignnone" style="width: 510px"><img class="size-full wp-image-24" title="google-mini-gsa" src="http://www.semyj.com/wp-content/uploads/2009/06/google-mini-gsa.jpg" alt="GSA 机箱上印有大大的LOGO" width="500" height="362" /><p class="wp-caption-text">GSA 机箱上印有大大的LOGO</p></div>
</div>
<div class="mceTemp">机箱非常的重，可能有40多公斤。</div>
<div class="mceTemp">为了保护里面的数据和硬件，机箱要用专用的螺丝刀才能打开。Google在服务器硬件上有很多专利的。</div>
<div class="mceTemp">
<div id="attachment_13" class="wp-caption alignnone" style="width: 510px"><img class="size-full wp-image-13" title="google-mini-gsa2" src="http://www.semyj.com/wp-content/uploads/2009/06/google-mini-gsa2.jpg" alt="GSA 正面" width="500" height="298" /><p class="wp-caption-text">GSA 正面</p></div>
</div>
<div class="mceTemp">
<div id="attachment_16" class="wp-caption alignnone" style="width: 510px"><img class="size-full wp-image-16" title="google-mini-gsa6" src="http://www.semyj.com/wp-content/uploads/2009/06/google-mini-gsa6.jpg" alt="Google Search Appliance 背面1" width="500" height="271" /><p class="wp-caption-text">Google Search Appliance 背面1</p></div>
<div class="mceTemp">背面和一般的服务器没太大差别，但是注意它有一进一出两个网线口。设置它的时候需要用另一台电脑辅助。</div>
</div>
<div class="mceTemp">
<div id="attachment_17" class="wp-caption alignnone" style="width: 510px"><img class="size-full wp-image-17" title="google-mini-gsa7" src="http://www.semyj.com/wp-content/uploads/2009/06/google-mini-gsa7.jpg" alt="Google Search Appliance 背面2" width="500" height="316" /><p class="wp-caption-text">Google Search Appliance 背面2</p></div>
</div>
<div class="mceTemp">来一张google机柜里的图：</div>
<div class="mceTemp">
<div id="attachment_18" class="wp-caption alignnone" style="width: 376px"><img class="size-full wp-image-18" title="google-mini-gsa8" src="http://www.semyj.com/wp-content/uploads/2009/06/google-mini-gsa8.jpg" alt="机房" width="366" height="300" /><p class="wp-caption-text">机柜</p></div>
<div class="mceTemp">google mini (只有GSA一半大小）</div>
<div class="mceTemp"><img class="alignnone size-full wp-image-37" title="google-mini-buy-search" src="http://www.semyj.com/wp-content/uploads/2009/06/google-mini-buy-search.jpg" alt="google-mini-buy-search" width="450" height="300" /></div>
<div class="mceTemp">利用GSA服务器做SEO测试，可以做出完美的SEO网页。 </div>
<div class="mceTemp">
<div id="attachment_12" class="wp-caption alignnone" style="width: 510px"><img class="size-full wp-image-12" title="google-mini-gsa3" src="http://www.semyj.com/wp-content/uploads/2009/06/google-mini-gsa3.jpg" alt="gsa侧面" width="500" height="353" /><p class="wp-caption-text">gsa侧面</p></div>
</div>
</div>
]]></content:encoded>
			<wfw:commentRss>http://www.semyj.com/archives/9/feed</wfw:commentRss>
		<slash:comments>39</slash:comments>
		</item>
	</channel>
</rss>
