提高网站在Google中的排名
内容摘要_br /> 目前中文网站在整个互联网中的影响还比较小,这主要是由于中文网站总体的水平(技术上,内容上)都还相对落后造成的,最主要的表现有_br /> 1. 行业知识:不知道搜索引擎对吸引的新用户的重要性,在搜索引擎排名服务中追求“傻瓜相关”,购买一些其实没有太多实际意义的行业关键词。其实能够用户输入的关键词越多,真对性越强,价值越高。如果用户能够直接定位到产品具体内容页比到网站首页有价值的多; 2. 发布技术:网站的网页进入Google的索引量非常小,动态网页仍是主要发布机制,缺乏将动态页面链接表现成静态页面的机制_br /> 3. 页面设计:页面标题重复,关键词不突出,过渡使用JavaScript脚本/图片/Flash等不适合搜索引擎索引的非文本形式_br /> 无法量化的东西是不可管理的,以上根本的原因往往是网站自身缺乏日志统计分析造成_br /> 其实大部分网站只要通过一些简单的策略还是可以让网站自身的水平在互联网中有一个真实的体现,网站结构设计中面向搜索引擎的优化注意事项包括: * 链接引用的重要性; * 如何突出关键词:网页标题、主题的设计_br /> * 页面及站点结构设计注意事项; * 以及站点访问统计的重要性等_br /> * Google的站点设计指卿br /> (注意:本网站设计本身就利用了其中一些方法)〿br /> 什么是PageRank Google等新一带搜索引擎的优势之一在于不仅索引量很大,而且还将最好的结果排在搜索结果的最前面,具体的原理可以参考Google の秘寿- PageRank 徹底解説一文,PageRank简单的说类似于科技论文中的引用机制:谁的论文被引用次数多,谁就是权威。在互联网上PageRank就是基于网页中相互链接关系的分析得出的〿br /> 此外,从计算方法角度阐述PageRank机制还有这篇文章:http://pr.efactory.de/里面有更详细的PageRank算法说明和各种清晰的小型个案分析_br /> 比如:子页中导航条的重要怿br /> B <=> A => C Vs B <=> A <=> C (好_br /> 页面数量因素_br /> B <=> A <=> C Vs F <=\ /=> G B <=> A <=> C (好_br /> D <=/ \=> E 一个意想不到的结论_br /> (B <=> A <=> C) ( E <=> D <=> F) Vs (B <=> A <=> C) <=> ( E <=> D <=> F) PageRank升高的只是被链接皿个首页A和D,而网站子页面的PageRank平均会略有下降。同时:一个网站进入Google的索引量越大其受类似因素影响越小〿br /> PageRank不对称的页面互链_br /> Google会用BadRank之类的算法进行纠正,而且一个网页着有来臿ldquo;与其自身不相秿rdquo;的高PageRank站点的链接,而自身又缺少足够数量和质量的反相链接的话,其PageRank会自动降低为0,A(pr=7) <=> B(pr=0) 简单的说就是:偶尔要被权威站点反相链接不算数,要被足够多的权威站点引用才能提高自身网页的PageRank〿br /> Web超链分析算法综述(南京大学论文) 更多论文可以通过搜索_ldquo;filetype:pdf google pagerank anchor text bayesian”得到 在互联网的海洋中,最重要的就是互联互通,不被其他网站引用的网站就昿ldquo;信息孤岛”〿ldquo;酒好也怕巷子深”,也许这话说起来有点像垃圾邮件广告,但事实就是这样。所以如果做网站的目的不是孤芳自赏,就需要积极的推广自己的网站〿br /> 通过搜索引擎推广自己需要注意以下几个方面: 1. 以量取胜:不一定加入大型网站的分类目录才是网站推广,来自其他网站的任何反相链接都是有用皿br /> 网站推广比较经典的方式就是加入比较大型门户网站的分类目录,比如:Yahoo!,dmoz.org等。其实这里有一个误区:不一定非要加入大型网站的分类目录才是网站推广,因为现在搜索引擎已经不再只是网站目录的索引,而是更全面的网页索引,所以无论来自其他网站任何地方的反相链接都是非常有价值的,哪怕是出现在新闻报道,论坛,邮件列表归档中。很多大型站点的邮件列表发邮件时,一定注意在自己的签名中加上自己网站的地址〿Blogger(Weblog的简称)们也许最深刻地理解了“链接就是一刿rdquo;这句话的含义,由于Blog的内容之间有大量的相互链接,因此最经常被引用的 Blog页面在搜索引擎中的排名往往比一些大型商业网站的页面还要高〿br /> 2. 以质取胜:被PageRank高的网站引用能更快地提高PageRank 数量只是关键因素之一,来自PageRank高的页面的链接还能更快的提高被链接目标的PageRank,我只是将一些文章投稿在了ZDNet中国上,由于页面上有文章出处链接,相应网页和网站整体的PageRank过了一段时间后就有了很大的提升。有时候被什么样的网站引用有时候比引用次数多更重要。这里我要特别感谢的是,当时ZDNet中国是唯一遵循了我的版权声明的要求表明了文章出处,并且有反相链接的网站〿br /> 按照这个原则:能够名列Yahoo!和DMOZ这样的大型权威目录的夿层是非常有价值的〿br /> 3. 了解搜索引擎皿quot;价值观_br /> Lucene简介这篇文章被Jakarta.apache.org的lucene项目引用以后,这篇文章就成为了所有页面中PageRank最高的页面,而Google支持的一些项目,比如:Folding@Home,让我一直怀疑他们对政府,教育和非盈利组织的站点有特别加分,毕竟.org .edu才代表了互联网的实质:分权和共享〿br /> 但更合理的解释是_org很多都是开放技术平台的开发者,他们会在首页这样的地方加入Powered By Apache, Power by FreeBSD之类的链接表示对其他开源平台的尊重,所以象Apache, PHP, FreeBSD这样的开源站点在GOOGLE中都有非常高的PageRank。而在.edu这些站点中,很多都是学术性比较强的文档,以超链接形式标明参考文献的出处已经成为一种习惯,而这也无疑正是PageRank最好的依据〿br /> 注意:不要通过Link Farm提高自身的站点排名:Google会惩罚那些主动链接到Link Farm站点以提高自身排名站点,相应站点的页面将不会被收入到索引中。但如果你的页面被别的Link Farm链接了也不必担心,因为这种被动的链接是不会被惩罚的〿br /> 4. 不要吝啬给其他网站的链接:如果一个网页只有大量的进入链接,而缺乏导出链接,也会被搜索引擎认为是没有价值的站点。保证你的网站能够帮助搜索引擎更准确地判断哪些是对用户最有价值的信息,也就是说如果你的网站只有外部反向链接而没有导出链接的话,也会对你的网站在搜索结果中的表现带来负面影响。当然网站中连一个导出链接都没有的情况非常罕见,除非你是刻意这么做。正常情况下大家都会自然地在网页中加上一些其他网站的链接,带领访问者去到我们认为重要或能够提供更多有价值信息的地方_br /> 另外在推广自己网站之前也许首先需要了解自己网站目前在一些搜索引擎中的知名度,原理非常简单,可以参考如何评价网站的人气一文〿br /> 网站推广只是手段,如何突出内容、让需要相关信息的用户能够尽快的找到你的网站才是目的,PageRank高并不代表像Yahoo!这样的门户站点就能在所有搜索结果中排名靠前,因为搜索引擎的结果是搜索关键词在页面中的匹配度和页面的PageRank相结合的排名结果。因此第二个要点:如何突出关键词〿br /> 1. Theme Engine正在逐步超过PR,成为结果排序中更主要的因素,可以比较一下以下现象: * 为什么查“新闻”_ldquo;汽车”之类的文字,各种门户网站的首页不在第一位?要知道他们的页面中都有相应频道的链接文字皿br /> * 一篇新闻页面中,搜索引擎如何不通过模板匹配,自动将新闻的主体和页面中的页头,栏目导航条,页尾等部分的内容区分开的? 其实以上问题都可以归结为网页内容摘要的提取策略和关键词在其中的命中: 首先将能够描述一个页面内容的分成以下几种类型_br /> 1. 链入文字描述:inbound link text http://www.searchenginedictionary.com/terms-inbound-link.shtml 2. HTML页面标题:title 好标题一般会将页面中最重要的关键词放在最前面,比如:ABC-10型吸尘器 - XX家电埿br /> 3. HTML内容主体:content text 4. 链出文字:outbound link text 如果按照以下规则_br /> 一个页面中关键词命中权重:链入文字 > HTML标题文字 > HTML页面主体内容 >> 出链文字,以上现象就比较好解释了〿br /> 链入文字是页面上看不见的,但链入文字对被链接页面有巨大的作用:在现代搜索引擎在关键词匹配的过程中,匹配的过程不只看当前页面的内容摘要:很大程度上,不只看这个网页自己说自己有什么内容,还要看别人如何链接时,如何描述你的网站别人怎么称呼你,比你自己说自己更重要。〿br /> 比如查:“世界卫生组织”,返回结果中朿http://www.who.int/ 而这个页面中是没有中文的,之所以能匹配上,是因为很多链接它的中文网站使用了:世界卫生组织,所以,这个页面中不存在的中文关键词也成为了页面摘要的一部分。这样一想,就可以知道链出链接的文字其实是为被链接的子频道首页或者内容详情页服务的。对自身页面的关键词密度只有负面的影响,这也是Google建议一个页面中链接不要超过100个的原因:他根本不索弿00个链接以后的内容。按照以上规则,搜索引擎将一篇新闻详情页中的新闻内容提取出来就是把页面上所有带HTTP链接的文字都去掉,就是新闻的内容部分了,更精确一些可以通过取最长文本段落等策略实现;而很多网站首页或频道首页中几乎全部都是链接,经过搜索引擎分析的结果就是:什么内容也没有,能够被命中的关键词仅仅是别人链接你用的“网站首页”和频道标题Title中的站点名称等的几个关键词,而页面中其他的文字则远远不如相应子频道和具体内容页面的匹配度高,而搜索引擎能够通过以上规则,让用户更快的直接定位到有具体内容的内容详情页面。因此希望通过一个首页,尽可能多的命中所有希望推广的关键词是不可能的。让网页尽可能多的进入搜索引擎的索引,然后把握好整个网站的主题风格是非常重要的,让网站的主题关键词能够比较均匀的按照金字塔模式分布到网站中可以参考:网站的主题金字塔设计 网站名称(用户通过1_个抽象关键词_br /> / \ 子频避 子频避 (用户通过2_个关键词命中_br /> / \ / \ 产品1 产品2 文章1 文章2 (用户通过3_个关键词命中:这种用户最有价倿 2. 不要空着标题:空着无异于浪费了最有价值的一块阵地; 传统的页面中,HTML页面中会有类似以下的隐含信息,用于说明当前网页的主要内容关键字: 后来由于这种人工添加关键词的方式被滥用,大量网页中为了提高被搜索引擎命中的概率,经常添加一些和实际网页内容无关的热门关键比如:“music mp3 download”等,所以新一代的搜索引擎已经不再关心页面头文件中的人工meta keyword声明,而页面标题在搜索引擎的关键词的命中命中过程中往往有着更高的比重,如果一个关键词在标题中命中会比在页面中命中有更高的得分,从而在相应的搜索结果排名中更靠前〿br /> 3. 标题长度和内容:不要过长,一般在40个字符以内,并充分突出关键词的比重; 如果更长的标题搜索引擎一般会忽略掉,所以要尽可能将主要关键词放在标题靠前的位置。省略掉不必要的形容词吧,毕竟用户主要通过名词来找到需要的内容。标题内容:尽量用一些别人可以通过关键词找到的字眼(也别太过头,如果标题中的字眼超迿半内容中都没有,有可能被搜索引擎排除出索引),因此基于web日志中来自其他搜索引擎的关键词查询统计非常必要〿br /> 4. 如果网页很多的话,尽量使用不同的网页标题,争取让自己网站的内容更多的进入搜索引擎索引范围_br /> 因为搜索引擎会根据页面内容的相似度把一些内容当成重复页面排除出索引范围_br /> http://www.chedong.com/phpMan.php是我的网站上的一个小应用:一个web界面的unix命令手册(man page),在以前的设计中所有动态页面使用的都是同样的标题:phpMan: man page /perldoc /info page web interface ,Google索引了大线000多个页面,后来我将页面标题改成了phpMan: [命令名]这样的格式,比如_quot;phpMan: ls,这样大部分动态页面的标题就都不一样了,一个月后Google从这个页面入口索引了大约6000个页面。因此,如果网站中很多网页都使用相同的标题,比如_ldquo;新闻频道”_ldquo;论坛”,这些页面中很大一部分就会被排重机制忽略掉〿br /> 5. 除了外,还可以用 标题行突出内容主题,加强标题的效果; 在我的网站设计中:我会把甿br /> [标题] 这样的模板把标题突出显示,而不是通过改变字体的方式突出标题〿br /> 1. 静态链接:Blog网站另外一个优势在于其网页是静态链接:动态网页占到整个互联网内容皿0%以上。各个搜索引擎其实能够表现的都只不过是互联网的冰山一觿3-5%),不同的只是谁让优质网页排名靠前的策略更优秀而已:大部分搜索引擎都认为静态链接的网页是优质网页,Google在优先抓取索引的网页丿0%以上是不带参数链接的静态网页。而且即使同样的内容,静态网页也会比动态网页权重高:很容易理解:query?a=1&b=2这样的链接由于参数顺序颠倒的query?b=2&a=1完全相同。尽量使用静态网页:目前能够动态网页进行全面的索引还比较难,而即使是Google也更不会索引所有的内容,因此很少会对参数超迿个的动态网页进行进一步的抓取和分析。以下是一个phpBB论坛页面返回的HTTP头信息: HTTP/1.1 200 OK Date: Wed, 28 Jan 2004 12:58:54 GMT Server: Apache/1.3.29 (Unix) mod_gzip/1.3.26.1a PHP/4.3.4 X-Powered-By: PHP/4.3.4 Set-Cookie: phpBB_data=a%3A0%3A%7B%7D; expires=Thu, 27-Jan-2005 12:58:54 GMT; path=/; Set-Cookie: phpBB_sid=09f67a83ee108ecbf11e35bb6f36fcec; path=/; Content-Encoding: gzip Cache-Control: private, pre-check=0, post-check=0, max-age=0 Expires: 0 Pragma: no-cache Connection: close Content-Type: text/html 为了避免隐私问题:Googlebot可以通过对页面http header中的session id和session cookie进行一些甄别,这样很多需要认证信息的论坛内容就无法进入索引了〿br /> 总体上说Google喜欢新的,静态的内容。因此无论从效率上讲还是方便搜索引擎收录:使用内容发布系统将网站内容发布成静态网页都是非常必要的,从某种程度上说google friendly = anonymous cache friendly〿br /> 比如:http://www.chedong.com/phpMan.php/man/intro/3 比http://www.chedong.com/phpMan.php?mode=man¶meter=intro§ion=3这样的链接更容易进入搜索引擎的索引。而且在URL中的命中也能突出关键词〿br /> 2. 能够进入Google索引的页面数量越多越好。用类似以下的脚本可以统计自己的网站被搜索引擎索引的情况〿br /> #!/bin/sh YESTERDAY=`date -d yesterday +%Y%m%d` # for FreeBSD: YESTERDAY=`date -v-1d +%Y%m%d` LOG_FILE='/home/apache/logs/access_log' grep -i Googlebot $LOG_FILE.$YESTERDAY|awk '{print $7}' |sort | uniq -c | sort -rn > spider/$YESTERDAY.googlebot.txt grep -i baiduspider $LOG_FILE.$YESTERDAY|awk '{print $7}' |sort | uniq -c | sort -rn > spider/$YESTERDAY.baiduspider.txt grep -i msnbot $LOG_FILE.$YESTERDAY|awk '{print $7}' |sort | uniq -c | sort -rn > spider/$YESTERDAY.msnbot.txt grep -i inktomi $LOG_FILE.$YESTERDAY|awk '{print $7}' |sort | uniq -c | sort -rn > spider/$YESTERDAY.inktomi.txt grep -i openbot $LOG_FILE.$YESTERDAY|awk '{print $7}' |sort |uniq -c | sort -rn > spider/$YESTERDAY.openbot.txt 3. 网站目录结构要扁平,因为每深一级目录,PAGERANK降低1_个档次。假设首页是3,其子可能目录就昿了,更深可能就无法列入评级范围了〿br /> 4. 表现和内容的分离_ldquo;绿色”网页 网页中的javascript和css尽可能和网页分离,一方面提高代码重用度(也方便页面缓存),另外一方面,由于有效内容占网页长度的百分比高,也能提高相关关键词在页面中的比重也增加了。总之,应该鼓励遵循w3c的规范,使用更规范的XHTML和XML作为显示格式便于内容更长时间的保存〿br /> 5. 让所有的页面都有能够快速入口:站点地图,方便网页爬虫(spider)快速遍历网站所有需要发布的内容。如果首页就是用Flash或图片进入的话,无异于将搜索引擎拒之门外,除了UI设计的用户友好外,spider friendly也是非常重要的〿br /> 6. 保持网站自身的健康:经常利用坏链检查工具检查网站中是否有死链〿br /> 7. 保持网页内容/链接的稳定性和持久性:在搜索引擎索引中网页存在的历史也是一个比较重要的因素,而且历史比较久的网页被链接的几率越高。为了保证自己网页能够被比较持久的被其他网站的页面引用,如果自己网页中有链接更新时,最好能保留旧的页面并做好链接转向,以保持内容的连续性。要知道,把一个网站和内容在搜索引擎中的排吿ldquo;培养”的很高是一件非常不容易的事情,谁都不希望好不容易自己的内容被别人找到了,点击却昿ldquo;404 页面不存圿rdquo;吧,因此站点管理员对自身站点error.log的分析也是非常必要的〿br /> 8. 文件类型因素:Google有对 PDF, Word(Power Point, Excel), PS文档的索引能力,由于这种文档的内容比一般的HTML经过了更多的整理,学术价值一般比较高,所以这些类型的文档天生就比一般的HTML类型的文桿PageRank要高。因此,对于比较重要的文档:技术白皮书,FAQ,安装文档等建议使用PDF PS等高级格式存取,这样在搜索结果中也能获得比较靠前的位置〿br /> 9. 常常能发现门户站点的一条新闻往往比其他站点的首页排名还要靠前。因此一个站点总体PageRank提高了以后,往往自身一些并不重要的内容也会被同那些高PageRank的内容一起带入被搜索引擎优先查询的列表中。这样经常造成很多大的开发站点的邮件列表归档往往比其他站点的首页PageRank还要高〿br /> 知己知彼——站点访问统计/日志分析挖掘的重要怿br /> 网站设计不仅仅只是被动的迎合搜索引擎的索引,更重要是充分利用搜索引擎带来的流量进行更深层次的用户行为分析。目前,来自搜索引擎关键词统计几乎是各种WEB日志分析工具的标准功能,相信商业日志统计工具在这方面应该会有更强化的实现。WEB日志统计这个功能如此重要,以至于新的RedHat 8中已经将日志分析工具webalizer作为标准的服务器配置应用之一〿br /> 以Apache/webalizer为例,具体的做法如下_br /> 1. 记录访问来源_br /> 在Apache配置文件中设置日志格式为combined格式,这样的日志中会包含扩展信息:其中有一个字段就是相应访问的转向来源_HTTP_REFERER,如果用户是从某个搜索引擎的搜索结果中找到了你的网页并点击过来,日志中记录的HTTP_REFERER就是用户在搜索引擎结果页面的URL,这个URL中包含了用户查询的关键词〿br /> 2. 在webalizer中缺省配置针对搜索引擎的统计:如何提取HTTP_REFERER中的关键诿br /> webalizer中缺省有针对yahoo, google等国际流行搜索引擎的查询格式:这里我增加了针对国内门户站点的搜索引擎参数设置 SearchEngine yahoo.com p= SearchEngine altavista.com q= SearchEngine google.com q= SearchEngine sina.com.cn word= SearchEngine baidu.com word= SearchEngine sohu.com word= SearchEngine 163.com q=