欢迎加入本站QQ群:七色财税俱乐部1群(已满)七色财税(59440533) 七色财税俱乐部2群:七色财税(249484271)
您现在的位置:首页 >> 营销知识 >> S E O >> 信息正文

搜索引擎索引收录网页原理

2013/3/15 19:57:56 来源:转载   录入:七色阳光 访问:5157 次 被顶:1 次 我要投稿
核心提示:不过,这也是往往易被高估的一个环节,比如说我们时常可以看到某些人宣称自己的网站被Google收录了多少页面如几K甚至几十K等以证明SEO工作的成功。但客观地说,网页仅仅被搜索引擎索引、收录是没有太大的实际意义,往往只能沦为浩如烟海的Internet世界中的殉葬品...

不过,这也是往往易被高估的一个环节,比如说我们时常可以看到某些人宣称自己的网站被google收录了多少页面如几k甚至几十k等以证明seo工作的成功。但客观地说,网页仅仅被搜索引擎索引、收录是没有太大的实际意义,往往只能沦为浩如烟海的internet世界中的殉葬品,更重要的是如何让网页出现在针对特定搜索项的serp(搜索结果页面)前几页。——许多人相信,让网站内尽可能多的页面被收录进搜索引擎索引数据库终归不是一件坏事,网页越多,暴光的机会也便越大,虽然最终效果如何存在疑问。

anyway,如果在对网站实施seo时将重点放在网页被索引、收录的速度与效率,当然也无可厚非,而要想实现这一点,需要我们对搜索引擎如何收录、索引网页的机制有所了解。下面我们以google为例,介绍搜索引擎收录、索引网页的过程,希望能对朋友们有后助益。——对其他搜索引擎如yahoo!、live搜索及百度而言,尽管可能在具体细节上存在差别,不过,基本策略应该是类似的。

1、收集待索引网页的url

internet上存在的网页数量绝对是个天文数字,每天新增的网页也不计其数,搜索引擎需要首先找到要索引收录的对象。

具体到google而言,虽然对googlebot是否存在deepbot与freshbot的区别存在争议——至于是否叫这么两个名字更是众说纷耘,当然,名字本身并不重要——至少到目前为止,主流的看法是,在google的robots中,的确存在着相当部分专门为真正的索引收录页页准备“素材”的robots——在这里我们姑且仍称之为freshbot吧——它们的任务便是每天不停地扫描internet,以发现并维护一个庞大的url列表供deepbot使用,换言之,当其访问、读取其一个网页时,目的并不在于索引这个网页,而是找出这个网页中的所有链接。——当然,这样似乎在效率上存在矛盾,有点不太可信。不过,我们可以简单地通过以下方式判断:freshbot在扫描网页时不具备“排它性”,也即是说,位于google不同的数据中心的多个robots可能在某个很短的时间周期,比如说一天甚至一小时,访问同一个页面,而deepbot在索引、缓存页面时则不会出现类似的情况,即google会限制由某个数据中心的robots来完成这项工作的,而不会出现两个数据中心同时索引网页同一个版本的情况,如果这种说法没有破绽的话,则似乎可以从服务器访问日志中时常可以看到源自不同ip的googlebot在很短的时间内多次访问同一个网页证明freshbot的存在。因此,有时候发现googlebot频繁访问网站也不要高兴得太早,也许其根本不是在索引网页而只是在扫描url。
freshbot记录的信息包括网页的url、time stamp(网页创建或更新的时间戳),以及网页的head信息(注:这一点存在争议,也有不少人相信freshbot不会去读取目标网页信息的,而是将这部分工作交由deepbot完成。不过,笔者倾向于前一种说法,因为在freshbot向deepbot提交的url列表中,会将网站设置禁止索引、收录的页面排除在外,以提高效率,而网站进行此类设置时除使用robots.txt外还有相当部分是通过mata标签中的“noindex”实现的,不读取目标网页的head似乎是无法实现这一点的),如果网页不可访问,比如说网络中断或服务器故障,freshbot则会记下该url并择机重试,但在该url可访问之前,不会将其加入向deepbot提交的url列表。

上一页 1 2 3 4 下一页

赞助本站:

希望大家能够支持本站的发展,大家可以通过以下三种方式支持本站。

1.安装使用2345智能浏览器-->>点击下载安装2345浏览器
2.点击这里->设置2345网址导航为首页,访问2345网址导航
3.用支付宝钱包扫描下面二维码付款给本站。

打印本文   加入收藏   返回顶部   关闭窗口Tags:搜索引擎|原理  
原创文章转载请注明:转载自电子商务工作室 http://www.qisesun.com
原文链接:http://www.qisesun.com/Article/?541.html
参与评论
共有评论 0网友评论列表
Q Q:403192959 Email:hwfec#126.com(将#换成@)  
  CopyRight © 2010-2013 电子商务工作室  Inc.All Rights Reserved.  晋ICP备14009016号-1  
本站的部分文章来自网上收集,其版权归作者本人所有,如果有任何侵犯您权益的地方,请联系我们,我们将马上进行整理,谢谢。