搜索引擎收录网站的主要因素及方法

分类:网站推广 | lao8发表于 2007-12-4 14:23:00

 搜索引擎是如何收录网站的?

搜索引擎收录可以分为两个基本类别:全文搜索引擎(FullText Search Engine)和分类目录(Directory)。

分类目录是人工方式建立网站的索引,全文搜索是自动方式建立网页的索引。

全文搜索引擎收录过程:

全文搜索引擎收录一般经过信息采集、索引、搜索三个步骤。

(1)信息采集(Web crawling):信息采集由搜索器和分析器共同完成,搜索引擎利用网络爬虫(crawlers)或网络蜘蛛(spider)或者叫做网络机器人(robots)的来查询网页上的超链接。

“网络蜘蛛”通过超级链接遍历指定范围内的整个Web空间,从一个网页转到另一个网页,从一个站点移动到另一个站点,将采集到的网页添加到网页数据库中。"网络蜘蛛"会抓取新网页内部所有的链接,所以建立网站地图为“网络蜘蛛”铺好路是必要的。

首先我们应该注意html代码应该尽量标准(可以到w3去验证当前页面)这样更容易被采集机器人所分析和采集。

例如,页面没有关闭标签的页面有可能被拒绝收录,而 ../../a.html 这样的超级链接可能不被网络蜘蛛分析。

“网络蜘蛛”在采集信息的过程中如果遇到相同的超链接如果内容一致,则只采集一次。

(2)建立索引(Indexing):搜索引擎把采集的信息按照一定的规则进行编排。

大家可能注意到“搜索引擎蜘蛛”每隔一段时间就来我们的网站采集资料,但索引创建需要一段时间,因此即便爬虫来过,采集结果要呈现在搜索引擎上,会有一定的时间间隔,这个时间对于新站来说需要很长的时间,老吧在“值得纪念的日子,百度蜘蛛初次到访! ”一文发表到现在还没在百度搜索结果中呈现。

 建立索引的同时搜索引擎会按照一定的算法计算所采集的文章的重要程度,比如:是否是“原创”,是否被其它网站转载,分析文章的关键词等一系列因素建立当前页面的“权重”。

(3)用户搜索(Searching):当用户在搜索引擎查询,搜索引擎对网页的相关度进行了计算和评估,例如:google参照pr值。不同搜索引擎有不同的排序规则,因此在不同的搜索引擎中搜索相同关键词,排序是不同的。

关于百度收录

  1.  百度对于不同网站的更新频率是不同的,一般大网站更新很快,通常有专门的“搜索蜘蛛”来跟踪这些大网站的更新,因此如果我们的网站在这些大网站中有链接是最好的,比如:加入yahoo等大网站的分类目录,或自己在这些大网站中建立blog,例如:http://hi.baidu.com/fansart
  2. 百度搜索并不一定采集你网站的所有内容,尤其对小型网站。我们在研究sina的博客会发现新浪网的博客个人主页 ,再打开http://blog.sina.com.cn/s/blog_4c497d3a01000cpa.html 这篇博客,我们在浏览器上看到title中加入了文章标题,但是查看源文件titile为,实际上具体每一篇文章的title中并没有加入文章标题,而是用javascript控制显示结果,在sina这样海量信息的大网站中,seo们注重的更多的是以用户名为关键词所带来的流量
  3. 服务器是否稳定对于网站的收录也存在很大的影响,一旦发现某个网站不通,通常会多次尝试抓取,如果多次仍然不能正常访问会停止收录这些网站,所以保持网站24小时畅通非常重要。
  4. 网站换空间更换IP,通常我们建议重新提交收录,如果百度还在原来的ip上派出搜索蜘蛛,那肯定是失败的,多长不成功会造成我们网站被K的现象。如果基于ip,你的网站和别人使用相同的IP,如果别人的网站被百度惩罚了,你的网站会受到牵连。如果有可能尽量独享ip,保持网站的稳定很重要。
  5. 现在搜索引擎对于动态页面和纯html页面的收录影响已经不是很大,asp?nid=同纯html都可以正常收录,且影响并不大,甚至一些需要登录才可以看得的网站内容都可以检索到,但是,如果有可能,还是尽量生成静态页面,纯静态的html页面有更好地反应速度,提高了网站效率减轻压力。我坚决反对用js来转跳链接,虽然google已经能收录框架(frame)、Flash超链接,我们也不建议用。
  6. 据业内人士讲,一般好的搜索,索引都是文本文件,而不是数据库,因此索引中需要删除一条记录,并不是一件方便的事情。一般需要使用专门的工具,人工删除某条索引记录。当然能直接某个网站下的所有索引。对于过期网页和作弊网页(主要是网页标题、关键词和内容不匹配),在重建索引的过程中也会被删除。大多站点被K的原因在此
  7. 我们很多站长的站点是靠采集别人的资料建立起来的,一般搜索引擎只判断标题和来源地址,只要不同,被百度K的可能性就不大,谷歌则判断的很严格。搜索引擎并不能非常准确的判断是否是拷贝别人的资料,都是按照一定的规则和公式,想不被搜索引擎惩罚,把采集来的文章做适当修改即可。

关于谷歌收录

谷歌收录网站比百度更正,百度有很多人为的因素,而谷歌基于pr算法之上。

pr 是Page Rank的简写,pr满分为10,一般pr越高表示网站越优秀,排名越靠前,pr计算公式没有人工干预,因此相对公正。

PageRank 并不计算直接链接的数量,而是将从网页 A 指向网页 B 的链接解释为由网页 A 对网页 B 所投的一票。这样,PageRank 会根据网页 B 所收到的投票数量来评估该页的重要性。此外,PageRank 还会评估每个投票网页的重要性,因为某些网页的投票被认为具有较高的价值,这样,它所链接的网页就能获得较高的价值。

影响Page Rank的主要因素

  1. 外部链接数(有多少网站链接了你的网站),这个数值越大,表示你的网站越重要;
  2. 链接你网站的网站pr值越高越多,说明你的网站也很优秀,那么你的pr值也就相应提高。
  3. 自己网页的内容、关键词,标题及URL等保护关键词的量也是至关重要的。

新网站如何被快速收录

1、不能被搜索引擎收录的只要原因:

  1. 没有任何被收录的网站链接到你的网站,搜索引擎就无法发现你;
  2. 与被搜索引擎惩罚的网站做友情链接。
  3. 你网页中的超级链接用flash、js、frame等方式无法被搜索引擎蜘蛛分析。 
  4.  你网站的ip地址曾经被惩罚过或你与被惩罚的网站放在相同ip的服务器上。
  5. 近期更换过服务器的IP地址,搜索引擎需要重新采集。
  6. 服务器不稳定、经常死机、或者因经不起网络蜘蛛采集的压力,服务器端禁止了蜘蛛的抓取。
  7. 网页代码不规范,无法被搜索蜘蛛正确分析,div+css是合理的推荐。
  8. 网站robots.txt协议拒绝搜索引擎抓取。
  9. 作弊的网页,网页的关键词和内容严重不匹配,或者某些关键词密度太大。
  10.  违法国家法律法规的内容。
  11. 相同网站内存在大量相同标题的网页,或者网页的标题没有实际含义,如标题为“无标题文档”。

因此我们要:

  1. 和优秀的网站交换链接(或建立博客发表文章);
  2. 登录各种大网站的网站网站目录;
  3. 在大网站的论坛中发表文章并留有我们的网站链接,也可在签名中加上我们网站的链接;
  4. 优化页面代码建议用div+css,分析文章关键词。
  5. 在title中包含关键词,文章第一段尽可能使用简介,避免纯图片内容。
  6. 部分的内容可以使用文章的简介
收藏到收藏夹

相关"搜索引擎 收录 收录网站 方法"文章


username(必填) email(必填) website

站内搜索

 

按分类归档

lao8 最新文章: