百度并不能有效区分二次整理的伪原创

2014年03月15日 12:50 by:老修

导读: 优质的原创文章一直是提升网站排名指数的杀手锏, 但伪原创的出现干扰了搜索引擎正常的收录, 原创文章的质量从用户层面上决定网页/网站受欢迎的程度, 而对于百度/谷歌等搜索引擎来说, 一篇优质的原创文章会给予优先的展示机会, 这是公平的, 在没有"伪原创"之前, 文章的转载是互联网传播的主要途径, 百度仍不能有效区分伪原创文章.

优质的原创文章一直是提升网站排名指数的杀手锏, 原创文章的质量从用户层面上决定网页/网站受欢迎的程度, 而对于百度/谷歌等搜索引擎来说, 一篇优质的原创文章会给予优先的展示机会, 这是公平的, 在没有"伪原创"之前, 文章的转载是互联网传播的主要途径, 面对大量的转载, 百度是怎样区分原创文章的最先发布者呢?

据百度站长平台的LEE称: 百度的星火原创计划正在实施, 百度原创识别系统能够快速实现对网页的重复聚合和链接指向关系分析。根据内容相似程度来聚合采集和原创,将相似网页聚合在一起作为原创识别的候选集合;通过对作者、发布时间、链接指向、用户评论、作者和站点的历史原创情况、转发轨迹等上百种因素来识别判断出原创网页;最后,通过价值分析系统判断该原创内容的价值高低进而适当的指导最终排序。

百度仍不能有效区分伪原创文章

什么是伪原创?
1/ 利用软件采集别的网站的文章,用简单的替换近义词发布的文章是最初的伪原创文章. 这类伪原创百度有可能用中文分词技术采取云计算匹配的技术找出来.
2/ 经过二次加工, 重新整理过的文章, 这类伪原创百度很难识别或根本就识别不出来.

百度"起源"算法的目的是找到最初发布的源头. 区分原创/伪原创仍然是百度需要解决的问题, 且我相信这个问题在短期内是难以解决, 收录量和流量是导致大量重复的/类似的文章存在的罪魁祸首.

伪原创对百度是个挑战, 同时也挑战着依靠各种采集发布软件生存的站长们的神经. 或许百度可以区分对简单近义词替换的伪原创, 但是对于重新整理的二手文章百度至少在段时间内解决不了这个问题. 

要注意区分"绿萝2.0算法"是针对带外链的软文的, 因为这些软文多数带有一定指向性锚链, 而伪原创有可能不带连接, 目的就是吸引搜索引擎, 有的文章是软件自动生产的并没有阅读价值. 

关于绿萝算法的解释可以参考卢松松博客的文章: http://lusongsong.com/reed/722.html

所以发软文也是注意不要过多的外链/url, 适当的站内连接可以有效的提高文章的权重, 凡事适可而止.

百度原创星火计划, 百度官方解释:

我们一直致力于原创内容的识别和排序算法调整,但在当前互联网环境下,快速识别原创解决原创问题确实面临着很大的挑战,计算数据规模庞大,面对的采集方式层出不穷,不同站点的建站方式和模版差异巨大,内容提取复杂等等问题。这些因素都会影响原创算法识别,甚至导致判断出错。这时候就需要百度和站长共同努力来维护互联网的生态环境,站长推荐原创内容,搜索引擎通过一定的判断后优待原创内容,共同推进生态的改善,鼓励原创,这就是“原创星火计划”.

同时LEE表示,通过实验以及真实线上数据,百度原创识别“起源”算法已经取得了一定的进展,一期对部分重点原创新闻站点的优质原创内容在百度搜索结果中给予了原创标记、作者展示等等,并且在排序及流量上也取得了合理的提升。目前主要是邀请机制, 目前只对千万级流量的网站邀请. 比如:sina/国际在线等大型新闻资讯类网站. 

优质原创文章的解释

符合以下两点是优质原创资源:
本网站首创,非抄袭模仿的、内容和形式都具有独特个性的资源;
本网站首创,且具有社会共识价值的资源,符合国家相关规定;
转载及简单二次加工内容不在此范围内;

对于中小型/微型网站. 百度在百度站长平台逐步开放实时推送, 以保证这些网站原创文章的最先登记, "实时推送ping"并不能保证网页被"秒收" , 它是通知百度原创的发布. 请参考老修的另外一篇文章:百度是怎样判断一篇原创文章的发布时间的? 

更多请访问百度官方原创星火计划的说明:http://zhanzhang.baidu.com/act/spark