上海网站建设
 
   首 页| 网站知识 | 域名注册 | 虚拟主机 | 数据库 | 企业邮局 | 网站建设 | 经典案例 | 网站推广 | 联系我们 |
 
  .com    .net 
  .cc     .org 
  .info   .biz 
  .cn       .com.cn
  .net.cn   .org.cn 
 
网站建设
网站建设
 
上海艾尚雪服装有限公司
  上海全拥家具有限公司
上海格润家具有限公司
上海浩酷礼品有限公司
  上海轩德纺织品有限公司
上海帝梵汽车销售有限公司
上海庆诺国际贸易有限公司
上海盛姿纺织有限公司
上海美柏塑胶有限公司
  上海晓晨国际快地有限公司
上海梓山玻璃钢有限公司
上海捷豹快递有限公司
  上海东方婚纱礼服有限公司
   
上海淘鑫依托自身多年的网站建设
、开发经验,为企业内部、企业与
其外部之间搭建良好的信息沟通桥
梁,上海淘鑫通过专业的项目实施流
程为您提供优质的服务,我们的项
目实施和管理流程可以最大限度地
控制整个项目进度、确保项目质量
和保障客户的权益。
搜索引擎对关键字堆砌的识别
发布时间:2008-3-31 作者:上海网站建设公司

搜索引擎和搜索引擎优化(SEO)一直是一对矛盾,合理的优化有助于搜索引擎对网站内容的识别,有助于网站的推广。然而有正面,就有反面,一些SEOers通过各种欺骗手段来欺骗搜苏引擎,以期达到增加页面收录数和页面排名的目的。

早期的关键字堆砌SPAM作弊方式之一,是将中文词库中的单词直接用软件拼凑成文章,这样的文章没有实际的意义,只能给搜索引擎看。那么对于这样的文章,搜索引擎是通过什么方式来识别的呢? wap网站制作

我们知道,每个搜索引擎都有网页质量监控部门,对于百度等掺杂人工处理的搜索引擎而言,用户发现这样的网站,投诉到百度,百度直接封了这个网站了事。但对于Google这样的封站也是自动处理的搜索引擎而言,对关键字堆砌作弊的识别就显得更为重要了。 wap网站开发

对于关键字堆砌作弊方式的识别,搜索引擎一般采用统计分析的方法进行。 wap网站设计

搜索引擎首先将网页进行分词,分词完成后可以得到词的数量N和文章长度L,从大量文章的统计中发现文章的长度L和词的数量N两个数字之间存在一定的分布关系,一般而言L/N界于4至8之间,均值大约在5-6之间。也就是说一篇长度为1000字节的文章中,应该有125-250个分词,由于中文和英文的词的组成不一致,因此在英文和中文中这个比值的范围会有所不同。如果搜索引擎发现L/N特别大,那么这篇文章就存在就存在关键字堆砌现象了,如果L/N特别小,则可能是这篇文章是由一些词所组成的没有意义的文章,笔者对泥胚文章中的不同作者发表的文章进行了验证,基本上都服从这个比值范围。 wap网站建设

进一步,通过大量正常文章统计发现,文章中密度最高的几个关键字出现的次数之和与N/L存在一定的分布关系,搜索引擎就可以通过网页中的分布与统计结果的分布图进行比较得出文章是否存在关键字堆砌的现象。  上海网站开发公司

此外,搜索引擎还将从停止字的比例来判定文章是否为自然文章。停止字就是如“的”“我”“是”等在文章中普遍使用的字或词,如果文章中停止字的比例在正常的比例范围之外,这个网页应提交到网页质量监控部门审核。上海网站设计公司

当然,还有更多的算法可以对网页与自然语言的文章进行比较分析,以判别文章是否为自然文章。

所谓魔高一尺、道高一丈,有些作弊者已经放弃了单词的组成文章的作弊方式,而改用句子组成文章的作弊方式,作弊者通过爬虫或其它方式获得网上文章的句子,并用软件将数十篇文章的某几句拼凑成一篇文章。这就需要搜索引擎做语义的分析来判断是否作弊了,然而目前关于语义分析的研究还处于研究阶段,这也是下一代智能搜索引擎的方向。 网站建设公司

然而我们仍然不能将自动文章生成一棍子打死,基于人工智能的文章生成仍然是人类研究自身语言以及自身智能的一个重要方向。作弊与反作弊,将能促使人类对人工智能的研究。上海网站建设

如果到最后,软件能生成人类能够理解的文章,这是SPAM还是精华?你能肯定地说目前存在的智能化程度还不够高的RSS聚合文章一定是SPAM吗?然而,如果这样的文章海量的出现,我们又该如何去面对这个现象?上海网站建设公司

 


上一篇: 网站常用推广方法 下一篇: 百度,google,雅虎等搜索引擎的高级搜索语

版权所有:上海淘鑫网络科技有限公司 ( http://www.txidc.com/)2004-2008 All Rights Reserved