有问题,百度一下,你就知道。用户的需求提问大多都明确,无特定的标准答案,每人都有自身的独特见解。此时在百度搜索结果中,不会充斥着大量的重复答案,会影响搜索质量与用户体验。高度相似的网页内容是无意义的,会对用户访问造成很大的困扰。百度搜索引擎为了净化搜索内容环境,发明了关于识别网页重复判断方法的百度专利《一种网页重复的判断系统及其判断方法》。

    判断网页重复的专利摘要

    本发明公开了一种网页重复的判断系统及其判断方法。该判断方法包括:获取多个网页;分别提取网页的网页正文;从网页正文中提取一个或多个句子,并根据一个或多个句子计算网页正文句子签名;根据网页正文句子签名对多个网页进行聚类;针对每一类下的网页,计算网页的附加签名;根据附加签名判断每一类下的网页是否重复。通过上述方式,本发明提供的网页重复的判断系统及其判断方法通过包括网页正文句子签名在内的多维度签名有效且快速地判断网页是否重复。

    具体识别网页重复判断方法

    一般会使用决策树算法进行相似度计算。在决策树算法中,单独的重要性高的附加签名或者多个重要性较低的附加签名相同则认为所述网页重复。

    例如,在本实施例中,进行网页重复的判断时,如果两个网页满足下面任意一项,则认为这两个网页是真重复:

    1、两个网页的真实标题签名相同。

    2、两个网页的网页内容签名相同。

    3、两个网页的网页正文签名的不同位数小于6。

    4、两个网页的网页位置签名相同,并且url文件名签名相同。

    5、评论块签名、资源签名、标签标题签名、摘要签名、url文件名签名中有三个签名相同。

    通过两两页面比较,可以得到真重复url的集合。一般来说,如果这个真重复url集合中的网页的数量/整个网页集中网页的数量>30%,则认为整个网页集都是真重复,否则就是假重复。

    此专利能有效且快速地判断网页是否重复。要想对文章内容进行个很好的二次处理,让百度认为是原创文章,可要好好读读这篇关于识别网页重复判断方法的百度专利。

延伸阅读:

关于用户行为(模拟点击)快速排名的百度专利