近日,据美国专利和商标办公室的一份文件显示,Google正计划部署一个“相似性引擎(similarity-engine)”服务。该相似引擎通过对文档和网站进行比较,降低结果的重复性,提高搜索结果的精炼和相似度。
在用户日常搜索过程中,一个普遍存在的问题就是返回的搜索结果中很多是相似或者完全相同的。大多数返回的网站结果拥有完全相同或者“几乎一样”的信息。通过相似性引擎,Google可以为用户返回最恰当、最合适的结果,隐藏或者丢弃那些重复的数据。
其实,Google的相似性搜索项目也并非首创。在此之前,IBM、日立和Visage Inc.等公司都已经申请了类似发明成果的专利。在过去的10年中,关于“相似性引擎”的专利已经超过了15项。
据Google称,通过使用哈希值和Google所称的“概略”(sketch),相似性引擎能够比较出文件以及图像的不同。相似性引擎将获取一个对象,然后为其创建一个矢量,并将这个矢量与其他对象进行对比。
在Google的专利申请书中,我们还可以发现,Google同样描述了相似性引擎在其他程序中的应用。除了网页文档,该引擎还可以被用来比较纯文本文档、电子表格、演示文稿和其他常用办公用数据等。此外,文件中还强调:“这里所描述的概念可以基于任何一个包含一系列离散元素的对象上完成。”(董小波)
|