Friday, March 25, 2005

Autonomy将可能成为传统搜索终结者



 上述搜索需求暴露了现有搜索技术的软肋:建立在关键 词全文检索理论基础上的搜 索技术,在许多方面并不能满足人们的一些“模糊需求”,而这些“模糊需求”的数量则远远大于“精确需求”。

  Autonomy正是为给这个软肋补钙而生。Autonomy既是一种搜索新理论的代名词,又是一个公司的名称,同时还是一个产品的名字。从Autonomy目前的蔓延态势看,它很可能成为几大传统搜索门派的终结者。

  可以负责任地说,今年元旦之后的一个传言将与去年年中的一条消息一样,将引起Google、雅虎、微软等搜索巨头们的严重警惕。

  Autonomy的“样板工程”Blinkx

  2004年7月,一个位于美国旧金山的创业公司推出了一种新型搜索工具Blinkx,该工具可以提供类似“模糊搜索”或“语义搜索”的功能。也就是说,系统经过“学习”积累了一定“经验”后,可以满足用户类似“最便宜的笔记本电脑是什么”这样的搜索需求。

  有媒体把这种搜索方式称为“占卜式”搜索,也有人将其称为“职能搜索”,提供Blinkx搜索工具的公司也叫Blinkx。

  Blinkx不仅可以搜索文本内容,还可以搜索电影电视等多媒体内容,不仅可以搜索互联网内容,还可以搜索本机和局域网上的内容。Blinkx同时还可以搜索不同的文本格式内容,如Text、Word、Excel、PPT、PDF以及各种数据库中的数据格式。

  Blinkx公司同时发布了提供这种新型搜索功能的两个服务工具,一个是门户网站(www.blinkx.com),一个是在该网站上可以下载的客户端软件,该软件大小约7MB。尽管这两个工具目前仅支持英德两种语言,而且都只是测试版,但它提供的震撼性功能已经开始让传统搜索巨头们为之瞩目。

  与传统搜索网站不同的是,在Blinkx的搜索框中键入用户指令,比如“CDMA”,出现的结果可能被系统自动分为10类,可能其中9类与用户的查询期望距离较大,用户就可以将接近的那个结果作为查询条件,进行第二次查询,完成“进阶式”查询,通过这种方式逐步接近目标,最后达到用户期望查询的结果。

  如果安装了Blinkx的客户端软件,一个小的菜单窗口就会出现在Windows Word、Outlook等几乎所有文档处理窗口的右上方。用户在这些窗口中处理文档时,系统会自动分析这个文档,然后自动从本机或网络上抓取相关文章或链接,以供用户参考。不仅如此,它还可以及时提供与文章内容相关的新闻、产品信息、视频内容等分类信息。简单地说,用户完全可以拿一篇文章来作为“查询关键词”,Blinkx通过对这篇文章进行分析,会给出与这篇文章内容最接近的网络链接或本机文档。这无疑给需要处理大量数据的个人和企业提供了巨大便利。

  美中不足的是,Blinkx目前在中国境内没有设立服务器,所以浏览网页的速度会受到较大影响。目前,Blinkx还处于测试阶段,它从网上抓取的数据还不够多,其数据库中装载的信息还不够完善,更新频度也不够快,所以,用户可能找到结果(文档)常常比较陈旧。

  2005年元旦刚过,又有消息传来:Blinkx将进入中国市场,其中文测试版已经“竣工”。据英国Autonomy公司在国内的代理商卓越动力软件(北京)有限公司称,目前已经在国内某数据中心建立了一个试验平台,大约有30多台服务器正在运行着Blinkx的后台系统。

  Autonomy公司是Blinkx公司的股东之一,后者的核心技术也来自前者,因为这种密切关系,Blinkx被认为是Autonomy的“样板工程”。此前,Autonomy一直像汽车发动机一样隐藏在幕后。Blinkx发布之前,Autonomy在公众中并没有太大名气;Blinkx发布之后,Autonomy仅有的名气也很快被Blinkx所超越。

  Autonomy虽然在公众中的知名度不太大,但在商业应用领域中却名声煊赫,并在政府、国防、新闻、金融、电信、教育等领域拥有大量中坚客户。而且,Autonomy还是一个“历史悠久”的IT公司,同时在美国和英国上市,拥有超过1.47亿美元的现金。

  正如Autonomy产品所体现出的人文设计思想一样,Autonomy公司也诞生在人文气息十分浓厚的英国剑桥大学。

  贝叶斯概率论与香农信息论的混血儿

  Autonomy的创始人是剑桥大学的迈克·林克(Mike Lynch)教授。1991年,林克教授创立了Autonomy的前身Nurodynamic公司,后者是林克从一个乐队老板融资3000多美元创建的,该公司主要致力于剑桥大学模式识别研究成果的产业化工作。

  到1996年时,林克教授已经积累了足够多的客户资源。于是,他向风险投资商借贷了1500万美元,创立了Autonomy。同年,Autonomy推出了世界上第一套智能个性化信息系统,同时发布了它的拳头产品DRE(Dynamic Reasoning Engine,动态推理引擎)和Portal产品系列。

  Autonomy产品的核心算法是两种数学理论的独特结合:贝叶斯概率理论和香农信息论。

  18世纪,英国牧师托马斯·贝叶斯曾经试图利用概率论证明上帝的存在,但他未能如愿,不过,他所创立的贝叶斯定律却奠定了现代概率论的基础。两个多世纪以后,这个定律成了Autonomy发家致富的敲门砖。不少数学家认为,贝叶斯定律描述的逻辑是一种跟人类思维模式最接近的数学逻辑,它通过一个概念出现频率的多少和与其他概念之间的关系来决定其成分的重要性。

  香农信息论则提供一种方法来提取一篇文章诸多概念之中最有意义的部分。香农信息论最基本的理论是:一个词重复频率越高,其内容越不具有概括性,反之,一个词重复频率越低,其内容越丰富。

  Autonomy中含有一个动态推理引擎(Dynamic Reasoning Engine,DRE),它是一个扩展性很强的、多线程的核心引擎。信息的概念分析、内容提取、概念模式识别、相关度计算等关键工作都由动态推理引擎来完成。它是一个跨平台的引擎,可以在多种硬件和操作系统环境下优化运行,支持从Intel PC使用的Windows NT到多处理器小型机运行的UNIX等系统环境。它可以与各种不同信息源相连,如互联网、数据库、内部网和本机数据库、文件系统等。当用户发出搜索指令后,它可以通过概念分析、模式识别、相关度计算等方法,从不同的数据源中找到与用户要求最匹配的信息。

  从“搜索(search)”到“发现(discover)”

  Autonomy在保留了传统搜索方法的基础上,还发展了新的方法。

  目前,人类研究的信息搜索技术有四个方向:关键字搜索,模式识别,语义分析,神经网络。除了关键词搜索比较成熟外,其他三项技术还处于待开发状态。模式识别的代表者就是Autonomy,语义分析和神经网络两个技术方向目前尚无压倒性的代表者,这两个技术方向的研究难度相对较大,估计一时半会不会有突破性研究成果。所以,模式识别就成了目前比较先进的信息搜索技术。

  传统搜索基本上采用“关键词”搜索方式,也就是“非0即1”的方式,它基于严格定义和分类的布尔表达式,即“与、或、非”表达式。这样搜索的最大弊病就是:如果关键词不确定,或者有错误疏漏,用户往往得不到自己想要的搜索结果。

  但在实际应用中,用户常常很难用具体而明确的关键词来描述自己想找的东西,比如上述的“最便宜的笔记本电脑”等等。甚至在有些时候,搜索出来的结果大部分与这个关键词并没有太大关系,只是结果文章中出现过这个词而已。例如,一个用户希望了解污染对企鹅造成的影响,使用关键词搜索法,键入“企鹅”,搜索结果可能带来一些有用的信息,但同时也有大量不相关的文章,如“企鹅出版公司”、“企鹅牌巧克力”、“企鹅冰箱”等。

  采用“模式识别”搜索方法,可通过判别相关识别度的高低来对数据进行检索。即它会对用户键入的检索内容进行语意上的分析,然后对海量信息进行概念匹配,找出在内容上最接近的数据提供给用户,所以可以避免传统“关键词检索”造成的漏检情况的发生。比如一篇文章里如果有“大海”这个词,这篇文章有可能和企鹅有关,但是“大海”这个词用在很多不同的地方,有可能文章讲的是别的内容。但是如果一篇文章里有“大海”、“南极”、“黑色”、“白色”、“不会飞”、“羽毛”、“下蛋”、“石油”、“泄露”等这些词,这篇文章是在谈论污染和企鹅的概率就会很高。虽然整篇文章里没有“企鹅”这个词,但是很多相关度较低的词出现在一起就会带来很高的相关度,并且缺少某个描述词对其产生的结果影响微乎其微。

  如果说传统的“关键字”搜索方法为“search”(搜索)的话,autonomy采用的“模式识别”方法则应该称为“discover”(发现),因为它可以让用户找到一些事前他们不知道的信息。Autonomy产品中提供的“聚类”功能正是“从搜索到发现”的最佳表现。

  如果一个用户需要知道“本月最热门的IT新闻事件有哪些”,使用Autonomy的“聚类”功能就可以得到近乎完美的答案。第一步,用户先设定一些需要搜索的目标网站,根据“本月最热门的IT新闻事件有哪些”这个需求,这些目标网站自然是一些IT新闻网站;第二步,通过Autonomy的DRE对这些网站上本月内报道的IT新闻进行检索;第三步,对这些新闻进行分类,报道数量最多最频繁的前几件事情就是“本月最热门的IT新闻事件有哪些”的候选者。这是没有计算机帮助时的人工作法,现在,这些步骤都由安装了Autonomy软件的计算机来完成,用户只需要“发动”一下这个系统:给“本月最热门的IT新闻事件有哪些”这个搜索需求设定一些关键参数。

  当然,设置关键参数对非专业人士而言并不是一件容易的事情,一开始可能有些麻烦,不过,随着这个不断“学习”的系统的后台数据库数据量的增加,用户需要设置的参数可能会越来越少,甚至做到直接用“本月最热门的IT新闻事件有哪些”就可以一步到位搜索到用户所需要的。当然,用户这个系统不可能像google的检索数据库一样包罗万象,只能在某些个别领域(如IT新闻、环境污染等)成为一个“专家”,这个“专家”在面对来自其他领域或行业的问题时,一开始一样是个傻瓜。


0 Comments:

Post a Comment

Subscribe to Post Comments [Atom]

<< Home