Worthmining: 背景：微软亚洲研究院互联网搜索技术突破

(2004.09.15) 来自：CSDN

微软亚洲研究院互联网搜索与挖掘组在国际的网络搜索领域具有举足轻重的地位，其研究成果也在例年的相关学术会议上取得了令人信服的成果。尤其在今年的ACM SIGIR（全球计算机科学研究领域最富盛名的国际信息检索年会）上，来自微软亚洲研究院的7篇论文被SIGIR 2004大会接纳，超过此次大会入选论文总数的10%, 以下是其中在今年大会中获得极高评价的5篇学术论文的简介：

Ø 采用查询探测的基于实例的网络数据库模式匹配算法(Instance-based Schema Matching for Web Databases by Domain-specific Query Probing)

简要介绍: 如何自动地发现和匹配隐藏在互联网中的数据库的模式是一个非常重要、也非常困难的问题。我们提出了一种全新的网络数据库模式匹配算法。该算法主要有两个部分：一是采用查询探测来获取数据库中的实例；二是基于这些实例的模式匹配算法。该技术对于深层万维网搜索和网络数据集成有非常重要的意义。

Ø 使用统计学习方法获取网页区域的重要性模型（Learning Block Importance Models for Web Pages）

简要介绍: 我们提出了一种统计模型来自动决定一个网页中不同部分的重要性程度。这是世界上第一个用于此种目的的模型。该技术可被应用于搜索引擎、互联网信息抽取以及移动搜索等领域。

Ø 基于网页块的Web检索方法（Block-based Web Search）

简要介绍: 在本论文中，我们探讨了如何利用网页块(Web block)来改万维网搜索。我们比较了四种网页分块的方法以及它们用于块检索和查询扩展的效，最后证明了在更小的粒度上进行万维网搜索是一个很有前途的研究方向。

Ø 网页块级的链接分析（Block-Level Link Analysis）

简要介绍: 传统的链接分析算法，例如Page Rank 和 HITS，是在整个网页级别上进行的。本文中我们证明了在网页块级别上进行链接分析会更为有效。网页块级的链接分析可以容易地克服网页级链接分页的几个重要不足，例如噪音链接，主题偏移等。

Ø 基于上下文的概率检索模型（Probabilistic Model for Contextual Retrieval）

简要介绍: 基于上下文的信息检索是很多应用的一个关键的支撑技术，例如移动搜索、个性化搜索、计算机故障检测等。尽管这是一个重要的技术，但是之前没有一种完善的检索模型来描述整个基于上下文的信息检索过程。本文中我们提出了几种概率模型来解决基于上下文的信息检索应用中的几个重要问题，例如不兼容的上下文、噪音上下文、不完整的查询等。

Worthmining

Thursday, September 16, 2004

背景：微软亚洲研究院互联网搜索技术突破

0 Comments:

Previous Posts