大规模分布式中文网络信息发掘与查询



  全球Web页面保守估计已经达到300,000,000页,而且每天以1,000,000页递增,WWW每个月有600GB信息量的更新。所以有效的资源发现工具是用户上网的必备工具。如今网络上的搜索引擎无论从数量还是种类都在日益增长。从超大型的搜索引擎到基于WAP、PDA的搜索工具;从纯文本信息检索到多媒体信息的检索等。清华大学信息网络工程研究中心自1994年以来开始进行"中英文网络信息资源的索引和自动发现"研究。 在"基于数据融合技术的搜索引擎联盟";"基于熵的可控正反馈技术";"文本自动分类系统","高性能信息搜索引擎-PatTree";"超文本语义建摸"等方面作了大量研究工作,并在网络上提供高性能信息搜索引擎和网上新闻自动分类等服务。


 
  Copyright(c)1994-2001 NRC.
版权所有:清华大学信息网络工程研究中心
有任何问题与建议请联络:Webmaster@nrc.tsinghua.edu.cn