搜索引擎对百度文库的友好

2017-11-24 16:26:49
目前,搜索引擎技术已经是人们从互联网上获得资金所需要信息的主要工具,江苏百度文库代理得到了广泛应用。 相对于通用搜索引擎的信息量大、查询不准确、深度不够等缺陷,垂直搜索引擎是一种新的搜索引擎服务模式,通过针对某一行业类别、某一特定人群或某一特定需求设定查询入口,提供有一定价值的信息和相关服务,例 如,游戏、软件、房产、汽车等都是独立的垂直搜索类型。 现有技术中江苏百度文库推广的信息搜索方法为将多个垂直搜索引擎的结果按分类模型中的规则合并在一个搜索结果页面上,相应的流程具体可以包括: 人工预设查询的行业类别(比如:游戏,软件,房产、汽车等), 人工筛选出预设的行业类别中知名可靠的站点,并建立相应的解析和展示逻辑; 利用分类模型、规则筛选等方法来建立以查询词为基础的分类模型,当用户输入查询词后会通过所述分类模型将查询词映射到预设的行业类别上,将查询词解析后输入到预设的行业类别中比较知名可靠的站点,并 获取站点中相应的搜索结果; 整合各站点中垂直搜索引擎对应的搜索结果,统一滤重、排序并展示在搜索结果页面上。 现有技术具有如下缺点: 1、行业类别覆盖面较小;现有技术百度文库推广中需要人工预设行业类别,由于每个行业类别均需要进行结构定义、数据获取、模型训练、黑白名单挖掘等一系列复杂繁琐的工作,因此能覆盖的行业类别是非常有限的。 比如,在现有技术的搜索引擎中输入查询词“三级螺纹钢”,由于钢材类的需求非常少,在搜索中的占比不到万分之一,人工方式通常不会针对这么小的需求来建立行业类别的;因此,现有技术通常只能搜索出一些钢材网 站的零散页面作为搜索结果返回给用户。 2、网站覆盖面比较小;现有技术中的站点依靠人工筛选,预设得行业类别中比较知名可靠的站点,但这样通常仅能利用有限数量的站点,使搜索结果均为一些名站的结果,提供的信息有限。 比如,用户搜索某一款限量款的奢侈汽车,现有的方法会将该款汽车相应的查询词归类为汽车类,在名站“搜狐汽车”和“爱卡汽车网”中获取对应的搜索结果并展示给用户;但是,这两个网站主要关注是普通的消费类汽 车,对奢侈汽车的覆盖度不高,不能提供对应的查询信息。 3、信息的处理效率低;百度包年由于设定的每个行业类别均需要进行结构定义、获取数据、训练模型、挖掘黑白名单等一系列复杂繁琐的工作,均需要人工来完成,因此每增加一个行业类别均需要耗费大量的人力,从而降低了信息 的处理效率。 总之,需要本领域技术人员迫切解决的一个技术问题就是:如何能够更好地覆盖用户的搜索需求,以及,能够提高信息的处理效率。