大数据搜索与挖掘

产品与技术
JZSearch大数据搜索引擎
所属类别:大数据搜索  浏览次数: 0

系统简介:


    大数据的特点有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume,Variety,Value,Velocity。大数据搜索引擎的主要挑战在于:海量处理规模、多字段多类型数据融合、高效的索引压缩技术及毫秒级的索引更新技术。


    JZSearch大数据搜索引擎是灵玖软件联合中科院与北理工的信息检索专家,针对大数据搜索业务需求而打造的一套搜索引擎,具有专业精准、高扩展性和高通用性的特点。可支持文本、数字、日期、字符串等各种数据类型的高效索引,支持邻近搜索、负面搜索、语义关联搜索,可提供各类数据库的实时搜索服务,并支持少数民族语言。目前已经应用于中国邮政搜索引擎、河北省标准搜索引擎、富基融通(纳斯达克上市公司:EFUT)商品搜索以及新疆维文搜索引擎。


主要功能:


搜索基本功能包括:


1多字段关联搜索:非结构化与结构化字段的关联搜索,支持指定字段的搜索,也可以搜索多个字段,以及复杂表达式的综合搜索;


2 指定字段排序:可以按照任意指定字段的排序;

 

3 精确搜索:支持精确匹配以及模糊匹配,默认为模糊匹配,忽略字母大小写,采用双引号进行精确匹配;


搜索特色功能包括:


1 内嵌正负面情感等极性分析,可以搜索任意对象的正负面结果;


2 语义联想搜索:如搜索“马铃薯”可以同时返回“土豆”的内容,搜索“北京市”可以返回“北京”或者“首都”的内容;语义联系词表用户可以自行根据专业知识定制;


3 搜索结果去重:按照指定字段对搜索结果进行去重;


4 邻近搜索功能:可以要求两个关键词必须在一定的词场范围内。


5 内嵌了智能分词系统。


6 数据库实时同步:数据库增删改10秒内即可同步到搜索引擎中

搜索维护功能包括:


1 支持增量索引:系统可以在搜索服务不停的前提下,继续索引新的数据,索引完成后,可以搜索新的数据; 


2 自动备份与恢复机制,在建立索引和自动优化之前,在当前索引文件被破坏无法搜索的前提下,系统将自动恢复上次搜索正常的备份文件;


3 自动缓存机制:系统自动保存最近常用的搜索条件与结果,再次搜索时将直接推送搜索结果内容,可以将搜索响应速度提升30%以上;缓存会随着新的索引数据自动更新,不存在缓存延迟问题;


4 自动优化机制:在系统索引碎片较多时,系统会自动优化归并;


5 屏蔽指定文档、指定关键词的搜索服务,也可以恢复屏蔽信息;


6 实现的是多线程搜索服务; 


7 兼容当前所有厂商的数据库系统,其中SQL Server, Oracle, MySQL,DB2等。系统支持多表关联搜索;支持Windows/Linux/FreeBSD等操作系统,支持C/C++/C#/Java二次开发。


技术架构:


图:JZSearch大数据搜索引擎系统架构



应用案例:


典型应用包括:中国邮政搜索引擎、河北省标准搜索引擎、富基融通(纳斯达克上市公司:EFUT)商品搜索以及新疆维文搜索引擎。下图为标准搜索应用界面。



图:JZSearch大数据搜索引擎在标准搜索中的应用案例


        图:JZSearch大数据搜索引擎在语义精准搜索中的应用案例


性能指标:


操作系统:Win/Linux/FreeBSD均可,支持32位/64位;SaaS API支持各类应用开发语言


关系数据库:支持MySQL,Oracle, SQL Server等主流数据库


速度:分词平均速度:20MB/s   *索引平均速度:10MB/s,搜索毫秒级


并行吞吐量:单机每秒并行处理1000+搜索请求;处理信息规模:TB级


浏览器:MS Internet Explorer 6.0 SP2以上


硬件配置:单机、多机并行均可