大数据搜索与挖掘

产品与技术
内网文档搜索
所属类别:大数据搜索  浏览次数: 0

系统简介:


    EKG内网文档搜索引擎系统是一款针对政府、企业或机构局域网内部文档管理、搜索与挖掘的软件产品。随着信息化的高速发展,社会各界、政府及企业中的电子文档(word、excel、ppt、txt、 pdf 等)也变得越来越丰富。大量政府和企事业单位的文档是包含着客户关系、产品信息、市场情报、策划思想等软资产的载体。文档作为一种信息资源,作为企业生产、技 术、科研和经营等活动的真实记录和一项基础性工作,同时作为与企业同步发展的无形资产,在企业管理等各方面正积极地发挥应有的重要作用。 政府/企事业单位的电子文档日益增多,文档格式的多样化、文档内容分散存储于各个不同的电脑上等问题,文档的管理存在三大隐患: 


1、文档总量大,单篇文档的篇幅较长,检索与管理的效率极其低下 


2、文档分散存储,共享困难,协同工作往往靠上级或者个人协调 


3、分散存储,缺乏必要的安全保障措施,安全隐患极大



主要功能:


1 自动备份: 


    每天定时自动采集局域网内部共享的电子文档信息,存储在指定的服务器文件夹内,并保留同一文档的不同版本,基本信息采用数据库的形式进行存储。用户可以通过浏览器随时检索并提取任意版本的文档。

 

2 精准搜索: 


内网文档搜索引擎提供了多种精准搜索手段,其中包括: 


1)关键词搜索:搜索任意关键词;

 

2)空间范围搜索:可以搜索特定员工或特定部门的文档资源;

 

3)时间范围搜索:可以搜索任意时间段的文档资源; 


4)文档格式搜索:支持Word,ppt,excel,pdf,rtx,html以及程序代码等主流的文档格式;

 

5)指定位置搜索:支持标题、正文等不同位置进行搜索; 


3 知识分享:

 

内网文档搜索引擎提供了多种知识分享的方式,用户单位可以根据知识分享记录实行奖惩措施,其中包括: 


1)搜索并阅读或者下载任何同事的文献资料,系统自动记录每一次分享的时间、分享者与阅读者; 


2)部门统计:统计各部门的知识分享记录,鼓励部门间进行知识分享; 


3)人员统计:统计每个人分享出的文档总数,给出排行榜,鼓励个人分享文档; 


4)文档Top10推荐:推荐关注度最高Top 10的文档; 


5)贡献人员Top10推荐:推荐贡献度最高Top 10的同事;

 

6)阅读Top10推荐:推荐阅读文档数量最大的Top 10同事; 


4 安全防护: 


内网文档搜索引擎提供的安全防护包括: 


1)针对每个分享的文件夹严格实行权限管理(由所有者自行设定),权限分为三级:个人(仅限于分享者个人阅读下载)、部门(限于同部门分享)、所有(局域网内所有人员分享);

 

2)内网隔离措施:内网搜索引擎只能由授权用户在内网进行访问,外网无法登录内网服务,真正物理隔离,确保文档资源不被窃取流失;

 

3)文档全过程版本备份:文档修改过程中的版本完整备份,实时按需读取恢复数据;


系统架构


图1:EKG内网文档搜索引擎网络架构示意图



应用案例:


目前已经应用于中国对外承包工程商会、北京市园林局等单位。


性能环境:


1.采集:在10M网络带宽环境下,每小时平均可以索引10万篇文档。


2.检索:毫秒级别。


3.系统能力:普通PC Server可以支持20人以内的局域网络;一般服务器可以同时支持100人规模的企业;5台服务器集群可以支持万人规模的企业。


运行环境:


操作系统:Windows Server


关系数据库:MySQL5.0及以上,可定制为Oracle, SQL Server


应用服务器:Tomcat5.x及以上、WebSphere Server、WebLogic Server


集成应用系统平台:J2EE


浏览器:MS Internet Explorer 6.0 SP2以上


硬件配置:PC即可