产品概述:

中文名称:灵玖LJParser自然语言理解中间件

英文名称:LING-JOIN LJParser Natural Language Understanding Middleware

英文简称:LJParser

当前版本:V4.0-2012

在线演示:LJParser平台下载 白皮书下载

用户体验:咨询及在线测试

*备注:产品描述以产品购买合同的产品白皮书为准,灵玖软件也可能会根据用户需求对功能进行相应的调整,同时灵玖软件也提供定制开发服务,具体价格根据需求协商。

灵玖LJParser自然语言理解中间件:(语言基础件 文本中间件 引擎应用件 )

灵玖拥有搜索和自然语言理解产业的完整技术链。凭借深厚的技术积累和独有的技术优势,能够为用户提供搜索、自然语言理解领域的全面解决方案。解决方案遍布语言基础件、文本中间件和引擎应用件等各个层次。多层次、多角度的技术灵活组合,方便搭建多种业务应用系统。



语言基础件:


语言基础件指的是自然语言理解的技术开发的基础工具集,基础件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux,FreeBSD等不同操作系统,可以供Java,C,C#等各类开发语言使用。灵玖的语言基础件包括:



汉语分词基础件:在线演示:LJParser平台下载

汉语分词基础件能对汉语语言进行拆分处理,是中文信息处理必备的核心部件。灵玖综合了各家所长,采用条件随机场(ConditionalRandomField,简称CRF)模型,分词准确率接近99%,具备准确率高、速度快、可适应性强等优势;特色功能包括:切分粒度可调整,融合20余部行业专有词典,支持用户自定义词典等。
(回到顶层)



新词发现基础件:在线演示:LJfeature平台下载

从给定的大规模文本文件集合中,挖掘出内涵的新词语列表,可以用于用户专业词典的编撰。识别出的新词结果还可以进一步编辑标注,编辑好的新词词典,可以作为专业知识库导入分词词典中,从而提高分词系统的准确度,并适应新的语言变化情况。
(回到顶层)



词性标注基础件:在线演示:LJParser平台下载

词性标注基础件能对汉语语言进行词性的自动标注,它能够真正理解中文,自动根据语言环境将词语诸如"建设"标注为"名词"或"动词"。灵玖采用条件随机场(ConditionalRandomField,简称CRF)模型,一级词性标注准确率接近99%,具备准确率高、速度快、可适应性强等优势。(回到顶层)



人名地名机构名识别基础件:在线演示:LJParser平台下载

人名地名机构名识别基础件能够自动挖掘出隐含在汉语中的人名、地名、机构名,所提炼出的词语不需要在词典库中事先存在,是对语言规律的深入理解和预测。灵玖采用条件随机场(ConditionalRandomField,简称CRF)模型,识别准确率达到97%,速度达到10M/s,可在此基础上搭建各种多样化的统计和应用。
(回到顶层)



文档关键词提取基础件:在线演示:LJParser平台下载

文档关键词提取基础件能够在全面把握文章的中心思想的基础上,提取出若干个代表文章语义内容的词汇或短语,相关结果可用于精化阅读、语义查询和快速匹配等。灵玖采用基于语义的统计语言模型,所处理的文档不受行业领域限制,且能够识别出最新出现的新词语,所输出的词语可以配以权重。(回到顶层)



专业术语自动提取基础件:在线演示:LJParser平台下载

专业术语自动提取基础件是专业文献分析方面的一把利器。它脱胎于文档关键词提取的技术,又结合了适用于专业文献的最大边缘识别模型,能够有效地挖掘出文献中出现的专业术语。(回到顶层)



英语词法分析基础件:


英语词法分析基础件能对英语语言进行词性标注、人名地名机构名识别、分句处理,是英文信息处理必备的核心部件。灵玖综合了本体和概率相结合的机器学习模型,具备准确率高、速度快、可适应性强等优势。(回到顶层)



日语词法分析基础件:


日语词法分析基础件能对日语语言进行分词、词性标注、人名地名机构名识别处理,是日文信息处理必备的核心部件。灵玖采用条件随机场(ConditionalRandomField,简称CRF)模型,分词准确率接近99%,一级词性标注准确率接近98%,具备准确率高、速度快、可适应性强等优势。(回到顶层)



文本中间件:


文本中间件指的是对文本(集合)进行分析挖掘的子系统或模块,中间件提供API或数据接口,可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux,FreeBSD等不同操作系统。灵玖的文本中间件包括:



文本摘要:在线演示:LJParser平台下载

自动文本摘要中间件能够实现文本内容的精简提炼,从长篇文章中自动提取关键句和关键段落,构成摘要内容,方便用户快速浏览文本内容,提高工作效率。灵玖摘要中间件不仅可以针对一篇文档生成连贯流程的摘要,还能够将具有相同主题的多篇文档去除冗余、并生成一篇简明扼要的摘要;用户可以自由设定摘要的长度、百分比等参数;支持处理中、英文语言的文档;处理速度达到每秒钟20篇。
(回到顶层)



文本分类:


文本分类中间件能够根据文献内容进行类别的划分,可以用于新闻分类、简历分类、邮件分类、办公文档分类、区域分类等诸多应用。灵玖基于内容的文本自动分类和基于规则的文本分类两种方式,并支持两种方式的混合分类。能够进行多级分类,分类速度每秒100篇以上,平均准确率90%以上,能够进行中英文分类和中英文的混合分类。
(回到顶层)



文本聚类:聚类示例结果LJCluster_SDK平台下载


文本聚类是基于相似性算法的自动聚类技术,自动对大量无类别的文档进行归类,把内容相近的文档归为一类,并自动为该类生成标题和主题词。适用于自动生成热点舆论专题、重大新闻事件追踪、情报的可视化分析等诸多应用。灵玖基于核心特征发现技术,不仅聚类速度快,而且准确率高,并能自动得到类别间的演化趋势。
(回到顶层)



文本过滤:信息提取


文本过滤中间件能够从大量文本中快速识别和过滤出符合特殊要求的信息,可应用于品牌报道监测、垃圾信息屏蔽、敏感信息审查等领域。灵玖结合内容过滤和规则过滤两种方式,能够精确匹配出符合特定要求的内容;用户可以灵活、方便的更换模板,来实现对不同的主题的过滤。
(回到顶层)



文本检索:(可参见JZSearch精准搜索引擎)JZSearch平台下载


文本检索中间件支持文本、数字、日期、字符串等各种数据类型,多字段的高效搜索,支持AND/OR/NOT以及NEAR邻近等查询语法,支持维语、藏语、蒙语、阿拉伯、韩语等多种少数民族语言的检索。可以无缝地与现有文本处理系统与数据库系统融合。
(回到顶层)



文本褒贬分析:


文本褒贬分析中间件能够自动分析出文章及文章实体所隐含的感情色彩倾向,可用于商品声誉的网上追踪,顾客对产品参数的评价对比,公司声望的网上追踪,重大事件的民意自动调查,各类事务的基于时间线的情感曲线等。灵玖基于统计和机器学习的技术,支持不限领域的全自动分析,也支持带有行业词典的偏重性分析;不仅提供褒贬的权重,还能够提供体现典型观点的样句。
(回到顶层)



引擎应用件:


引擎应用件指的是能够满足一定业务操作的综合性(子)系统,经过简单的安装和配置,就可有效地为业务提供功能和数据方面的支撑,可支持Windows,Linux,FreeBSD等不同操作系统。灵玖的引擎应用件包括:



通用搜索引擎:


通用搜索引擎实现互联网海量信息的采集、分析、索引和检索。灵玖基于云计算平台,爬取分析、建立索引和查询分布运行在大量分布式节点之上。通过少量的种子链接,就可快速而全面的获取互联网上的广泛信息,并提供高并发的查询服务,返回客观而公正的搜索结果。
(回到顶层)



垂直搜索引擎:(可参见JZSearch精准搜索引擎)JZSearch平台下载


灵玖垂直搜索引擎是专门针对行业细分搜索和专业数据库搜索的需求而打造的应用件。它能够依据行业用户的细分特点,方便快捷地获取专业信息并构建精、准、快的搜索服务。可以无缝地与现有数据库系统融合,实现全文搜索与相关的数据库管理应用系统的衔接。应用件可以按照任意指定字段排序,支持指定字段的搜索,也可以搜索多个字段,以及复杂表达式的综合搜索;支持精确匹配以及模糊匹配等复杂的搜索条件。
(回到顶层)



元搜索引擎:


元搜索引擎是基于现有搜索引擎之后或之上的搜索引擎,可以同时查询多个搜索引擎的站点,查一个元搜索引擎就相当于查多个独立搜索引擎,可以收到事半功倍的效果。灵玖元搜索引擎应用件通过简单的输入关键词(组合),就可以把符合用户需求的所有信息自动地获取到本地的资料库,自动存储并提供可视化的界面让用户进行二次编辑与分析。目前支持网页、资讯、图片、视频、软件、音乐、论坛、博客、Wiki等多个维度的信息。
(回到顶层)



网络舆情引擎:(可参见ELINT网络舆情挖掘系统)

网络舆情引擎是灵玖软件专门针对网络舆情监测的工作要求和特点而打造的,不仅采用了专业化的搜索引擎技术,还融入了更加智能的数据挖掘技术,可以按照文章、人物、地点、机构、话题以及事件等六维空间对网络信息进行整合挖掘。引擎能够实时收录反映口碑民情的新闻评论、论坛帖子和博客文章,建立一个以日为周期的网络舆情监测平台,同时配上以周或者以月为基础的舆情分析报告,从而提供了一个便捷、科学、可操作性的舆情工作平台。
(回到顶层)



地址匹配引擎:(可参见AddrSmart地址精灵系统)


地址匹配引擎可以快速便捷地进行地址标准化,自动计算邮编,并能够进行地址的一致性判定和信用评估。灵玖地址匹配引擎具有智能、高效、自学习三大特点。智能主要体现在系统可以智能识别用户输入的真实意图,智能模糊匹配后台知识库,进行逻辑推理,并给出逻辑推理的知识依据;高效体现在本系统可以单机每秒处理5000条记录;自学习是指整个系统无需人工干预,直接导入正确标注的邮编数据,即可完成整个系统的学习,自适应地调整处理结果。该引擎可应用于邮政、银行、保险以及广泛的公众服务。
(回到顶层)



中日英机器翻译引擎:


中日英机器翻译引擎采用统计机器学习方法,具有较强的领域自适应性。目前,已经应用于中医药专利的中英翻译以及日中商务机器翻译。
(回到顶层)



中日语音识别引擎:


语音识别(SpeechRecognition)主要指让机器听懂人说的话,即在各种情况下,准确地识别出语音的内容,从而根据其信息,做出其他处理。灵玖主要依据隐马尔可夫模型(HiddenMarkovModels,简称HMM),目前,已经有完整的会议室、电话等场景的中日语音识别语料。
(回到顶层)