opennlp

    5热度

    2回答

    现在,这是一个棘手的问题,我无法找出一个好的解决方案。假设我们在Java中有一个String: - “他今天吃了3个苹果。”现在,数字3可以使用isNumeric函数或使用正则表达式在Java中轻松识别。但是如果我有这样一个字符串呢?“他今天吃了三个苹果。”?我怎样才能确定三个实际上是一个数字?我使用了OpenNlp并使用了它的POS tagger,但是它花费的时间太多了!任何人都可以提出更好的解

    7热度

    2回答

    我想使用OpenNLP做“coreference resolution”。来自Apache的文档(Coreference Resolution)不包括如何执行“共同决议”。有没有人有任何文档/教程如何做到这一点?

    1热度

    1回答

    我使用转换为纯文本格式的html文档为TokenNameFinder创建了一套训练集,但我的精度很低,我想使用HTML标记作为训练的一部分。就像粗体字,以及不同边距大小的句子。 OpenNLP会接受并使用这些标签来创建规则吗? 有没有另一种方法来利用这些标签来提高精度?

    0热度

    1回答

    我实现textrank Java编写,但它似乎相当缓慢。有谁知道它的预期表现? 如果它不预期为慢,可以任意被下述问题: 1)它似乎并不像有创建一个边缘,并在添加权重给它的方式JGraphT时间相同,所以我计算重量,如果它> 0,我添加一个边缘。稍后我将重新计算重量,以便在边缘循环时添加它们。这是一个可怕的想法? 2)我使用JGraphT。这是一个缓慢的图书馆? 3)什么我可以做,使之更快?

    0热度

    1回答

    我目前正在通过opennlp源代码来试图找到/理解它们用于分块的语法。这不是最简单的任务之一。我开始浏览chunkermodel和相关的课程,但没有得到太多...... 有没有人曾经搜过这个?如果有的话,任何建议或想法将使我走上正轨?

    13热度

    3回答

    我有一段文字,我想从中提取名词短语。我可以很容易地获得我所拥有的文本的类型化解析器,但是想知道如何在文本中提取名词短语?

    1热度

    1回答

    我正在为我的一个项目尝试apache打开NLP,我的要求是从电子邮件内容中检测名词并检查我们的客户数据库(此数据库由个人名称,组织名称等组成和我的搜索引擎是Solr基地)。 对于普通英语名词,默认训练模型可以正常工作(对于大多数情况),但 其中一个棘手的要求是,我们的企业组织有缩写,如OK,LET等,因此在少数情况下我需要考虑OK,LET等作为名词。 举个例子 1)“发送一些项目让,请期待延误付款

    3热度

    3回答

    我知道这个问题更多的是语法问题,但是如果您有一组Penn Treebank标记,如何确定句子的“主题”: [WP][VBZ][DT][NN] 是否有任何Java库可以接受这种令牌并确定哪一个是主题?或者哪些?

    1热度

    1回答

    我使用OpenNLP模型进行名称实体识别。 我传递的句子,在我需要确定的话。 打开NLP需要一个String []变量,因此我将我的String分隔成由空格分隔的单词。 我面临认识日期的问题。例如,如果字符串包含2012年1月7日的日期,并且我将字符串拆分为单词,则“7”,“Jan”和“2012”将分隔为3个不同的单词。尽管它们被认为是日期,但是3种不同的标记对于我进一步处理没有意义。 我怎么可能

    19热度

    4回答

    我发现很难创建我自己的模型openNLP。 任何人都可以告诉我,如何拥有模型。 训练如何完成。 什么应该是输入和输出模型文件的存储位置。