lingpipe

0热度

1回答

我试图训练DynamicLMClassifier.createNGramProcess(categories,nGram)一个大数据集> 20GB。我目前正在将整个培训文件作为字符串提供给培训方法，出于显而易见的原因，我得到了一个java.lang.OutOfMemoryError: Java heap space 尽管可能增加JVM堆大小以支持此类培训，寻找增量方法。培训代码看起来是这样的：

0热度

1回答

如何在lingpipe分类器中添加特征？

现在我只是在数据集上训练DynamicLMClassifier并将我的文本分类到不同的类别中。如何添加一个特征，以便分类器赋予某些单词更多的权重，例如，如果这个句子包含“专业”，它很可能在A类？或者如何根据段落而不是ngram进行分类？我注意到有一个featureextractor但似乎没有参数。

5热度

4回答

实体识别和使用NLP

情感分析所以，这个问题可能有点天真，但我想询问的＃2友好的人不会受到伤害。我现在的公司一直在为NLP使用第三方API。我们基本上URL编码字符串，并将其发送到了，他们提取某些实体为我们（我们有，我们正在寻找的实体的列表），并返回实体的JSON映射：情绪。我们最近决定把这个项目放在家里。我在过去的2天里一直在研究NLTK，斯坦福大学的NLP和lingpipe，而且不知道我是否基本上重新开始做这个

3热度

1回答

命名实体识别在门使用LingPipe

我使用GATE NLP来处理我的文档，我想用实体名称的标签考生使用在门有OpenNLP和LingPipe 因为我读答案的形式here @Shashikant科雷回答他说如果你有一句“我的朋友张三去了沃尔玛店”，OpenNLP确定了两个命名实体 - “张三”和 “沃尔玛”。我无法将“Joe Smith”标记为Person，将“Walmart” 标记为Organization。，并建议使用Li

0热度

1回答

序列化/编译隐藏在Java中的HMM模型

我已经用我自己的POS语料库（准确率超过90％）成功地评估了Lingpipe的POS标记的HMM实现。为我自己的POS语料库评估POS HMM Ant文件是一样的布朗POS语料库： <target name="eval-brown" depends="compile"> <java classname="EvaluatePos" fork="true"

4热度

2回答

使用LingPipe将数据与朴素贝叶斯进行分类

我想根据其内容将某些数据分类到不同的类中。我使用朴素贝叶斯分类器做了它，我得到了一个输出作为它所属的最佳类别。但是现在我想将除了训练集之外的新闻分类为“其他”类。除了训练数据之外，我不能手动将每个/每个数据添加到某个类中，因为它拥有大量的其他类别。那么是否有任何方法来分类其他数据？ private static File TRAINING_DIR = new File("4news-train")

2热度

1回答

DBPedia-Spotlight中lucene索引文件的用途是什么？

我正试图在给定的文本中查找命名实体。为此，我尝试使用DBPedia聚光灯服务。我能够得到回应。但是，DBPedia数据集是有限的，所以我尝试用我自己的字典替换他们的spotter.dict文件。我的字典每行包含实体：邓德### PERSON 奥巴马### PERSON ....等然后我分析此文件，并建立一个ExactDictionaryChunker目的。现在我能够获得实体及其类型（在修改

0热度

1回答

用lingpipe编译脚本

我在我的电脑上安装了ubuntu并下载了ant和linpipe（桌面）。现在我写了一个训练数据集来训练我的分类器，但我无法破解如何编译代码。帮我！！

6热度

1回答

我应该使用LingPipe还是NLTK来提取姓名和地点？

我期待从文本例子很短的突发中提取人名和地名 "cardinals vs jays in toronto" " Daniel Nestor and Nenad Zimonjic play Jonas Bjorkman w/ Kevin Ullyett, paris time to be announced" "jenson button - pole position, brawn-merc