lingpipe

    0热度

    1回答

    我试图训练DynamicLMClassifier.createNGramProcess(categories,nGram)一个大数据集> 20GB。我目前正在将整个培训文件作为字符串提供给培训方法,出于显而易见的原因,我得到了一个java.lang.OutOfMemoryError: Java heap space 尽管可能增加JVM堆大小以支持此类培训,寻找增量方法。 培训代码看起来是这样的:

    0热度

    1回答

    现在我只是在数据集上训练DynamicLMClassifier并将我的文本分类到不同的类别中。如何添加一个特征,以便分类器赋予某些单词更多的权重,例如,如果这个句子包含“专业”,它很可能在A类? 或者如何根据段落而不是ngram进行分类? 我注意到有一个featureextractor但似乎没有参数。

    5热度

    4回答

    情感分析所以,这个问题可能有点天真,但我想询问的#2友好的人不会受到伤害。 我现在的公司一直在为NLP使用第三方API。我们基本上URL编码字符串,并将其发送到了,他们提取某些实体为我们(我们有,我们正在寻找的实体的列表),并返回实体的JSON映射:情绪。我们最近决定把这个项目放在家里。 我在过去的2天里一直在研究NLTK,斯坦福大学的NLP和lingpipe,而且不知道我是否基本上重新开始做这个

    3热度

    1回答

    我使用GATE NLP来处理我的文档,我想用实体名称的标签考生使用 在门有OpenNLP和LingPipe 因为我读答案的形式here @Shashikant科雷回答他说 如果你有一句“我的朋友张三去了沃尔玛 店”,OpenNLP确定了两个命名实体 - “张三”和 “沃尔玛”。我无法将“Joe Smith”标记为Person,将“Walmart” 标记为Organization。 ,并建议使用Li

    0热度

    1回答

    我已经用我自己的POS语料库(准确率超过90%)成功地评估了Lingpipe的POS标记的HMM实现。 为我自己的POS语料库评估POS HMM Ant文件是一样的布朗POS语料库: <target name="eval-brown"         depends="compile">   <java classname="EvaluatePos"         fork="true"

    4热度

    2回答

    我想根据其内容将某些数据分类到不同的类中。我使用朴素贝叶斯分类器做了它,我得到了一个输出作为它所属的最佳类别。但是现在我想将除了训练集之外的新闻分类为“其他”类。除了训练数据之外,我不能手动将每个/每个数据添加到某个类中,因为它拥有大量的其他类别。那么是否有任何方法来分类其他数据? private static File TRAINING_DIR = new File("4news-train")

    2热度

    1回答

    我正试图在给定的文本中查找命名实体。为此,我尝试使用DBPedia聚光灯服务。 我能够得到回应。但是,DBPedia数据集是有限的,所以我尝试用我自己的字典替换他们的spotter.dict文件。我的字典每行包含实体: 邓德### PERSON 奥巴马### PERSON ....等 然后我分析此文件,并建立一个ExactDictionaryChunker目的。 现在我能够获得实体及其类型(在修改

    0热度

    1回答

    我在我的电脑上安装了ubuntu并下载了ant和linpipe(桌面)。现在我写了一个训练数据集来训练我的分类器,但我无法破解如何编译代码。帮我 !!

    6热度

    1回答

    我期待从文本例子很短的突发中提取人名和地名 "cardinals vs jays in toronto" " Daniel Nestor and Nenad Zimonjic play Jonas Bjorkman w/ Kevin Ullyett, paris time to be announced" "jenson button - pole position, brawn-merc