pos-tagging

1热度

1回答

重写：我有一个计算机科学相关文档的语料库。我想提取特定于域的关键字。例如JAVA，C＃，HTML，OOP，UML，Unity等。我一直在寻找类似牛津词典的来源来计算，但是他们的API尚未运行。我也尝试过使用Webopedia进行计算机科学术语的研究，但这并不是包含性和更新性的（例如，它不包括我的文档中的某些单词，例如F＃），或者维基百科的所有术语都未列在一起。是否有更具包容性的来源或合适的方法来

1热度

3回答

添加POS标记为属性的XML元素

我想部分的词性一个恶搞的输出与POS标签的属性值对现有的字元素添加到现有的XML文件： house/N + <w>house</w> --> <w pos="N">house</w> 我想我可以的话给唯一的ID，匹配，然后在POS标签添加到现有的XML文件，所以我设计在Python以下功能： import xml.etree.ElementTree as ET def add_postag

0热度

1回答

我应该使用POS标记删除停用词吗？

我是新来的这个NLP的东西，但所有的POS标签和句子块我看到的例子似乎并没有删除停止词。所以如果我正在做POS标签，我有问题，Chunking是否消除了删除停用词（和词干）的需要？

-4热度

2回答

用于POS标记的NLP库

我正在寻找一个信誉良好的Java，开源（最好）库/包，它将文本作为输入并识别并标记其中的词性。组件，如： Verbs + Tense + Passive/Active {Simple Present, Past Progressive, Past Passive, Present Perfect ... } Prepositions of movement {from, to...} Pre

1热度

1回答

检测第一/第二/第三人称代词

我正在寻找一种方法来检测人称代词是第一人称（I），第二人称（您）还是第三人称（他们）。代码正在查看是否有人在谈论自己，但也有其他一些应用程序。一个python库会很棒，但不是必需的。 nltk.pos_tag会告诉我什么是人称代词，但我似乎无法获得更多的信息。是否有这样的事情存在？

1热度

1回答

是否可以使用Office SpellCheck API进行POS标记？

我是这个领域的新手，不知道NLP和POS标记是否可以在Office SpellCheck API中找到。由于Office SpellCheck是某种语言处理，有没有可能将其用作POS标记器。

1热度

2回答

从梗字获得最接近的名词

短版：如果我有一朵朵字： Say 'comput' for 'computing', or 'sugari' for 'sugary' 有没有一种方法来构建它最接近的名词形式？ That is 'computer', or 'sugar' respectively 加长版：我使用Python和NLTK，共发现上一堆话执行一些语义相似的任务。我注意到大多数sem-sim分数只适用于名词，而形容

1热度

1回答

在eclipse中重新训练stanford nlp pos tagger

我对nlp相当陌生，我试图弄清pos标签。我目前正试图走出斯坦福NLP POS恶搞，网址：http://nlp.stanford.edu/software/tagger.shtml 从上面的链接，有这样一句话：打标签可以在任何语言来重新培训，给POS标注培训该语言的文本。但是，我无法让它工作。我现在所能做的就是给它一个文本文件来标记。例如， String test = "this is a

4热度

1回答

Penn Treebank POS标记集为什么要为单词“to”分开标记？

Penn Treebank tagset对于单词“to”具有单独的标记TO，而不管它是否用于介词意义（如I went to school）或不定式意义（如I want to eat）。从NLP的整体角度来看，这有什么用途？只是将无限期标记为'分开'具有直观意义，但我没有看到将不定式和介词组合在单个标签中的逻辑。谢谢，并道歉，如果这不符合堆栈溢出指导方针。

0热度

2回答

如何正确设置NLTK中的Hunpos tagger用于英文POS标记？

我试图使用Hunpos tagger用于NLTK的POS标记而不是传统的pos_tag()，但我在加载二进制文件english.model或en_wsj.model时遇到了一些问题。事实上，我在Linux Mint的，我把它们放在/usr/local/bin，在HUNPOS环境变量设置为这条道路，甚至试图以这个路径传递到__init__nltk/tag/hunpos.py的文件中使用的参数pat