pos-tagging

    1热度

    1回答

    重写: 我有一个计算机科学相关文档的语料库。我想提取特定于域的关键字。例如JAVA,C#,HTML,OOP,UML,Unity等。我一直在寻找类似牛津词典的来源来计算,但是他们的API尚未运行。我也尝试过使用Webopedia进行计算机科学术语的研究,但这并不是包含性和更新性的(例如,它不包括我的文档中的某些单词,例如F#),或者维基百科的所有术语都未列在一起。是否有更具包容性的来源或合适的方法来

    1热度

    3回答

    我想部分的词性一个恶搞的输出与POS标签的属性值对现有的字元素添加到现有的XML文件: house/N + <w>house</w> --> <w pos="N">house</w> 我想我可以的话给唯一的ID,匹配,然后在POS标签添加到现有的XML文件,所以我设计在Python以下功能: import xml.etree.ElementTree as ET def add_postag

    0热度

    1回答

    我是新来的这个NLP的东西,但所有的POS标签和句子块我看到的例子似乎并没有删除停止词。所以如果我正在做POS标签,我有问题,Chunking是否消除了删除停用词(和词干)的需要?

    -4热度

    2回答

    我正在寻找一个信誉良好的Java,开源(最好)库/包,它将文本作为输入并识别并标记其中的词性。 组件,如: Verbs + Tense + Passive/Active {Simple Present, Past Progressive, Past Passive, Present Perfect ... } Prepositions of movement {from, to...} Pre

    1热度

    1回答

    我正在寻找一种方法来检测人称代词是第一人称(I),第二人称(您)还是第三人称(他们)。代码正在查看是否有人在谈论自己,但也有其他一些应用程序。 一个python库会很棒,但不是必需的。 nltk.pos_tag会告诉我什么是人称代词,但我似乎无法获得更多的信息。 是否有这样的事情存在?

    1热度

    1回答

    我是这个领域的新手,不知道NLP和POS标记是否可以在Office SpellCheck API中找到。 由于Office SpellCheck是某种语言处理,有没有可能将其用作POS标记器。

    1热度

    2回答

    短版: 如果我有一朵朵字: Say 'comput' for 'computing', or 'sugari' for 'sugary' 有没有一种方法来构建它最接近的名词形式? That is 'computer', or 'sugar' respectively 加长版: 我使用Python和NLTK,共发现上一堆话执行一些语义相似的任务。 我注意到大多数sem-sim分数只适用于名词,而形容

    1热度

    1回答

    我对nlp相当陌生,我试图弄清pos标签。 我目前正试图走出斯坦福NLP POS恶搞,网址:http://nlp.stanford.edu/software/tagger.shtml 从上面的链接,有这样一句话: 打标签可以在任何语言来重新培训,给POS标注 培训该语言的文本。 但是,我无法让它工作。我现在所能做的就是给它一个文本文件来标记。例如, String test = "this is a

    4热度

    1回答

    Penn Treebank tagset对于单词“to”具有单独的标记TO,而不管它是否用于介词意义(如I went to school)或不定式意义(如I want to eat)。从NLP的整体角度来看,这有什么用途?只是将无限期标记为'分开'具有直观意义,但我没有看到将不定式和介词组合在单个标签中的逻辑。 谢谢,并道歉,如果这不符合堆栈溢出指导方针。

    0热度

    2回答

    我试图使用Hunpos tagger用于NLTK的POS标记而不是传统的pos_tag(),但我在加载二进制文件english.model或en_wsj.model时遇到了一些问题。 事实上,我在Linux Mint的,我把它们放在/usr/local/bin,在HUNPOS环境变量设置为这条道路,甚至试图以这个路径传递到__init__nltk/tag/hunpos.py的文件中使用的参数pat