2017-08-15 46 views
0

是否可以从文档中删除特定类型的单词(例如:文章,名词,代词,形容词,动词,副词,连词,介词和所有格代词)来自文本正文的停用词?如果是这样,怎么样?我想象一个自然语言处理库会有这个功能,但我还没有找到任何东西。R - 从文档中删除单词类别

+1

在NLP世界中称为“词类型”的词类称为“词性标签”或POS标签。 – Aaron

回答

0

结账koRpus::treetag

从CRAN:

这个函数调用TreeTagger [1]来标记和词性标注给定文本的本地安装。

0

您只需使用第三方库将他们的“词性”(POS)中的单词标记为句子,然后删除不想要的词性标签(例如,名词)保持。这些库的例子有:

所有三个库使用POS标签this list,被称为宾州树库标记集。一个POS的

实施例标记的句子:

句子:,能够从文件中删除特定类型的单词

POS标记为:它/ PRP是/ VBZ可能/ JJ到/从/ IN文件/ NNS中删除/ VB特定/ JJ类型/ NNS/IN字/ NNS