我试图从语料库中删除撇号,但只有当它们是段落中的第一个字符时。我看过有关在句子中找到第一个单词的帖子,但不是一个段落。 我试图这样做的原因是因为我在分析文本。我想去掉所有的标点符号,但是撇号和破折号只在文字中间有。要启动此,我所做的: library(tm)
library(qdap)
#docs is any corpus
docs.test=tm_map(docs, PlainTextD
我从pdf文件中提取文本并创建一个语料库对象。 在文本中,我有以“,”或“ - ”结尾的行,并且我想向它们追加下面的行,因为它属于同一个句子。 比如我有 [1566] "this and other southeastern states (Eukerria saltensis,"
[1567] "Sparganophilus helenae, Sp. tennesseensis). In t
我打算从R.这个载体得到NGRAM无法安装RWeka/rJava不管我做什么,所以我找了这是NGRAM包替代。但是,这个脚本有问题,并且不起作用。 library(tm)
library(ngram)
text=c("A vector of n-grams","listed in decreasing blocks","it is a vector","it works a little di