问题: 我有一个循环,从网页下载的句子 - 并为每个迭代它们添加到越来越多的字符向量。追加txt文件 - 然后阅读txt文件到语料库与TM封装
概念,输出看起来是这样的:
myVec
[1] "bla"
[2] "blablabla"
[3] "blabla"
[4] " blablablablabla"
等...
每个数字代表的是我已经下载了一句。对于每次循环,循环都会向该向量附加更多句子。
但不是让结果进入矢量 - 我想将它保存到不断增长的txt文件中。原因是我需要下载的数据量很大。所以我需要让循环运行一段时间(1000次迭代),然后休息一下 - 然后在第二天再次运行它。
我想要txt文件有一些结构 - 以便它仍然可以很容易地按句子拆分。这是因为我后来想创建一个DTM,每个句子作为一个单独的文档。
所以我需要什么
1:一种方式来写,可以在整个环新句子被附加的文件。
2:使用tm包读取该文件的方法,以便稍后可以根据我已下载的句子创建DTM。
我已经试过:
我已经得到了我想要的是使用write.table()函数最接近的一次。
write.table(MyVec, file = "output.txt",row.names=FALSE, col.names = FALSE, append= TRUE)
这似乎给我哪里有句通过引号分隔文本: “喇嘛” “blablabla” “布拉布拉” 等等
但我不知道如何利用当用tm将它读入语料库时 - 为了稍后基于句子创建DTM。也许有更好的方法?
我也曾尝试write()函数:
write(MyVec, file="output.txt",append=TRUE)
这给了我成长的txt文件,但它似乎并没有分离出的句子。我不知道如何将它读入语料库并根据句子创建DTM。
我认为writeLines() - 但它似乎没有追加选项 - 无论如何:我不想打破文本的行。我只想分开句子。
为'write.table'设置'quote = FALSE',你将摆脱引号。 – Val