tm - VoidCC

tm

0热度

1回答

我正在用R中的tm-package创建文档项矩阵，但是我的语料库中的某些单词在某个过程中会丢失。我会用一个例子来解释。然而 dm <- DocumentTermMatrix(crps) dm_matrix <- as.matrix(dm) dm_matrix # Terms # Docs and bout class home hours more next night # 1 1 1

0热度

1回答

多边并行嵌套在循环中的循环工作，但逻辑上没有意义？

我有一个很大的语料库，我正在与tm::tm_map()进行转换。由于我使用托管的R Studio，因此我有15个内核，并希望利用并行处理来加快速度。没有共享一个非常大的语料库，我简直无法用虚拟数据重现。我的代码如下。对问题的简短描述是在控制台中手动循环切片，但在我的函数内部不这样做。函数“clean_corpus”将语料库作为输入，将其分解成片段并保存到临时文件以帮助解决内存问题。然后该函数

2热度

1回答

R中的TermDocumentMatrix - 仅创建1克克

我刚刚在R中开始使用tm包，似乎无法解决问题。虽然我的分词器的功能似乎工作权： uniTokenizer <- function(x) NGramTokenizer(x, Weka_control(min=1, max=1)) biTokenizer <- function(x) NGramTokenizer(x, Weka_control(min=2, max=2)) triTokeniz

-1热度

1回答

R，“tm”包 - 错误：语料库函数未找到

我是一名新手R/tm用户，我有一个愚蠢但令人讨厌的问题。后通过这条线下载884 KB TM封装[install.packages（“TM”），制定自己的工作目录，打开我的文件，我试图用这个功能：语料库< -Corpus （VectorSource（mycorpus $ title））作为回应，R软件写道：“未找到语料库功能”。我需要安装更多的软件包还是我做错了什么？在问你之前，我已经在这

0热度

1回答

使用text2vec包进行文本预处理和主题建模

我有大量文档，并且想使用text2vec和LDA（Gibbs Sampling）进行主题建模。步骤我需要的是为（按顺序）：从文本中删除数字和符号 library(stringr) docs$text <- stringr::str_replace_all(docs$text,"[^[:alpha:]]", " ") docs$text <- stringr::str_replace_all

1热度

4回答

使用哈希字典的词典化函数不适用于R中的tm包

我想使用大型外部词典（类似于下面的txt变量的格式）来解读波兰文本。我不幸运，有一个选择波兰文与流行的文本挖掘软件包。 @DmitriySelivanov的答案https://stackoverflow.com/a/45790325/3480717与简单的文本向量一起工作良好。（我也从字典和语料库中删除了波兰的变音符号。）该函数可以很好地处理文本向量。不幸的是，它不适用于由tm生成的语料库格式

2热度

1回答

无法在R中加载'tm'软件包

这是我第一次尝试在R中安装和加载tm软件包，至此我失败了。这里是我的机器信息： > sessionInfo() R version 3.4.0 (2017-04-21) Platform: x86_64-w64-mingw32/x64 (64-bit) Running under: Windows >= 8 x64 (build 9200) Matrix products: defaul

1热度

2回答

按行合并两个文档术语矩阵

我在csv文件中有客户服务的客户查询和答案。我需要确定每个问题的主题，然后在此基础上开发一个分类模型。我创建了两个文档术语表（清理文档后），一个用于提问，另一个用于答案。我通过在整个文档中仅使用400次以上的术语（大约4万个问题和答案）缩小了规模。我想创建一个数据框，将这两个矩阵按行合并，只保留常见的单词并回答dtm（并将它们的频率相加，我应该如何在R中执行此操作？最高频率单词标记的问题。上的

0热度

1回答

在R中的文本挖掘中表示群集的更好的群集树状图

在三个文档中（除去稀疏项后）我有大约1140个术语。我想获得有关集群的信息。如附图所示，我制作了集群，但我无法阅读它们。我也尝试了k-均值集群，但同样的问题依然存在。我对所有的术语都没有太大的兴趣，但明确界定的只有少数三四个团队可以完成这项工作。我一直在R中使用tm包进行文本挖掘。其次，我也在寻找在单个文档中寻找关联的方法;因此，如何将文本文件分割为多个文本文件，即如果我的文件有三个句子： Doc

1热度

1回答

R，有没有什么方法可以通过使用多个内核来创建termdocumentmatrix？

你好。是否有任何方式通过使用多核，并行处理来创建termdocumentmatrix？或者为了获得更快的结果，我可以使用一些软件包，比如parallel，h2o或其他软件包吗？有人帮我。谢谢。