tm

    0热度

    1回答

    我正在用R中的tm-package创建文档项矩阵,但是我的语料库中的某些单词在某个过程中会丢失。 我会用一个例子来解释。然而 dm <- DocumentTermMatrix(crps) dm_matrix <- as.matrix(dm) dm_matrix # Terms # Docs and bout class home hours more next night # 1 1 1

    0热度

    1回答

    我有一个很大的语料库,我正在与tm::tm_map()进行转换。由于我使用托管的R Studio,因此我有15个内核,并希望利用并行处理来加快速度。 没有共享一个非常大的语料库,我简直无法用虚拟数据重现。 我的代码如下。对问题的简短描述是在控制台中手动循环切片,但在我的函数内部不这样做。 函数“clean_corpus”将语料库作为输入,将其分解成片段并保存到临时文件以帮助解决内存问题。然后该函数

    2热度

    1回答

    我刚刚在R中开始使用tm包,似乎无法解决问题。 虽然我的分词器的功能似乎工作权: uniTokenizer <- function(x) NGramTokenizer(x, Weka_control(min=1, max=1)) biTokenizer <- function(x) NGramTokenizer(x, Weka_control(min=2, max=2)) triTokeniz

    -1热度

    1回答

    我是一名新手R/tm用户,我有一个愚蠢但令人讨厌的问题。 后通过这条线下载884 KB TM封装[install.packages(“TM”),制定自己的工作目录,打开我的文件,我试图用这个功能: 语料库< -Corpus (VectorSource(mycorpus $ title)) 作为回应,R软件写道:“未找到语料库功能”。 我需要安装更多的软件包还是我做错了什么? 在问你之前,我已经在这

    0热度

    1回答

    我有大量文档,并且想使用text2vec和LDA(Gibbs Sampling)进行主题建模。 步骤我需要的是为(按顺序): 从文本中删除数字和符号 library(stringr) docs$text <- stringr::str_replace_all(docs$text,"[^[:alpha:]]", " ") docs$text <- stringr::str_replace_all

    1热度

    4回答

    我想使用大型外部词典(类似于下面的txt变量的格式)来解读波兰文本。我不幸运,有一个选择波兰文与流行的文本挖掘软件包。 @DmitriySelivanov的答案https://stackoverflow.com/a/45790325/3480717与简单的文本向量一起工作良好。 (我也从字典和语料库中删除了波兰的变音符号。)该函数可以很好地处理文本向量。 不幸的是,它不适用于由tm生成的语料库格式

    2热度

    1回答

    这是我第一次尝试在R中安装和加载tm软件包,至此我失败了。这里是我的机器信息: > sessionInfo() R version 3.4.0 (2017-04-21) Platform: x86_64-w64-mingw32/x64 (64-bit) Running under: Windows >= 8 x64 (build 9200) Matrix products: defaul

    1热度

    2回答

    我在csv文件中有客户服务的客户查询和答案。我需要确定每个问题的主题,然后在此基础上开发一个分类模型。我创建了两个文档术语表(清理文档后),一个用于提问,另一个用于答案。我通过在整个文档中仅使用400次以上的术语(大约4万个问题和答案)缩小了规模。 我想创建一个数据框,将这两个矩阵按行合并,只保留常见的单词并回答dtm(并将它们的频率相加,我应该如何在R中执行此操作?最高频率单词标记的问题。 上的

    0热度

    1回答

    在三个文档中(除去稀疏项后)我有大约1140个术语。我想获得有关集群的信息。如附图所示,我制作了集群,但我无法阅读它们。我也尝试了k-均值集群,但同样的问题依然存在。我对所有的术语都没有太大的兴趣,但明确界定的只有少数三四个团队可以完成这项工作。我一直在R中使用tm包进行文本挖掘。其次,我也在寻找在单个文档中寻找关联的方法;因此,如何将文本文件分割为多个文本文件,即如果我的文件有三个句子: Doc

    1热度

    1回答

    你好。 是否有任何方式通过使用多核,并行处理来创建termdocumentmatrix?或者为了获得更快的结果,我可以使用一些软件包,比如parallel,h2o或其他软件包吗? 有人帮我。 谢谢。