tidytext

    0热度

    1回答

    我一直在处理情绪数据集,发现bing和nrc数据集包含几个词,既有积极的一面,也有消极的一面。 **兵 - 三个字正面和负面情绪** env_test_bing_raw <- get_sentiments("bing") %>% filter(word %in% c("envious", "enviously","enviousness")) # A tibble: 6 x 2

    1热度

    1回答

    正如您可以在右侧看到图例,我需要将它重新排列为1,2,3,... 64,而不是1,10,11 ..., 8。我的术语文档矩阵如下。 请给我一些想法如何重新排列代码。 A tibble: 4,530 x 5 document term count n total <chr> <chr> <dbl> <int> <dbl> 1 1 activ 1 1 109 2

    0热度

    2回答

    我正在转换正在从PDF文件中读取的文本。 特别是,我有一个字符向量,其中包含连字符(“ - ”),用于预制大纲,或将单词分隔为新行,但仅当发生时才会出现。例如: text text text 123- 456 text text.. 我想要做的就是删除所有hypens和toghether粘贴这些话。 text text text 123456 text text.. 我开始尝试: li

    1热度

    2回答

    问题:我如何计算和码字的各主题中的频率是多少? 我的目标是从每个主题创建“词云”。 附注:>我有wordcloud没有问题。 从代码, burnin <- 4000 #We do not collect this. iter <- 4000 thin <- 500 seed <-list(2017,5,63,100001,765) nstart <- 5

    1热度

    2回答

    我有一个PDF文件,我正在阅读的文本。 我遇到的问题与数字之间发生的音节化有关。 链接到github上的file。 library(pdftools) library(tidytext) library(readxl) library(dplyr) setwd("~/Automation - Official Guazzete") path <- getwd() pdf_file <

    0热度

    1回答

    有没有人在R中使用'tidytextmining'进行情感分析? Tidytextmining 我使用R诉3.4.1和我正在以下错误此一段代码。 library(tidytext) library(dplyr) get_sentiments("afinn") 错误 - 错误get_sentiments( “afinn”): 找不到函数 “get_sentiments” 我已经安装了合适的包

    2热度

    1回答

    我想使用tidytext同时使用bigram和trigram。我可以使用什么代码来查找2个和3个单词。 这是只使用双字母组代码: library(tidytext) library(janeaustenr) austen_bigrams <- austen_books() %>% unnest_tokens(bigram, text, token = "ngrams", n = 2

    0热度

    2回答

    我试图使用tidytext分析一些文本并使用下面的代码;然而,得到了一个错误信息: dt %>% unnest_tokens(output, input, token="ngrams", n=3) Error in mutate_impl(.data, dots) : invalid argument type 这是我对我公司的内部研发平台得到了错误的消息,但是代码在我的本地研发工作室运行

    0热度

    1回答

    的对面这很可能是一个愚蠢的问题,但我GOOGLE和谷歌搜索并找不到解决方案。我认为这是因为我不知道用我的问题来搜索的正确方法。 我有一个数据框,我已经在R中转换为整洁的文本格式来摆脱停用词。我现在想将那个数据框'不整洁'回到原来的格式。 unnest_tokens的反向/反向命令是什么? 编辑:这里是我正在使用的数据的样子。我试图复制西尔格和罗宾逊的书Tidy Text的分析,但使用意大利歌剧的l

    1热度

    1回答

    我试图执行基于http://tidytextmining.com/sentiment.html#the-sentiments-dataset情感分析。在执行情感分析之前,我需要将我的数据集转换为整洁的格式。 我的数据集的形式: x <- c("test1" , "test2") y <- c("this is test text1" , "this is test text2") res <-