tidytext

0热度

1回答

我一直在处理情绪数据集，发现bing和nrc数据集包含几个词，既有积极的一面，也有消极的一面。 **兵 - 三个字正面和负面情绪** env_test_bing_raw <- get_sentiments("bing") %>% filter(word %in% c("envious", "enviously","enviousness")) # A tibble: 6 x 2

1热度

1回答

在tidytext中对文档中的元素进行排序

正如您可以在右侧看到图例，我需要将它重新排列为1,2,3，... 64，而不是1,10,11 ...， 8。我的术语文档矩阵如下。请给我一些想法如何重新排列代码。 A tibble: 4,530 x 5 document term count n total <chr> <chr> <dbl> <int> <dbl> 1 1 activ 1 1 109 2

0热度

2回答

删除字符和组合字符串

我正在转换正在从PDF文件中读取的文本。特别是，我有一个字符向量，其中包含连字符（“ - ”），用于预制大纲，或将单词分隔为新行，但仅当发生时才会出现。例如： text text text 123- 456 text text.. 我想要做的就是删除所有hypens和toghether粘贴这些话。 text text text 123456 text text.. 我开始尝试： li

1热度

2回答

主题建模：LDA，词频每个主题和Wordcloud

问题：我如何计算和码字的各主题中的频率是多少？我的目标是从每个主题创建“词云”。附注：>我有wordcloud没有问题。从代码， burnin <- 4000 #We do not collect this. iter <- 4000 thin <- 500 seed <-list(2017,5,63,100001,765) nstart <- 5

1热度

2回答

问题与syllabification和正则表达式

我有一个PDF文件，我正在阅读的文本。我遇到的问题与数字之间发生的音节化有关。链接到github上的file。 library(pdftools) library(tidytext) library(readxl) library(dplyr) setwd("~/Automation - Official Guazzete") path <- getwd() pdf_file <

0热度

1回答

get_sentiments函数中的错误

有没有人在R中使用'tidytextmining'进行情感分析？ Tidytextmining 我使用R诉3.4.1和我正在以下错误此一段代码。 library(tidytext) library(dplyr) get_sentiments("afinn") 错误 - 错误get_sentiments（ “afinn”）：找不到函数 “get_sentiments” 我已经安装了合适的包

2热度

1回答

如何使用bigrams和trigrams使用整齐文本

我想使用tidytext同时使用bigram和trigram。我可以使用什么代码来查找2个和3个单词。这是只使用双字母组代码： library(tidytext) library(janeaustenr) austen_bigrams <- austen_books() %>% unnest_tokens(bigram, text, token = "ngrams", n = 2

0热度

2回答

R中的错误消息：mutate_impl（.data，dots）中的错误：无效参数类型

我试图使用tidytext分析一些文本并使用下面的代码;然而，得到了一个错误信息： dt %>% unnest_tokens(output, input, token="ngrams", n=3) Error in mutate_impl(.data, dots) : invalid argument type 这是我对我公司的内部研发平台得到了错误的消息，但是代码在我的本地研发工作室运行

0热度

1回答

unnest_tokens

的对面这很可能是一个愚蠢的问题，但我GOOGLE和谷歌搜索并找不到解决方案。我认为这是因为我不知道用我的问题来搜索的正确方法。我有一个数据框，我已经在R中转换为整洁的文本格式来摆脱停用词。我现在想将那个数据框'不整洁'回到原来的格式。 unnest_tokens的反向/反向命令是什么？编辑：这里是我正在使用的数据的样子。我试图复制西尔格和罗宾逊的书Tidy Text的分析，但使用意大利歌剧的l

1热度

1回答

转换数据帧与字tibble算

我试图执行基于http://tidytextmining.com/sentiment.html#the-sentiments-dataset情感分析。在执行情感分析之前，我需要将我的数据集转换为整洁的格式。我的数据集的形式： x <- c("test1" , "test2") y <- c("this is test text1" , "this is test text2") res <-