2017-08-31 75 views
0

谢谢您已提前输入。Edgar包装|问题与.txt文件

我的问题是edgar包的getSentimentCount(word.frq, words.list)函数。该函数应读取word.list这是一个.txt文件,并比较另一个现有列表(word.frq),也是一个.txt文件的内容。

这对一个单词之间没有空格的.txt文件可以正常工作,但R仍然可以读取文件,就好像有(count> 1)一样。如果在每个单词后面有一个新行,则可以读取另一个文件(计数> 1),但会导致getSentimentCount(word.frq, words.list)函数的错误。如果.txt文件被删除了新行并且所有单词放在一行中(如其他文件),那么R只能读取一个单词(基本上所有单词在一行中)并且count = 1.

Are there R区分的不同类型的.txt文件?

LINK to both .txt files。 negwords.txt作品,litwords.txt导致错误。

我很感激任何输入。

回答

0

解决:该功能getSentimentCount(word.frq, words.list)只读取.txt (MS-DOS)

0

R读取nospace txt中只有一个字的事实是正常的:就R而言,这只是一个没有任何分隔符的字符串。

我没有任何问题,阅读其他文档:

library(edgar) 
wf <- getWordfrquency("R/litwords_space.txt") 
neg <- readLines("R/negwords.txt") 
wgs <- getSentimentCount(word.frq = wf, words.list = neg) 

现在,你的词汇列表只包含出现一次的话,那么频率表将永远是一个。

如果您正在进行文本挖掘和情感分析,我强烈建议您切换到tidytext包。

科林

+0

感谢您的快速回复。我在'getSentimentCount(word.frq,words.list)'中将'litwords.txt'作为'words.list'读取时遇到了问题,但是如果只是用'readLines()'读取它(读取结果为'read项目903')。这样做会导致错误:“row.names < - 。data.frame'('* tmp *',value = value)中的错误:无效的'row.names'长度”。对此有何意见?提前致谢。 –