图案提取

我在R..my数据的新的程序员在下面给出，我想从这个corpus.my示例代码下面图案提取

MY CORPUS OR文件

还给出提取两个或多个词在网上

苹果上衣逛街我们对苹果的零售销售AAPL移动设备比对谷歌goog销售androidpowered 智能手机和平板电脑根据来自IB的报告占所有在线销售活动高倍m苹果ios智能商务拥有者设备花费平均每pm和苹果面临边际压力井富戈证券降级苹果aapl股票上市执行表示公司的毛利率将来到压力下释放其下一个智能手机可能被称为iphone作为无线服务提供商拉回补贴零售股下跌并有时上涨pm et synaptics跟随苹果进入指纹识别市场synaptics syna a 领先的电脑和手机触摸界面制造商设备是扩大到不断增长的指纹识别市场圣何塞califbased公司toute d其11月收购指纹身份证公司有效性传感器作为其不可分割的一部分
pm在移动购物美国零售苹果aapl移动设备的销售额是销售额的五倍记录谷歌goog androidpowered智能手机和平板电脑根据IBM智慧商务的单元IBM（IBM），但IBM的跟踪比我们更多的零售网站上找到

超高清curvedscreen电视在CES上销售下降超高清晰度电视可穿戴计算机可穿戴大的发布的一份报告周四并且传感器和消费者也是其中之一cts预计下周将在波尔大街拉斯维加斯消费电子展正式被称为国际消费电子展它预计将吸引超过
pm等四大产品苹果可能会在购买苹果aapl ceo中推出蒂姆库克曾谈到是一个令人振奋的一年，新的苹果产品，包括被有意模糊的新的类别，但HES 行业分析师都与他们的最好的猜测打压了哪些新的产品，我们可以从苹果预计在未来的一年

我已经手动为关键字提取声明了一个字典，但问题是，我无法从此语料库中提取两个或更多关键字出现次数或频率。任何建议

我的代码示例

这是我的文集代码

corpus<-Corpus(DirSource("corpus"),readerControl=list(readPlain,language="en"))

这是我的字典

which_words<-Dictionary(c("move up","sale","stock goes up"))

这是我的匹配代码

total<-(DocumentTermMatrix(corpus,list(dictionary = which_words)))

这是我的结果

inspect(total) 
     Terms 
Docs move up sale stock goes up 
1.txt  0  1  0

来源

2014-01-22 user3222412

我不确定“上移”或“股票上涨”是“单个”字。 – agstudy

亲爱的主席先生，举起来是两个字，股票涨了三个字，并且销售是一个字。我把它放在一个单一的字符串，如“上移”，“出售”，“股票上涨”。 – user3222412

你可以用一个词串联词的解决方法：

txt <- gsub("move up","moveup",txt) 
txt <- gsub("goes up","goesup",txt) 
txt <- gsub("goes down","goesdown",txt) 

library(tm) 

corpus <- Corpus(VectorSource(txt)) 
which_words <- c("moveup","sale","goesup","goesdown") 
total <- DocumentTermMatrix(corpus,list(dictionary = which_words)) 
inspect(total) 
Docs goesdown goesup moveup sale 
    1  1  0  1 1

不过，最好是看到一些情感分析包来做到这一点。

来源

2014-01-22 09:02:38 agstudy

回答

相关问题