2014-01-22 24 views
0

我在R..my数据的新的程序员在下面给出,我想从这个corpus.my示例代码下面图案提取

MY CORPUS OR文件

还给出提取两个或多个词在网上

苹果上衣逛街我们对苹果的零售销售AAPL移动 设备比对谷歌goog销售androidpowered 智能手机和平板电脑根据来自IB的报告占所有在线销售活动 高倍m苹果ios智能商务拥有者 设备花费平均每pm和苹果面临边际压力 井富戈证券降级苹果aapl股票上市执行 表示公司的毛利率将来到 压力下释放其下一个智能手机可能被称为iphone作为无线服务提供商拉回 补贴零售股下跌并有时上涨pm et synaptics跟随苹果进入指纹识别市场synaptics syna a 领先的电脑和手机触摸界面制造商设备是 扩大到不断增长的指纹识别市场 圣何塞califbased公司toute d其11月收购 指纹身份证公司有效性传感器作为其不可分割的一部分
pm在移动购物美国零售 苹果aapl移动设备的销售额是销售额的五倍 记录谷歌goog androidpowered智能手机和平板电脑 根据IBM智慧商务的单元IBM(IBM),但IBM的跟踪比我们更多的零售网站上找到

超高清curvedscreen电视在CES上销售下降超 高清晰度电视可穿戴计算机可穿戴大的 发布的一份报告周四并且传感器和消费者也是其中之一cts预计下周将在波尔大街 拉斯维加斯消费电子展正式被称为 国际消费电子展它预计将吸引超过
pm等四大产品苹果可能会在购买苹果aapl ceo中推出 蒂姆库克曾谈到是一个令人振奋的一年,新的苹果 产品,包括被有意模糊的新的类别,但HES 行业分析师都与他们的最好的猜测打压了哪些新的 产品,我们可以从苹果预计在未来的一年


我已经手动为关键字提取声明了一个字典,但问题是,我无法从此语料库中提取两个或更多关键字出现次数或频率。 任何建议

我的代码示例

这是我的文集代码

corpus<-Corpus(DirSource("corpus"),readerControl=list(readPlain,language="en")) 

这是我的字典

which_words<-Dictionary(c("move up","sale","stock goes up")) 

这是我的匹配代码

total<-(DocumentTermMatrix(corpus,list(dictionary = which_words))) 

这是我的结果

inspect(total) 
     Terms 
Docs move up sale stock goes up 
1.txt  0  1  0 
+1

我不确定“上移”或“股票上涨”是“单个”字。 – agstudy

+0

亲爱的主席先生,举起来是两个字,股票涨了三个字,并且销售是一个字。我把它放在一个单一的字符串,如“上移”,“出售”,“股票上涨”。 – user3222412

回答

0

你可以用一个词串联词的解决方法:

txt <- gsub("move up","moveup",txt) 
txt <- gsub("goes up","goesup",txt) 
txt <- gsub("goes down","goesdown",txt) 

library(tm) 

corpus <- Corpus(VectorSource(txt)) 
which_words <- c("moveup","sale","goesup","goesdown") 
total <- DocumentTermMatrix(corpus,list(dictionary = which_words)) 
inspect(total) 
Docs goesdown goesup moveup sale 
    1  1  0  1 1 

不过,最好是看到一些情感分析包来做到这一点。