我在R..my数据的新的程序员在下面给出,我想从这个corpus.my示例代码下面图案提取
MY CORPUS OR文件
还给出提取两个或多个词在网上苹果上衣逛街我们对苹果的零售销售AAPL移动 设备比对谷歌goog销售androidpowered 智能手机和平板电脑根据来自IB的报告占所有在线销售活动 高倍m苹果ios智能商务拥有者 设备花费平均每pm和苹果面临边际压力 井富戈证券降级苹果aapl股票上市执行 表示公司的毛利率将来到 压力下释放其下一个智能手机可能被称为iphone作为无线服务提供商拉回 补贴零售股下跌并有时上涨pm et synaptics跟随苹果进入指纹识别市场synaptics syna a 领先的电脑和手机触摸界面制造商设备是 扩大到不断增长的指纹识别市场 圣何塞califbased公司toute d其11月收购 指纹身份证公司有效性传感器作为其不可分割的一部分
pm在移动购物美国零售 苹果aapl移动设备的销售额是销售额的五倍 记录谷歌goog androidpowered智能手机和平板电脑 根据IBM智慧商务的单元IBM(IBM),但IBM的跟踪比我们更多的零售网站上找到超高清curvedscreen电视在CES上销售下降超 高清晰度电视可穿戴计算机可穿戴大的 发布的一份报告周四并且传感器和消费者也是其中之一cts预计下周将在波尔大街 拉斯维加斯消费电子展正式被称为 国际消费电子展它预计将吸引超过
pm等四大产品苹果可能会在购买苹果aapl ceo中推出 蒂姆库克曾谈到是一个令人振奋的一年,新的苹果 产品,包括被有意模糊的新的类别,但HES 行业分析师都与他们的最好的猜测打压了哪些新的 产品,我们可以从苹果预计在未来的一年
我已经手动为关键字提取声明了一个字典,但问题是,我无法从此语料库中提取两个或更多关键字出现次数或频率。 任何建议
我的代码示例
这是我的文集代码
corpus<-Corpus(DirSource("corpus"),readerControl=list(readPlain,language="en"))
这是我的字典
which_words<-Dictionary(c("move up","sale","stock goes up"))
这是我的匹配代码
total<-(DocumentTermMatrix(corpus,list(dictionary = which_words)))
这是我的结果
inspect(total)
Terms
Docs move up sale stock goes up
1.txt 0 1 0
我不确定“上移”或“股票上涨”是“单个”字。 – agstudy
亲爱的主席先生,举起来是两个字,股票涨了三个字,并且销售是一个字。我把它放在一个单一的字符串,如“上移”,“出售”,“股票上涨”。 – user3222412