我有一个术语文档矩阵。我希望对它进行子集化并只保留出现超过特定次数的那些项,即行总和应该大于特定的数字。任何快速的方法来实现这一点? B.T.W,矩阵很大。如何根据每个术语出现的频率过滤术语文档矩阵
1
A
回答
0
是的,所以如果你使用的是tm
包有一个findFreqTerms功能,您可以使用该函数内,你可以指定lowfreq你想:
tdm # your term document matrix
your_terms <- findFreqTerms(tdm, lowfreq = [...])
的情况下,你有兴趣在减少通过最频繁的条款TDM你可以这样做:
tdm[your_terms, ]
希望这有助于
0
在q uanteda包:
require(quanteda)
myDfm <- dfm(data_char_ukimmig2010, remove_punct = TRUE)
myDfm
## Document-feature matrix of: 9 documents, 1,644 features (81.9% sparse).
# remove infrequent terms
dfm_trim(myDfm, min_count = 10, verbose = TRUE)
## Removing features occurring:
## - fewer than 10 times: 1,567
## Total features removed: 1,567 (95.3%).
## Document-feature matrix of: 9 documents, 77 features (32.5% sparse).
其它选项用于去除基于文档频率特征的存在,而“稀疏性”(相对度量)如在TM包中定义。
相关问题
- 1. 如何确定每个文档中术语的术语频率?
- 2. 如何计算术语文档矩阵?
- 3. 从双列创建一个术语频矩阵出现矩阵
- 4. 矩阵术语
- 5. 文本分析:术语文档矩阵?
- 6. Bigram分析和术语文档矩阵
- 7. 计算术语x术语矩阵
- 8. 创建文档术语矩阵时出现属性错误
- 9. 如何计算文档字段中特殊术语的频率?
- 10. 您如何规范化R中文档术语矩阵的行?
- 11. 在java中为LSI实现创建术语文档矩阵
- 12. 如何用TF-IDF文档 - 术语矩阵表示新文档,以及如何用大矩阵实现生产?
- 13. 我如何获得solr术语频率?
- 14. 从多个文档中添加术语频率(Solr)
- 15. 按行合并两个文档术语矩阵
- 16. 将函数应用于多个文档术语矩阵
- 17. 很多文章的单词列表 - 文档 - 术语矩阵
- 18. 文件,术语矩阵与Quanteda
- 19. 从文本文件创建术语文档矩阵
- 20. solr得分文档,所有术语都是相同的,无论术语的频率如何
- 21. 来自术语文档矩阵的关联
- 22. 将CSV格式的术语文档矩阵导入到R
- 23. 只保留文档术语矩阵中的特定格式R
- 24. 文档的正确术语
- 25. 如何计算lucene索引中每个文档的术语数?
- 26. 使用python从csv读取术语 - 文档矩阵
- 27. 使用java程序的术语频率
- 28. Zend_Search_Lucene更改术语频率问题
- 29. 如何创建一个总结与每个文档关联的数值的术语矩阵?
- 30. 转换一个术语的文档矩阵到节点/边列表中的R
我其实不是在寻找条款。我想要对tdm进行子集化,这样只有通过findFreqTerms()出现的术语才会保留在tdm中。 – NinjaR
我刚刚更新了答案。这是你的意思吗? – Codutie
谢谢。这正是我所期待的.. – NinjaR