如何根据每个术语出现的频率过滤术语文档矩阵

我有一个术语文档矩阵。我希望对它进行子集化并只保留出现超过特定次数的那些项，即行总和应该大于特定的数字。任何快速的方法来实现这一点？ B.T.W，矩阵很大。如何根据每个术语出现的频率过滤术语文档矩阵

2017-03-03 NinjaR

是的，所以如果你使用的是tm包有一个findFreqTerms功能，您可以使用该函数内，你可以指定lowfreq你想：

tdm # your term document matrix 
your_terms <- findFreqTerms(tdm, lowfreq = [...])

的情况下，你有兴趣在减少通过最频繁的条款TDM你可以这样做：

tdm[your_terms, ]

希望这有助于

来源

2017-03-03 08:09:31 Codutie

我其实不是在寻找条款。我想要对tdm进行子集化，这样只有通过findFreqTerms（）出现的术语才会保留在tdm中。 – NinjaR

我刚刚更新了答案。这是你的意思吗？ – Codutie

谢谢。这正是我所期待的.. – NinjaR

在q uanteda包：

require(quanteda) 

myDfm <- dfm(data_char_ukimmig2010, remove_punct = TRUE) 
myDfm 
## Document-feature matrix of: 9 documents, 1,644 features (81.9% sparse). 

# remove infrequent terms 
dfm_trim(myDfm, min_count = 10, verbose = TRUE) 
## Removing features occurring: 
## - fewer than 10 times: 1,567 
## Total features removed: 1,567 (95.3%). 
## Document-feature matrix of: 9 documents, 77 features (32.5% sparse).

其它选项用于去除基于文档频率特征的存在，而“稀疏性”（相对度量）如在TM包中定义。

来源

2017-06-14 22:27:43

如何根据每个术语出现的频率过滤术语文档矩阵

回答

相关问题