2017-03-03 125 views

回答

0

是的,所以如果你使用的是tm包有一个findFreqTerms功能,您可以使用该函数内,你可以指定lowfreq你想:

tdm # your term document matrix 
your_terms <- findFreqTerms(tdm, lowfreq = [...]) 

的情况下,你有兴趣在减少通过最频繁的条款TDM你可以这样做:

tdm[your_terms, ] 

希望这有助于

+0

我其实不是在寻找条款。我想要对tdm进行子集化,这样只有通过findFreqTerms()出现的术语才会保留在tdm中。 – NinjaR

+0

我刚刚更新了答案。这是你的意思吗? – Codutie

+0

谢谢。这正是我所期待的.. – NinjaR

0

q uanteda包:

require(quanteda) 

myDfm <- dfm(data_char_ukimmig2010, remove_punct = TRUE) 
myDfm 
## Document-feature matrix of: 9 documents, 1,644 features (81.9% sparse). 

# remove infrequent terms 
dfm_trim(myDfm, min_count = 10, verbose = TRUE) 
## Removing features occurring: 
## - fewer than 10 times: 1,567 
## Total features removed: 1,567 (95.3%). 
## Document-feature matrix of: 9 documents, 77 features (32.5% sparse). 

其它选项用于去除基于文档频率特征的存在,而“稀疏性”(相对度量)如在TM包中定义。