假设我们有一个适度增长的文档语料库,即每天将一些新文档添加到此文档语料库中。对于这些新增加的文档,我可以通过使用LDA的推理部分来推断主题分布。我不必为所有文件再次执行LDA的整个话题估计+推理过程,只是为了获得这些新文件的话题分布。但是,在一段时间内,我可能需要再次执行整个主题生成过程,因为自上次执行LDA以来新添加的文档数量可能会在文档语料库中添加全新的单词。我应该多长时间对整个文档语料库执行LDA?
现在,我的问题是 - 如何确定两个主题生成执行之间足够好的间隔?对于整个文档语料库应该多久执行一次LDA,有没有一般性建议?
如果我保持这个间隔很短,那么我可能会失去稳定的主题分布,主题分布将会不断变化。如果我把时间间隔过长,那么我可能会失去新的主题和新的主题结构。