据我所知,IDF被用来计算有多少文件有这个词(只是这个想法)。由于您事先拥有所有文档,因此可以在训练集中计算IDF(以及TF)。但是如果我事先没有测试集并且以顺序的方式获取测试文档(例如来自网络爬行器),那么如何在测试文档时计算文档中文字的IDF ?测试时计算IDF(如在TF-IDF中)?
4
A
回答
2
对于这种状态,如果你的数据集足够大,你可以使用IDF的训练集。在测试阶段,如果新术语是在训练集中使用训练的IDF,并且如果该术语是新的,则使用训练集文档的数量来计算IDF。 对于某些目的,您可以使用平滑方法获得更好的结果。
0
如果您只在索引/抓取大量文档之后执行测试,则可以在抓取完成后计算IDF。遇到新文档或新术语时,您不必计算IDF。当你需要做一些TD-IDF或其他计算时,你可以随时进行计算。
如果这还不够,出于某种原因,您仍然可以使用其他文档数据集的IDF,最好使用相同类型的文档。
+0
“如果您只在索引/抓取大量文档之后执行测试” - 并非如此。当我通过抓取工具收到页面时,我必须决定该页面在那一刻是相关还是不相关。正如你所提到的计算另一个文件数据集的IDF是否在这种情况下的做法? – KillBill 2012-04-16 14:16:57
相关问题
- 1. 如何计算IDF?
- 2. Python(TextBlob)TF-IDF计算
- 3. 使用SQL计算TF-IDF
- 4. 如何计算kmeans在tfidf矩阵中解释的方差?
- 5. 使用Lucene计算TFIDF分数
- 6. 在MATLAB中计算Kolmogorov-Smirnov测试
- 7. 基于tf-idf值计算相关性?
- 8. 使用来自sklearn.feature_extraction.text.TfidfVectorizer的TfidfVectorizer计算IDF
- 9. 使用gensim的Tf-idf计算
- 10. DocumentTermMatrix中的R是用下述R代码,以便计算的TF-IDF相对于计算IDF到基座2
- 11. Python tfidf返回相同的值,无论idf
- 12. TestNG中的计时测试
- 13. 如何计算Capybara rspec测试代码?
- 14. 你如何测试一个计算器?
- 15. 的Python:如何计算TF-IDF的大型数据集
- 16. 如何在Elasticsearch中计算嵌套文档相关性分数(TF/IDF)?
- 17. Python中的通用矩阵计算,TF-IDF
- 18. C - 测量计算时间
- 19. Smalltalk和tf-idf算法
- 20. 捕获测试视频在远程计算机中的JUnit/Selenium测试
- 21. 帮助单元测试级联计算
- 22. 使用NBi测试DAX计算
- 23. 奇怪的日期计算和测试
- 24. 测试百分比计算器
- 25. TFIDF在Python
- 26. 如何在计算机休眠后恢复Selenium RC测试?
- 27. 如何计算单元测试java中的异常数量?
- 28. 如何测试VueJS中的计算属性?
- 29. 在数据帧行中计算Fisher的精确测试p值
- 30. 作弊在线测试javascript计时器
这个答案对我有意义。但是,我想知道是否有任何纸张或文章可供您参考?而且,我想知道是否有任何图书馆可以用于此事? – Pedram 2017-06-23 02:17:08
这是我编辑的评论:这个答案部分对我有意义。但是,我想知道是否有任何纸张或文章可供您参考?问题是,假设你已经训练了你的模型,一旦你在测试文档中有一个新的单词,即使你可以使用你的大数据集计算该单词的IDF,但是你仍然会有不同数量的特征在训练和测试集中,它不会工作。 – Pedram 2017-06-23 02:23:09