0
我正在研究分析Web上文章的内容的Web应用程序。目标是识别和分类这些文章中的术语,检查这些术语是否是给定术语列表的一部分,并计算它们出现的频率。保存文本挖掘统计信息的最佳存储策略是什么?
的实体包括:
- 文章(URL,日期,简短说明,内容)
- 条款(名称,类型,频率)
- 清单(名称,术语表)
示例查询将包括:
- 列出所有其中,这个词出现最频繁
考虑到有可能是每篇文章几千术语和成千上万的文章某种类型和方面统计它们的频率在所有的文章
规范化的关系数据库是否有意义?我应该否定化或使用NoSQL数据库?