2016-04-27 78 views
0

我正在研究分析Web上文章的内容的Web应用程序。目标是识别和分类这些文章中的术语,检查这些术语是否是给定术语列表的一部分,并计算它们出现的频率。保存文本挖掘统计信息的最佳存储策略是什么?

的实体包括:

  • 文章(URL,日期,简短说明,内容)
  • 条款(名称,类型,频率)
  • 清单(名称,术语表)

示例查询将包括:

  • 列出所有其中,这个词出现最频繁

考虑到有可能是每篇文章几千术语和成千上万的文章某种类型和方面统计它们的频率在所有的文章

  • 的特定期限,返回文章,你将如何存储数据?

    规范化的关系数据库是否有意义?我应该否定化或使用NoSQL数据库?

  • 回答

    1

    规范化的关系数据库(RDBMS)总是对我有意义。规范化可以提高您在最频繁查询时的一致性和速度。

    如果你的实体很简单(id和一堆属性),你也可以考虑NoSQL解决方案,因此你并不需要RDBMS的强大功能。

    就你而言,我会选择一款设计良好的,一劳永逸的RDBMS解决方案。 MySQL对于这项工作来说不仅仅是完美的。

    相关问题