很多文章的单词列表 - 文档 - 术语矩阵

我有近150k土耳其文章。我将使用文章进行自然语言处理研究。我想在处理文章后为每篇文章存储它们的文字和频率。很多文章的单词列表 - 文档 - 术语矩阵

我现在将它们存储在RDBS中。

我有3个表：

文章 - >的article_id，文字
词 - > word_id，类型，字
字 - 文章 - >编号，word_id，ARTICLE_ID，频率（指数word_id，指数article_id的）

我的文章

一个字的每articl频率查询

我有几百万文字，文章表行。我一直在这个项目中与RDBS合作。从mysql开始，现在使用oracle。但我不想使用oracle，并希望比mysql更好的性能。

另外我必须在4gb RAM的机器上处理这项工作。
简单地说，如何存储文档项矩阵并对其进行查询？性能是必要的。可以“键值数据库”在性能上击败MySQL吗？或者什么可以击败MySQL？

如果你的答案编程语言依赖，我在Python中编写代码。但是C/C++，Java没问题。

2009-12-25 mumino

也许检出lucene（或Zend_Search_Lucene在PHP中）。这是非常好的FTS引擎。

2009-12-25 02:35:53 jspcal

对于150k条款，您必须在words_articles表中有几百万行。只要您正确配置MySQL，这是可管理的。

一些提示：

2009-12-25 03:12:30

回答