用于词云的MemSQL表设计

我正在通过将推文存储到memsql中的表中来处理Twitter提要。该表具有像tweet_id，posting_time，正文等字段...用于词云的MemSQL表设计

该表包含每天约500万tweets。迄今为止存储的总共10亿条推文

该表存储为一个列存储，tweet_id作为分片键，而且posting_time存储为列存储聚簇列。

到目前为止，它对所有实时分析工作正常，如果您查询某一天，它会在亚秒内返回答案。日期过滤器越宽，查询越慢

需求是从推文的正文字段生成一个词云。我的问题是;什么是最好的办法呢？我需要的查询是高效（只需几秒钟而不是几分钟）记住以下

我相信需要一个单独的表格，这张表格的设计可能是什么？建议请

最后，我MemSQL群集有5个节点，共1个TB的RAM，以及192个核

我不认为MemSQL是做到这一点的最好办法。你最好的选择是用像Apache Solr这样的搜索服务器/库来索引它，或者使用Apache Lucene作为你的后端。这样，词云所需的查询就会在几秒钟内返回，例如“给我排名最高的n个词的所有计数”。

2017-02-14 18:40:30 mjuarez

回答