2017-02-12 53 views
0

我正在通过将推文存储到memsql中的表中来处理Twitter提要。该表具有像tweet_id,posting_time,正文等字段...用于词云的MemSQL表设计

该表包含每天约500万tweets。迄今为止存储的总共10亿条推文

该表存储为一个列存储,tweet_id作为分片键,而且posting_time存储为列存储聚簇列。

到目前为止,它对所有实时分析工作正常,如果您查询某一天,它会在亚秒内返回答案。日期过滤器越宽,查询越慢

需求是从推文的正文字段生成一个词云。我的问题是;什么是最好的办法呢?我需要的查询是高效(只需几秒钟而不是几分钟) 记住以下

  • 连接效率不高这一大桌。
  • 以身体领域为数百万条推文并将其分解为 转化为单词,然后聚合单词并提出顶级单词并不高效。

我相信需要一个单独的表格,这张表格的设计可能是什么?建议请

最后,我MemSQL群集有5个节点,共1个TB的RAM,以及192个核

回答

0

我不认为MemSQL是做到这一点的最好办法。你最好的选择是用像Apache Solr这样的搜索服务器/库来索引它,或者使用Apache Lucene作为你的后端。这样,词云所需的查询就会在几秒钟内返回,例如“给我排名最高的n个词的所有计数”。