0
我正在通过将推文存储到memsql中的表中来处理Twitter提要。该表具有像tweet_id,posting_time,正文等字段...用于词云的MemSQL表设计
该表包含每天约500万tweets。迄今为止存储的总共10亿条推文
该表存储为一个列存储,tweet_id作为分片键,而且posting_time存储为列存储聚簇列。
到目前为止,它对所有实时分析工作正常,如果您查询某一天,它会在亚秒内返回答案。日期过滤器越宽,查询越慢
需求是从推文的正文字段生成一个词云。我的问题是;什么是最好的办法呢?我需要的查询是高效(只需几秒钟而不是几分钟) 记住以下
- 连接效率不高这一大桌。
- 以身体领域为数百万条推文并将其分解为 转化为单词,然后聚合单词并提出顶级单词并不高效。
我相信需要一个单独的表格,这张表格的设计可能是什么?建议请
最后,我MemSQL群集有5个节点,共1个TB的RAM,以及192个核