bigdata

1热度

2回答

我正在PostgreSQL数据库上运行一个大型表（每天700万新行）的sql查询集合，并且已经遇到了第一个视图和现在创建表的一些性能问题。大多数我使用的命令类似于下面的查询： CREATE TABLE events_tb AS SELECT * FROM (SELECT column1, column2, column3, column4, column5 FROM test_data

2热度

1回答

为大型Postgresql表优化嵌套连接窗口函数

我一直在对大小为56GB的表（789700760行）运行以下查询，并且在执行时间内遇到瓶颈。从我之前的一些例子中我可以看出，可能有一种方法可以'嵌套'INNER JOIN，以便查询对大型数据集执行更好。特别是下面的查询花了7.651小时完成MPP PostgreSQL部署的执行。 create table large_table as select column1, column2, colum

2热度

1回答

在twitter上查找来自百万人的20条最新推文

这个问题是贯穿整个设计方法的各种事情，你会在你的web应用程序中做这样的事情，如果你在推特上跟随数百万人并且当你检查最新的20条推文让你在最短的时间内找到它，并减少对资源的负担。这是一个关于整个堆栈的开放式设计问题。我的回答不完整的（因为我是不能完全回答这个问题），因为我们正在谈论数百万用户的那么我们就必须进行分片数据库，根据用户的地理位置，这答案没有被接受，因为在twitter中你确实不跟随

2热度

1回答

在基于Web的应用程序中处理大量数据

为基于Web的应用程序存储大量数据的最佳方式是什么？每个记录只有3个字段，但每天将有大约1.44亿条记录 - 存储一个月 - 总计444.4亿条记录。让我们凑到50亿。数据必须通过关键字搜索&尽可能快地向最终用户返回结果。哪种编程语言？ JSON/XML /一些我从未听说过的数据库系统？什么样的基础设施？想象一下，这个系统只能同时满足最多1,000个用户的需求。我假设代码是相同的，无论你

2热度

1回答

什么是BigData和NoSQL，两者都有哪些好书？

我知道我在一个问两个问题。但有人可以告诉我什么是bigdata的意思。另外NoSQL与传统SQL有什么不同。最后可以请您推荐好的/最好的书籍或教程/网站的主题，可以采取新手提高水平。请回复。

2热度

1回答

什么是在Mongo上执行大数据查询的最佳方式？

Mongo支持Map/Reduce查询，但它们似乎并没有在Hadoop意义上并行减少（并行运行）。在大型Mongo数据库上运行查询的最佳方式是什么？我需要将它导出到另一个地方吗？

3热度

3回答

反向分类Reducer键

将Map Output键以相反顺序获取到Reducer的最佳方法是什么？默认情况下，减速器以按键的升序接收所有的键。任何帮助或意见广泛赞赏。在简单的话，在正常情况下，如果在地图发射键1,4,3,5,2减速器接收相同1,2,3,4,5。我想减速机接受5,4,3,2,1。

0热度

1回答

在Hadoop中自定义InputFormat

我正在尝试读取由地理参考时间序列数据组成的非常大的数据库。所以我有以下格式的文件：纬度，经度，值@ time1，值@时间2，....值@ timeN。所以这是整个地球的数据。现在对于我的工作，我需要获取纬度，经度作为关键字，时间序列值作为值。据我所知，hadoop有KeyValueInputFormat，但它认为第一个选项卡作为分隔符。有没有一种方法来定制它。真的需要这个解决方案。感

0热度

3回答

R + bigmemory软件包是否足够用于面向列的数据管理？

我有各种财务时间序列的集合。我的大部分分析都是以列或行为导向的，很少有我需要做任何复杂的查询。此外，我（现在）在R中执行几乎所有分析。因此，我认真考虑不部署任何种类的RDBMS，而是直接在R中管理数据（保存RDS文件）。这将为我节省安装管理数据库的痛苦，并可能提高数据加载速度。我有其他理由吗？你知道以这种方式管理数据的人吗？我知道这是模糊的，但我正在寻找意见，而不是答案。

1热度

2回答

从DBPedia提取的数据的可能存储选项

我正在开发一个应用程序，允许用户标记产品购买（通过Web应用程序）。我打算使用标签来自动查询DBPedia（可能的其他开放数据源，如FreeBase）。顶端否从DBPEdia返回的结果将显示给用户，他们将选择最接近他们输入标签的结果。（我只会提取特定的数据）。例如：用户输入标记'iPhone'和发送到DBPedia的SparSQL查询。分析结果并向用户显示每个结果的一些数据，然后用户选择