bigdata

    1热度

    2回答

    我正在PostgreSQL数据库上运行一个大型表(每天700万新行)的sql查询集合,并且已经遇到了第一个视图和现在创建表的一些性能问题。大多数我使用的命令类似于下面的查询: CREATE TABLE events_tb AS SELECT * FROM (SELECT column1, column2, column3, column4, column5 FROM test_data

    2热度

    1回答

    我一直在对大小为56GB的表(789700760行)运行以下查询,并且在执行时间内遇到瓶颈。从我之前的一些例子中我可以看出,可能有一种方法可以'嵌套'INNER JOIN,以便查询对大型数据集执行更好。特别是下面的查询花了7.651小时完成MPP PostgreSQL部署的执行。 create table large_table as select column1, column2, colum

    2热度

    1回答

    这个问题是贯穿整个设计方法的各种事情,你会在你的web应用程序中做这样的事情,如果你在推特上跟随数百万人并且当你检查最新的20条推文让你在最短的时间内找到它,并减少对资源的负担。这是一个关于整个堆栈的开放式设计问题。 我的回答不完整的(因为我是不能完全回答这个问题),因为我们正在谈论数百万用户的 那么我们就必须进行分片数据库,根据用户的地理位置,这答案没有被接受,因为在twitter中你确实不跟随

    2热度

    1回答

    为基于Web的应用程序存储大量数据的最佳方式是什么? 每个记录只有3个字段,但每天将有大约1.44亿条记录 - 存储一个月 - 总计444.4亿条记录。让我们凑到50亿。 数据必须通过关键字搜索&尽可能快地向最终用户返回结果。 哪种编程语言? JSON/XML /一些我从未听说过的数据库系统? 什么样的基础设施?想象一下,这个系统只能同时满足最多1,000个用户的需求。 我假设代码是相同的,无论你

    2热度

    1回答

    我知道我在一个问两个问题。但有人可以告诉我什么是bigdata的意思。另外NoSQL与传统SQL有什么不同。 最后可以请您推荐好的/最好的书籍或教程/网站的主题,可以采取新手提高水平。 请回复。

    2热度

    1回答

    Mongo支持Map/Reduce查询,但它们似乎并没有在Hadoop意义上并行减少(并行运行)。在大型Mongo数据库上运行查询的最佳方式是什么?我需要将它导出到另一个地方吗?

    3热度

    3回答

    将Map Output键以相反顺序获取到Reducer的最佳方法是什么?默认情况下,减速器以按键的升序接收所有的键。任何帮助或意见广泛赞赏。 在简单的话,在正常情况下,如果在地图发射键1,4,3,5,2减速器接收相同1,2,3,4,5。我想减速机接受5,4,3,2,1。

    0热度

    1回答

    我正在尝试读取由地理参考时间序列数据组成的非常大的数据库。所以我有以下格式的文件: 纬度,经度,值@ time1,值@时间2,....值@ timeN。 所以这是整个地球的数据。 现在对于我的工作,我需要获取纬度,经度作为关键字,时间序列值作为值。 据我所知,hadoop有KeyValueInputFormat,但它认为第一个选项卡作为分隔符。 有没有一种方法来定制它。 真的需要这个解决方案。 感

    0热度

    3回答

    我有各种财务时间序列的集合。我的大部分分析都是以列或行为导向的,很少有我需要做任何复杂的查询。此外,我(现在)在R中执行几乎所有分析。 因此,我认真考虑不部署任何种类的RDBMS,而是直接在R中管理数据(保存RDS文件)。这将为我节省安装管理数据库的痛苦,并可能提高数据加载速度。 我有其他理由吗?你知道以这种方式管理数据的人吗?我知道这是模糊的,但我正在寻找意见,而不是答案。

    1热度

    2回答

    我正在开发一个应用程序,允许用户标记产品购买(通过Web应用程序)。 我打算使用标签来自动查询DBPedia(可能的其他开放数据源,如FreeBase)。 顶端否从DBPEdia返回的结果将显示给用户,他们将选择最接近他们输入标签的结果。 (我只会提取特定的数据)。 例如: 用户输入标记'iPhone'和发送到DBPedia的SparSQL查询。分析结果并向用户显示每个结果的一些数据,然后用户选择