bigdata

    1热度

    2回答

    谱系如何帮助重新计算数据? 例如,我有几个节点每个计算数据30分钟。如果15分钟后失败,我们可以重新计算在15分钟内处理的数据,而不用再给15分钟吗?

    0热度

    2回答

    我们正在寻找具有以下标准的技术堆栈。 我们将有大约1000万客户。 每位客户将拥有大约20MB的数据。 每个用户的数据将会每天更新。 我们需要将数据存储超过六个月。 我们可能需要在六个月的时间范围内随时查询数据。 目前我们正在考虑使用Cassandra,但Cassandra中每个节点的最大存储限制应该小于3TB,我们正在寻找其他Cassandra的替代方案。

    0热度

    1回答

    我正在练习克卢代拉纱VMware Player(非商业用途)。 我在猪脚本是, a1 = load '/user/training/my_hdfs/id' using PigStorage('\t') as(id:int,name:chararray,desig:chararray); a2 = load '/user/training/my_hdfs/trips' using PigStorag

    1热度

    2回答

    我想学会预测未来的事件,例如......能够使用过去二十年的飞机失事数据预测2018年的飞机失事数......或者......预测有多少发球台带有justin beibers脸的衬衫将于2018年销售,具体取决于previuos数据的粉丝数量..........或者如果他们决定以相同的精确度发布多少个iPhone 8和samsungs s9,日期....预测有点准确的整个销售市场.....这样的东

    0热度

    1回答

    是否可以动态检索存在于一组Solr文档中的所有字段并仍保持合理的性能?这里的最终目标是为用户动态填充数字字段列表,以便对其当前查询进行排序。 在一个完美的世界中,我希望能够让这个列表包含用户查询返回的文档中存在的所有数字字段。 但是,如果这是不可能实现的,我将通过luke处理程序用数字字段填充列表。不幸的是,似乎luke处理程序为整个集合返回字段,但不能仅限于当前查询。 我是Solr的新手,所以任

    0热度

    1回答

    我进入DW测试并需要比较源数据到目标数据。源数据存储在hive/RDBMS中,而目标数据加载到Hbase中。我是Hbase的新手。任何人都可以帮助我采取我可以采取的方法。我正在寻找的是与“MINUS”类似的功能。可能吗 ?

    0热度

    1回答

    我想查询使用hadoop的ghtorrent API提供的GitHub数据。我如何将这么多数据(4-5 TB)注入HDFS?另外,他们的数据库是实时的。是否有可能使用诸如pig,hive,hbase之类的工具来处理hadoop中的实时数据?

    2热度

    1回答

    我们在将数据存储在HBase中时遇到了一个问题。我们采取了以下步骤: Spark应用程序正在使用hfiles作为结果(结果数据大小:180 G)处理Big csv文件(大小:20 G)。通过使用命令 创作表的:从创建hfiles 'TABLE_NAME', {'NAME'=>'cf', 'COMPRESSION'=>'SNAPPY'} 数据被表的装载后,用命令hbase org.apache.ha

    0热度

    2回答

    我试图导入一个巨大的数据集(稍后做分析),但我只想要4行(它们按实用程序分类,而我只对在其中几个)。 问题是:该格式是奇怪的和巨大的,我不断收到有关没有足够的列名称的错误。 格式如下:每行是一个公用事业区域,每一列从2015年夏季到现在每一小时,以及其用电量,所以有很多列(2015年至今的小时数x 2)。 我已经试过如下: > data<-read.table("C:\\Users\\EBA.tx

    2热度

    1回答

    我有一个相当复杂的Apache PySpark管道,它对(很大的)一组文本文件执行几个转换。我的管道的预期产量是管道的不同阶段。这是最好的方式(即更有效率,但更多波光粼粼的,意义在于:更适合Spark编程模型和风格)来做到这一点? 现在,我的代码如下所示: # initialize the pipeline and perform the first set of transformations.