bigdata

    0热度

    2回答

    我正在S3中构建数据湖。因此,我想将原始数据流存储到s3中,下面是我的代码片断,我尝试了本地存储。 val tweets = TwitterUtils.createStream(ssc, None) val engtweets = tweets.filter(status => status.getLang() == "en").map(x => x.getText()) import

    1热度

    1回答

    我有一个巨大的csv文件,1.37 GB,并且在R中运行glm时,它崩溃,因为我没有分配足够的内存。你知道,经常出现的错误.. 是否有没有其他的软件包ff和bigmemory的替代品,因为他们似乎不适合我,因为我的列是一个整数和字符的混合,而且似乎与两个包我必须指定我的列是什么类型,无论是字符或整数。 我们即将在2018年即将把人们放在火星上;有没有简单的“read.csv.xxl”函数我们可以使

    1热度

    1回答

    我有以下的表存储在蜂巢称为ExampleData: +--------+-----+---| |Site_ID |Time |Age| +--------+-----+---| |1 |10:00| 20| |1 |11:00| 21| |2 |10:00| 24| |2 |11:00| 24| |2 |12:00| 20| |3 |11:00| 24| +-----

    0热度

    2回答

    我试图解决使用Hadoop这个问题。 查找使用平均收视率前十位的企业评级。评分最高的商家将排在第一位。回想一下,review.csv文件中的第4列代表评级。 我的Java代码: package bd; import java.io.IOException; import java.util.ArrayList; import java.util.Collections; import ja

    2热度

    1回答

    点燃VS蒙戈DB 是什么点燃Apache和蒙戈DB之间的主要区别? 是mongo db一个数据库,我们保存在磁盘中并点燃一个内存,我们保存在Ram中? 你可以一起使用它们吗?如果是的话,你将如何结合他们?

    0热度

    1回答

    我想比较两个字段(比如lastnames),当我查询时,结果应该随其他字段填充。所以我可以选择在solr中创建这样的自定义字段,它可以比较字段并在查询时提供结果?

    -4热度

    1回答

    我一直在使用C++,并且一直在面对大数目的问题。我已经用“寻找数百分之一”的数组解决了它,但是我想知道处理大数字的python的方法。谢谢。

    0热度

    3回答

    我想了解用于报告目的的最佳大数据解决方案是什么? 目前我把它缩小到HBase vs Hive。 用例是我们有几百TB的数据,有数百个不同的文件。数据是实时的,并且一直在更新。我们需要提供最有效的报告方式。我们有几十个不同的报告页面,每个报告由不同类型的数字和图形数据组成。例如: 显示所有在过去一小时内登录系统的用户,并且 其来源是美国。 以最多玩过的游戏来展示一个图表,以 最少玩过的游戏。 系统中

    0热度

    1回答

    我的JSON对象: { "_total": 4, "values": [ { "total-follower-count": 63911, "organic-follower-count": 6000, "paid-follower-count": 3911, "time": 1399334400000

    0热度

    1回答

    在我们的使用案例中,我们从我们的客户(大小约30GB)获得大量快照文本文件(tsv,csv等)以及数百万条记录。数据是这样的: ItemId (unique), Title, Description, Price etc. shoe-id1, "title1", "desc1", 10 book-id-2, "title2", "desc2", 5 无论何时,我们从客户得到的快照,我们需要