bigdata

0热度

2回答

我正在S3中构建数据湖。因此，我想将原始数据流存储到s3中，下面是我的代码片断，我尝试了本地存储。 val tweets = TwitterUtils.createStream(ssc, None) val engtweets = tweets.filter(status => status.getLang() == "en").map(x => x.getText()) import

1热度

1回答

处理R中大数据的有效方法

我有一个巨大的csv文件，1.37 GB，并且在R中运行glm时，它崩溃，因为我没有分配足够的内存。你知道，经常出现的错误.. 是否有没有其他的软件包ff和bigmemory的替代品，因为他们似乎不适合我，因为我的列是一个整数和字符的混合，而且似乎与两个包我必须指定我的列是什么类型，无论是字符或整数。我们即将在2018年即将把人们放在火星上;有没有简单的“read.csv.xxl”函数我们可以使

1热度

1回答

成群Spark2数据帧/ RDD过程

我有以下的表存储在蜂巢称为ExampleData： +--------+-----+---| |Site_ID |Time |Age| +--------+-----+---| |1 |10:00| 20| |1 |11:00| 21| |2 |10:00| 24| |2 |11:00| 24| |2 |12:00| 20| |3 |11:00| 24| +-----

0热度

2回答

java.lang.ArrayIndexOutOfBoundsException：在MapReduce的2错误，Hadoop的

我试图解决使用Hadoop这个问题。查找使用平均收视率前十位的企业评级。评分最高的商家将排在第一位。回想一下，review.csv文件中的第4列代表评级。我的Java代码： package bd; import java.io.IOException; import java.util.ArrayList; import java.util.Collections; import ja

2热度

1回答

点燃阿帕奇使用VS蒙戈DB使用 - 主要区别

点燃VS蒙戈DB 是什么点燃Apache和蒙戈DB之间的主要区别？是mongo db一个数据库，我们保存在磁盘中并点燃一个内存，我们保存在Ram中？你可以一起使用它们吗？如果是的话，你将如何结合他们？

0热度

1回答

如何在SOLR响应中创建自定义字段？

我想比较两个字段（比如lastnames），当我查询时，结果应该随其他字段填充。所以我可以选择在solr中创建这样的自定义字段，它可以比较字段并在查询时提供结果？

-4热度

1回答

Python如何处理大数字？

我一直在使用C++，并且一直在面对大数目的问题。我已经用“寻找数百分之一”的数组解决了它，但是我想知道处理大数字的python的方法。谢谢。

0热度

3回答

Hive或HBase的报告？

我想了解用于报告目的的最佳大数据解决方案是什么？目前我把它缩小到HBase vs Hive。用例是我们有几百TB的数据，有数百个不同的文件。数据是实时的，并且一直在更新。我们需要提供最有效的报告方式。我们有几十个不同的报告页面，每个报告由不同类型的数字和图形数据组成。例如：显示所有在过去一小时内登录系统的用户，并且其来源是美国。以最多玩过的游戏来展示一个图表，以最少玩过的游戏。系统中

0热度

1回答

JSON解析SERDE阵列结构问题

我的JSON对象： { "_total": 4, "values": [ { "total-follower-count": 63911, "organic-follower-count": 6000, "paid-follower-count": 3911, "time": 1399334400000

0热度

1回答

两个大文本文件的高效文件比较

在我们的使用案例中，我们从我们的客户（大小约30GB）获得大量快照文本文件（tsv，csv等）以及数百万条记录。数据是这样的： ItemId (unique), Title, Description, Price etc. shoe-id1, "title1", "desc1", 10 book-id-2, "title2", "desc2", 5 无论何时，我们从客户得到的快照，我们需要