bigdata

40热度

2回答

我一直是R的很长一段时间的用户，并且最近开始使用Python。使用传统的RDBMS系统进行数据仓库，使用R/Python进行数字处理，我觉得现在需要用大数据分析来解决问题。我想知道如何开始处理大数据。 - 如何开始使用简单的Map/Reduce和使用Hadoop的我如何利用我的技能，在R和Python来开始使用大数据分析。例如，使用Python Disco项目。使用RHIPE包并查找玩具数据

1热度

3回答

大数据排序和搜索

我有两个数据文件，每个100个字符。文件A：10 行，文件B：10 行。我需要找到所有的文件B不在文件A. 起初我想喂养这两个文件到MySQL的字符串，但它看起来像它永远不会完成创建于10 的唯一密钥记录。我在等你对此的建议。

1热度

2回答

非常大的jar文件和FAT32

我正在做一些我们正在研究的桌面应用程序的一些分析。一个要求是它能够执行一些传统文件格式的I/O，实际上每个文件格式的运行速度都高达800Mb。合理预期进口量可能在5Gb左右。理想情况下，我只需将我想要的任何文件粘贴到jar文件中，签署该文件，然后在稍后时间将其重新导入。但我们的应用程序必须支持XP Pro（FAT32），它的最大文件大小限制在4Gb左右，从我所知道的。我必须将数据分成多个块

1热度

3回答

如何从网络驱动器读取5G日志文件的Scala脚本应该修改以读取最后的x行（如Unix中的'tail'）？

如何从网络驱动器读取5G日志文件的Scala脚本应该被修改以读取最后的x行（如Unix中的'tail'）？ ::#! @echo off call scala %0 %* goto :eof ::!# import scala.io.Source if (args.length > 0) { for (line <-Source.fromFile(args(0)).getLines

9热度

2回答

实现MySQL NDB集群有哪些限制？

我想为MySQL Cluster 6实现NDB集群。我希望以最少的200万条记录来处理非常庞大的数据结构。我想知道是否有任何实施NDB集群的限制。例如，RAM大小，数据库数量或NDB群集的数据库大小。

8热度

6回答

关于处理大型数据库，我需要知道些什么？

我想知道什么具体问题/解决方案/建议/最佳做法[不要惩罚我这个词]在处理大型数据库时出现。在巨大的我暗示数据库，其中有数百万行和/或数据库与PB数据表的表。面向平台的答案也很棒。