bigdata

    40热度

    2回答

    我一直是R的很长一段时间的用户,并且最近开始使用Python。使用传统的RDBMS系统进行数据仓库,使用R/Python进行数字处理,我觉得现在需要用大数据分析来解决问题。 我想知道如何开始处理大数据。 - 如何开始使用简单的Map/Reduce和使用Hadoop的 我如何利用我的技能,在R和Python来开始使用大数据分析。例如,使用Python Disco项目。 使用RHIPE包并查找玩具数据

    1热度

    3回答

    我有两个数据文件,每个100个字符。文件A:10 行,文件B:10 行。我需要找到所有的文件B不在文件A. 起初我想喂养这两个文件到MySQL的字符串,但它看起来像它永远不会完成创建于10 的唯一密钥记录。 我在等你对此的建议。

    1热度

    2回答

    我正在做一些我们正在研究的桌面应用程序的一些分析。 一个要求是它能够执行一些传统文件格式的I/O,实际上每个文件格式的运行速度都高达800Mb。合理预期进口量可能在5Gb左右。 理想情况下,我只需将我想要的任何文件粘贴到jar文件中,签署该文件,然后在稍后时间将其重新导入。 但我们的应用程序必须支持XP Pro(FAT32),它的最大文件大小限制在4Gb左右,从我所知道的。 我必须将数据分成多个块

    1热度

    3回答

    如何从网络驱动器读取5G日志文件的Scala脚本应该被修改以读取最后的x行(如Unix中的'tail')? ::#! @echo off call scala %0 %* goto :eof ::!# import scala.io.Source if (args.length > 0) { for (line <-Source.fromFile(args(0)).getLines

    9热度

    2回答

    我想为MySQL Cluster 6实现NDB集群。我希望以最少的200万条记录来处理非常庞大的数据结构。 我想知道是否有任何实施NDB集群的限制。例如,RAM大小,数据库数量或NDB群集的数据库大小。

    8热度

    6回答

    我想知道什么具体问题/解决方案/建议/最佳做法[不要惩罚我这个词]在处理大型数据库时出现。 在巨大的我暗示数据库,其中有数百万行和/或数据库与PB数据表的表。 面向平台的答案也很棒。