bigdata

    1热度

    1回答

    是否有任何简单的R函数从文本文件(* .txt或尤其是*)读取特定行。 csv)没有读取整个文件到内存中?我想读取文件的唯一选择线路,例如读取只有x1==b线: x1 x2 x3 a 1 1 a 2 2 b 2 3 b 1 4 a 2 1 -> x1 x2 x3 b 2 3 b 1 4 也许一些Perl的工具,R,但它很容易(对R用户)?

    13热度

    1回答

    假设我们有一个包含600万条记录的表。有16个整数列和几个文本列。它是只读表,因此每个整数列都有一个索引。 每个记录大约50-60个字节。 表名是“Item” 服务器是:12 GB RAM,1,5 TB SATA,4个CORES。所有服务器的postgres。 此数据库中有更多的表,因此RAM不覆盖所有数据库。 我想在表格“Item”中添加一列“a_elements”(大整数的数组类型) 每一条记

    1热度

    1回答

    StackOverflow上的神谕你好存储分层数据较为理想的方法, 第一次我设法问堆栈溢出的问题,可以随意在我扔你的菜呢。 (或纠正我应该问我的问题的方式) 我有这个问题。我使用HDF5来存储海量的cookie信息。 我的数据是通过以下方式构成: Cookie编号 - >事件 - > Key_value对 有每个Cookie编号多个事件。但每个事件只有一个key_value对。 我想知道什么是我应

    0热度

    3回答

    是否有任何方法可以生成一个hadoop fs -mkdir命令的成功/失败日志。可能适用于所有hadoop shell命令集。

    3热度

    3回答

    我有一个需要递归应用的过滤算法,我不确定MapReduce是否适合这项工作。 W/o给予太多,我可以说,每个被过滤的对象的特点是一个集合,如果有序列表或队列。 的数据是不是很大,只是250MB,当我从出口到SQL CSV 。 映射步骤很简单:列表头部包含一个对象,该对象可以将该列表归类为属于映射节点中的一个。每个节点上的过滤算法在分配给该节点的列表集合上工作,并且在过滤结束时,或者列表保持与过滤之

    3热度

    2回答

    我有下列R-代码: data <- read.csv('testfile.data', header = T) mat = as.matrix(data) 我testfile.data的一些更多的统计数据: > ncol(data) [1] 75713 > nrow(data) [1] 44771 由于这是一个大的数据集,所以我使用的是具有64GB RAM空间的Amazon EC2

    0热度

    1回答

    我们正在制定策略,分析用户对我们网站上1M +项目的“兴趣”(点击次数,喜欢等)以生成“类似项目”列表。 为了处理大量的原始数据,我们正在学习Hadoop,Hive和相关项目。 我的问题是关于这个问题:Hadoop/Hive等似乎更适合数据转储,接下来是处理周期。据推测,处理周期的结束是相关项之间链接的索引图的扩展。 如果我到目前为止的轨道上,通常在这些情况下如何处理数据:即, 原始用户数据是否按

    1热度

    1回答

    我的团队使用SQL数据库生成“每日活跃用户”报告 我们搜索的表的大小为约700万条记录,我们尝试我们最好的 来优化我们的算法,并把索引放在SQL db,,但仍然得到120秒为 每个每日生成报告。 有什么办法让它更快? 任何领域/关键字/书籍/论坛,任何人都可以推荐我可以搜索? 详细信息 查询定义: 对于谁已经登录,连续7天,我们计为“活跃用户” 在7天最终的用户 表:login_in 对于登录 记

    1热度

    3回答

    编辑解决方案 这是解决方案,这要归功于@mprivat: from mysql_wrapper2 import Mysql import Levenshtein import time db = Mysql() fields = [...] records = db.query('SELECT *, CONCAT(%s) as `string`, SOUNDEX(CONCAT(%s)

    5热度

    1回答

    最近,我参加了一家公司的现场面试,我被问到与大数据有关的设计问题,例如:让我访问一个网站的用户列表(说谷歌)之间的时间t1和t2。使用什么数据结构,如何处理并发,陈旧的数据,需要多少服务器来存储数据,以及每个服务器的需求(软件,硬件等)...... 请给我点书/ Web引用,以增加我的知识在新area.Also提供我如何回答