bigdata

1热度

1回答

是否有任何简单的R函数从文本文件（* .txt或尤其是*）读取特定行。 csv）没有读取整个文件到内存中？我想读取文件的唯一选择线路，例如读取只有x1==b线： x1 x2 x3 a 1 1 a 2 2 b 2 3 b 1 4 a 2 1 -> x1 x2 x3 b 2 3 b 1 4 也许一些Perl的工具，R，但它很容易（对R用户）？

13热度

1回答

Postgresql - 在大数据库中使用数组的性能

假设我们有一个包含600万条记录的表。有16个整数列和几个文本列。它是只读表，因此每个整数列都有一个索引。每个记录大约50-60个字节。表名是“Item” 服务器是：12 GB RAM，1,5 TB SATA，4个CORES。所有服务器的postgres。此数据库中有更多的表，因此RAM不覆盖所有数据库。我想在表格“Item”中添加一列“a_elements”（大整数的数组类型）每一条记

1热度

1回答

在HDF5

StackOverflow上的神谕你好存储分层数据较为理想的方法，第一次我设法问堆栈溢出的问题，可以随意在我扔你的菜呢。（或纠正我应该问我的问题的方式）我有这个问题。我使用HDF5来存储海量的cookie信息。我的数据是通过以下方式构成： Cookie编号 - >事件 - > Key_value对有每个Cookie编号多个事件。但每个事件只有一个key_value对。我想知道什么是我应

0热度

3回答

在hadoop中生成mkdir命令的日志

是否有任何方法可以生成一个hadoop fs -mkdir命令的成功/失败日志。可能适用于所有hadoop shell命令集。

3热度

3回答

Hadoop对递归数据处理的适用性

我有一个需要递归应用的过滤算法，我不确定MapReduce是否适合这项工作。 W/o给予太多，我可以说，每个被过滤的对象的特点是一个集合，如果有序列表或队列。的数据是不是很大，只是250MB，当我从出口到SQL CSV 。映射步骤很简单：列表头部包含一个对象，该对象可以将该列表归类为属于映射节点中的一个。每个节点上的过滤算法在分配给该节点的列表集合上工作，并且在过滤结束时，或者列表保持与过滤之

3热度

2回答

的R - 大数据 - 向量超过向量长度的限制

我有下列R-代码： data <- read.csv('testfile.data', header = T) mat = as.matrix(data) 我testfile.data的一些更多的统计数据： > ncol(data) [1] 75713 > nrow(data) [1] 44771 由于这是一个大的数据集，所以我使用的是具有64GB RAM空间的Amazon EC2

0热度

1回答

使用Hadoop及相关项目分析不断变化的使用模式

我们正在制定策略，分析用户对我们网站上1M +项目的“兴趣”（点击次数，喜欢等）以生成“类似项目”列表。为了处理大量的原始数据，我们正在学习Hadoop，Hive和相关项目。我的问题是关于这个问题：Hadoop/Hive等似乎更适合数据转储，接下来是处理周期。据推测，处理周期的结束是相关项之间链接的索引图的扩展。如果我到目前为止的轨道上，通常在这些情况下如何处理数据：即，原始用户数据是否按

1热度

1回答

如何使报告生成更快？（数据从sql数据库中提取出来）

我的团队使用SQL数据库生成“每日活跃用户”报告我们搜索的表的大小为约700万条记录，我们尝试我们最好的来优化我们的算法，并把索引放在SQL db，，但仍然得到120秒为每个每日生成报告。有什么办法让它更快？任何领域/关键字/书籍/论坛，任何人都可以推荐我可以搜索？详细信息查询定义：对于谁已经登录，连续7天，我们计为“活跃用户” 在7天最终的用户表：login_in 对于登录记

1热度

3回答

在500K记录查找相似的对象

编辑解决方案这是解决方案，这要归功于@mprivat： from mysql_wrapper2 import Mysql import Levenshtein import time db = Mysql() fields = [...] records = db.query('SELECT *, CONCAT(%s) as `string`, SOUNDEX(CONCAT(%s)

5热度

1回答

准备设计和建筑的最佳方式与大数据相关的问题

最近，我参加了一家公司的现场面试，我被问到与大数据有关的设计问题，例如：让我访问一个网站的用户列表（说谷歌）之间的时间t1和t2。使用什么数据结构，如何处理并发，陈旧的数据，需要多少服务器来存储数据，以及每个服务器的需求（软件，硬件等）...... 请给我点书/ Web引用，以增加我的知识在新area.Also提供我如何回答