large-data

    3热度

    2回答

    我很抱歉如果这个问题已经得到解答,但我还没有找到它。我会发布我的想法来解决它。问题是数据库很大,我的电脑无法执行此计算(核心i7和8 GB RAM)。我正在使用Microsoft R Open 3.3.2和RStudio 1.0.136。 我试图在R中的大型数据库上创建一个新的列tcm.RData(471 MB)。我需要的是将Shape_Area与Shape_Area之和除以COD(我称之为Sha

    0热度

    2回答

    我有大型数据表(〜30 Mb),我将它转换为Django中的模型。现在我想通过REST API访问这些数据。 我已经成功安装了Django REST框架,但我正在寻找一种方法来为我的模型中的每个字段自动创建一个URL。我的模型有大约100个字段,每个字段大约有100,000个条目。 如果我的模型被命名为样品, models.py class Sample(models.Model):

    -1热度

    1回答

    我time series我从模拟数据中获得太大(350Mb)来绘制它(我想用dygraph来做)。有什么方法可以让我的数据集更小,但是不会泄露许多信息?

    0热度

    2回答

    的pandas.dataframe.duplicated是伟大的一个数据帧中跨指定的列找到重复的行。 然而,我的数据集比内存(甚至比我所能合理的预算范围内延伸之后适合大)什么适合大。 对于我必须执行的大部分分析来说,这是很好的,因为我可以遍历数据集(csv和dbf文件),将每个文件自行加载到内存中,并按顺序执行所有操作。但是,对于重复分析,这显然不适合在整个数据集中查找重复数据,但仅适用于单个文件

    -4热度

    1回答

    我有以下两种方法,如何将DocObObj中定义的方法调用到DistanceObj中? 第一个目的是: object DocsObj{ def Docs(s: List[String], b:Int): List[String] = { ... } } 第二个是: object Distance{ def tanimoto(l1: List[String], l2: Lis

    0热度

    2回答

    目前我有一个mysql数据库,并且iam收集的数据一年是5 Terrabyte。我会一直保存我的数据,我不认为我想很早就删除一些内容。 我问自己是否应该使用分布式数据库,因为我的数据每年都会增长。而5年后,我将有25 Terrabyte没有索引。 (刚计算出我每天保存的原始数据) 我有5个表,大多数查询是连接在多个表上。 而且我需要在特定的时间戳上访问多行1-2列。 会的分布式数据库比只有一个my

    0热度

    1回答

    我有一个非常大的字典大小〜200 GB,我需要经常查询我的算法。为了获得快速的结果,我想把它放在可能的内存中,因为幸运的是我拥有500GB的内存。 但是,我的主要问题是我只想在内存中加载一次,然后让其他进程查询相同的字典,而不是每次创建新进程或迭代我的代码时再次加载它。 所以,我想是这样的: 脚本1: # Load dictionary in memory def load(data_dir):

    6热度

    1回答

    我很蛮力一场比赛,我需要存储所有位置和结果的数据。数据可能会有数百GB的大小。我考虑过SQL,但是恐怕在紧密的循环中查找可能会导致性能下降。程序将迭代可能的位置,并在已知的情况下返回获胜移动,如果已知所有移动都丢失并且检查未知移动的结果,则返回最长失序。 什么是最好的方式来存储一个大的Map<Long,Long[]> positionIdToBestMoves?我正在考虑SQL或数据序列化。 我想

    0热度

    1回答

    我正在玩大型数据集(约1.5m行x 21列)。其中包括交易的长期信息。我计算从几个目标位置的本次交易的距离和追加以此作为新列主数据集: TargetLocation1<-data.frame(Long=XX.XXX,Lat=XX.XXX, Name="TargetLocation1", Size=ZZZZ) TargetLocation2<-data.frame(Long=XX.XXX,Lat=

    0热度

    1回答

    我有一个电子表格,其中一列中有图像。当我点击图片时,我可以在左上角看到图片名称。 取而代之的是图像的,我想它的名字出现在列。我无法手动执行此操作,因为有超过10000行。有没有办法在列中获取图像名称?