large-data

    0热度

    1回答

    git建议我将git lfs用于大文件。在我用git lfs跟踪它们并检查它们是否被添加到.gitattribute后,我仍然得到文件大于100MB的相同确切文件的错误。这里有什么建议以及我如何解决这个问题?我需要将这些大文件作为项目的一部分上传到github。 [email protected]:~/computer_vision/py-faster-rcnn$ git push -u orig

    1热度

    1回答

    我有一个问题,如何Python的功能。 我有一个非常大的数据集(200 GB),我会使用Python通过线路,在字典存储数据进行迭代,然后进行一些计算。最后,我会将计算的数据写入一个CSV文件。 我的关心是我的电脑的容量。我害怕(或非常确定)我的RAM无法存储该大型数据集。有没有更好的办法? 这里是输入数据的结构: #RIC Date[L] Time[L] Type ALP-L1-BidPrice

    0热度

    1回答

    我有一个巨大的tar存档,我拉大部分出来一次处理一个。我不想为了防止它填满磁盘并使其他应用程序崩溃而不得不照看它。 我知道我可以使用--starting-file=从档案中的任意文件开始,但似乎没有--stopping-file=命令。 它看起来像我可以写一个倒排斥模式让它忽略之后的所有文件,但它似乎仍然会尝试遍历所有索引(至少是顶层文件夹)检查它们,耗费资源和防止提前终止。 有没有更好的方法阻止

    3热度

    2回答

    我遇到了运行python/numypy代码的速度问题。我不知道如何让它更快,也许是别人? 假设有一个表面有两个三角形,一个有M点的罚款(..._罚款),一个有N个点的罚款。另外,每个点都有关于粗网格的数据(N个浮点数)。我正在尝试执行以下操作: 对于细网格上的每个点,找到粗网格上的k个最近点并获取平均值。短:内插数据从粗到细。 我现在的代码就是这样。对于大数据(在我的情况下,M = 2e6,N =

    0热度

    1回答

    运行.js文件时,我需要记录大量事件,到目前为止,我试图使用console.log(data)来记录所有数据,然后我可以从浏览器日志中保存(我使用的是Chrome) 。 但是,我遇到了这么多日志消息的问题,浏览器只包含尾部消息,而我需要所有消息。 我想知道是否可以让Google Chrome存储更多日志消息,或将日志作为文件存储在计算机上?我需要能够追加,因为我不知道日志什么时候会停止,而且我不希

    0热度

    1回答

    我有超过300个条目的巨大数据框。我正在尝试根据收集点的时间绘制一个选定的几个数据点。 这是一个数据框的窗口,我想绘制基于时间点的X,Y和Z位置。 (该数据帧具有多于这里示出的2个时间点) \t Position.X \t Position.Y \t Position.Z \t Unit \t Category \t Collection \t Time \t Parent \t ID \t NU

    -2热度

    1回答

    所以我的问题是关于我面临的一个特殊问题,即我作为当前工作的一部分必须参与的领域之一。 该域名是信用卡交易。所以它在交易层面是独一无二的。但是一个人可能会进行多次交易。现在显然每笔交易都不会完全相同。 所以我有这个基本的特征数据集,我可以轻松管理。从这个数据集中,我想要评估各个细分市场的客户级别性能,这些数据应该很容易访问,而无需为不同的变量组合运行我的代码。基本上,我所瞄准的是以客户层面的观点来看

    0热度

    2回答

    所以最近我一直在学习聚合的功能,我发现它对于我使用的大数据集非常有用。通常我在Excel中手动操作数据,虽然有效,但却非常耗时。 所以我想知道是否可以做到以下几点。我有一个类似的结构,像这样(但更大)的数据集: Fruit Crate Mass Apple A 4 Banana A 3.4 Orange B 2 Apple C 2.1 Apple C 4.5 Banana C

    1热度

    1回答

    我有一个与大量相同类型的对象一起工作的项目。 现在我使用List<Person>,但是似乎在我有大约1 000 000个项目时循环遍历这个列表是困难的。 在循环中,每个Person都有一个被调用的方法,并且有随机生成的新项目,并且有些项目被删除。 我该怎么做才能优化这个循环? 我应该更改集合类型还是将项目移动到数据库? 这是循环的样子: while (_worldIsLiving) {

    0热度

    1回答

    我想弄清楚两件事。首先,这是可能的。其次,我在正确的道路上? 我正在制作一个ASP.net Kendo UI网格,它只需要一个非常简单的两个表,即来自实体框架模型的内部连接。问题在于其中一个领域非常大。它要求我将json对象大小的值设置为max int值,以便能够返回单个表结果。 因为结果集非常大,所以我似乎无法使用视图模型。它只是返回一个大小限制错误。有没有办法将两个表中的非常大的数据集返回到单