bigdata

0热度

1回答

我正在设计一个以读取的平面文件开始的数据管道。文件中的每一行都是单个记录。加载之后，每个记录都将被解析，转换和丰富。这发生与其他记录无关。作为最后一步，我想基于几个记录的字段的模糊匹配来重复记录记录。要做到这一点，我想获得2记录的所有组合。当前我使用sql表作为缓冲区。我的表中包含的所有记录，我加入了表本身，on即键不同的条件，并在名称模糊匹配与sounds like： CREATE TAB

-1热度

2回答

经常更新Amazon S3上的大型JSON文件和潜在的写入冲突

我首先想对我试图解决的问题进行一点概述。我的服务经常从Instagram，Twitter等不同来源获取帖子，我想将帖子存储在S3上的一个大型JSON文件中。文件名将如下所示：{slideshowId}_feed.json 我的网站将以幻灯片形式显示帖子，幻灯片将每分钟轮询一次S3文件以获取最新数据。它甚至可能轮询另一个文件，例如{slideshowId}_meta.json，它具有时间戳，从大文件

3热度

1回答

Bigtable性能影响列族

我们目前正在研究使用多个列族对我们的bigtable查询性能的影响。我们发现将列拆分成多个列族不会提高性能。有没有人有过类似的经历？关于我们的基准设置的更多细节。此时，我们生产表中的每行包含大约5列，每列包含0.1到1 KB的数据。所有列都存储在一个列族中。在执行行键范围过滤器（平均返回340行）并应用列正则表达式过滤器（每行只返回1列）时，查询平均需要23,3ms。我们创建了一些测试表，我们将

-1热度

1回答

处理1000万个数据集-php and sql

我们使用PHP 7，并在只有128 MB RAM的Web服务器上运行MySQL数据库。我们在处理大量数据集时遇到了问题。简单描述：我们有40,000个产品，我们希望收集这些产品的数据以找出是否需要更新。从另一个具有10百万个数据集的表中收集特定数据的查询需要1.2秒，因为我们有一些SUM函数。我们需要为每个产品单独进行查询，因为与SUM相关的时间范围有所不同。由于大量的查询，应该遍历所有产品的

1热度

1回答

我可以从自定义web应用程序访问HDFS文件

我有一个要求，我需要设置hadoop来保存文件，而不仅仅是文本文件，它可以是图像视频pdf。并且会有一个Web应用程序，用户可以根据需要添加文件和访问文件。它可以实现吗？ Web应用程序也需要由我来开发。谢谢。

0热度

2回答

存储和查询大量数据

我想要分析ML的目的，我在csv中有大量值大约50GB的数据。然而，要适应Python，这是一个很大的方法。我最好希望使用mySQL，因为查询更容易。任何人都可以提供一些技巧供我研究。这一点可以从任何东西：如何将其存储在首位，我知道我可能无法一次全部加载它，我会做反复？如果是的话，我可以为此考虑些什么？另外我听说过索引，这是否真的会加快对如此庞大数据集的查询？是否有更好的技术来处理这些数据，并

1热度

1回答

插入大量数据的数据库PHP

我想插入约19000数据到MySQL数据库和PHP，但随着负载页面或cron作业只增加了大约2000年，我怎么可以将所有数据 foreach($inventories as $item){ $this->model->AddInventory($item); }

-3热度

1回答

使用Scala/Spark编程计算卡夫卡主题中的消息数

需求是使用Scala或Spark编程计算卡夫卡主题中的消息数。我对这两种编程都很陌生，所以我不确定该怎么做。任何人都可以帮我编写代码或指导我如何实现。

1热度

1回答

我可以使用任何API在StreamSet中映射表列吗？

我需要在Stream Set管道中映射10000个列表并需要从（csv）文件向其发送数据。因此，通过提及列名称来映射流集应用程序中的每个列对于10000列来说是非常大的任务。所以任何人都可以回答什么是实现它的任何其他简单方法？或者我可以通过使用其REST API来实现它吗？在此先感谢。

0热度

1回答

查找两个不同汽车的两个地理坐标x和y是否位于同一条路上

我的数据由vehicle_ID，x和y坐标（位置），车辆速度，行驶时间组成。我们想知道哪些车在走相同的道路？这是我与1号车用ID 1数据的样本，我有70万个车辆IDS分析所以基本上我需要对我们如何才能弄清楚什么是不同的道路，以及我们如何能seprate见解从另一条路走一条路？ time vehicleID X Y speed 37081 1 13379.67 13854.