bigdata

    0热度

    1回答

    我正在设计一个以读取的平面文件开始的数据管道。文件中的每一行都是单个记录。 加载之后,每个记录都将被解析,转换和丰富。这发生与其他记录无关。 作为最后一步,我想基于几个记录的字段的模糊匹配来重复记录记录。要做到这一点,我想获得2记录的所有组合。 当前我使用sql表作为缓冲区。我的表中包含的所有记录,我加入了表本身,on即键不同的条件,并在名称模糊匹配与sounds like: CREATE TAB

    -1热度

    2回答

    我首先想对我试图解决的问题进行一点概述。我的服务经常从Instagram,Twitter等不同来源获取帖子,我想将帖子存储在S3上的一个大型JSON文件中。文件名将如下所示:{slideshowId}_feed.json 我的网站将以幻灯片形式显示帖子,幻灯片将每分钟轮询一次S3文件以获取最新数据。它甚至可能轮询另一个文件,例如{slideshowId}_meta.json,它具有时间戳,从大文件

    3热度

    1回答

    我们目前正在研究使用多个列族对我们的bigtable查询性能的影响。我们发现将列拆分成多个列族不会提高性能。有没有人有过类似的经历? 关于我们的基准设置的更多细节。此时,我们生产表中的每行包含大约5列,每列包含0.1到1 KB的数据。所有列都存储在一个列族中。在执行行键范围过滤器(平均返回340行)并应用列正则表达式过滤器(每行只返回1列)时,查询平均需要23,3ms。我们创建了一些测试表,我们将

    -1热度

    1回答

    我们使用PHP 7,并在只有128 MB RAM的Web服务器上运行MySQL数据库。 我们在处理大量数据集时遇到了问题。 简单描述:我们有40,000个产品,我们希望收集这些产品的数据以找出是否需要更新。从另一个具有10百万个数据集的表中收集特定数据的查询需要1.2秒,因为我们有一些SUM函数。我们需要为每个产品单独进行查询,因为与SUM相关的时间范围有所不同。由于大量的查询,应该遍历所有产品的

    1热度

    1回答

    我有一个要求,我需要设置hadoop来保存文件,而不仅仅是文本文件,它可以是图像视频pdf。并且会有一个Web应用程序,用户可以根据需要添加文件和访问文件。 它可以实现吗? Web应用程序也需要由我来开发。谢谢。

    0热度

    2回答

    我想要分析ML的目的,我在csv中有大量值大约50GB的数据。然而,要适应Python,这是一个很大的方法。我最好希望使用mySQL,因为查询更容易。任何人都可以提供一些技巧供我研究。这一点可以从任何东西: 如何将其存储在首位,我知道我可能无法一次全部加载它,我会做反复?如果是的话,我可以为此考虑些什么?另外我听说过索引,这是否真的会加快对如此庞大数据集的查询? 是否有更好的技术来处理这些数据,并

    1热度

    1回答

    我想插入约19000数据到MySQL数据库和PHP,但随着负载页面或cron作业只增加了大约2000年,我怎么可以将所有数据 foreach($inventories as $item){ $this->model->AddInventory($item); }

    -3热度

    1回答

    需求是使用Scala或Spark编程计算卡夫卡主题中的消息数。我对这两种编程都很陌生,所以我不确定该怎么做。任何人都可以帮我编写代码或指导我如何实现。

    1热度

    1回答

    我需要在Stream Set管道中映射10000个列表并需要从(csv)文件向其发送数据。因此,通过提及列名称来映射流集应用程序中的每个列对于10000列来说是非常大的任务。 所以任何人都可以回答什么是实现它的任何其他简单方法? 或者我可以通过使用其REST API来实现它吗? 在此先感谢。

    0热度

    1回答

    我的数据由vehicle_ID,x和y坐标(位置),车辆速度,行驶时间组成。我们想知道哪些车在走相同的道路? 这是我与1号车用ID 1数据的样本,我有70万个车辆IDS分析 所以基本上我需要对我们如何才能弄清楚什么是不同的道路,以及我们如何能seprate见解从另一条路走一条路? time vehicleID X Y speed 37081 1 13379.67 13854.