bigdata

0热度

2回答

我需要将2个表中的值插入到一个表中。在这张表中，我需要为另一个表中的一列中的主药和其他药物分配ID。因此，所有列将来自一个表（d_temp_drugs）和初级和其他药物只有ID将来自其他表（unique_drugs_drug_id）我使用加入了这一点，并得到错误“错误在编译时声明：失败：SemanticException [错误10007]：_u1-subquery1中的歧义列参考drug_

0热度

2回答

通过分类计数优化

这里MDX衡量客户是我招： CREATE MEMBER CURRENTCUBE.[Measures].[ContactNumber] AS nonempty( UNORDER( (UNORDER([Contact].[Contact Id].[Contact Id].MEMBERS) ,{linkmember([Period].[Per Quarter].curr

0热度

1回答

从边缘设备到HDFS获取平面数据文件和过程

我有一个用例，车辆上的设备必须将平面二进制文件发送到云服务器，在它们进入并处理数据时将它们存储到Hbase 。我想知道哪些数据提取框架支持从远程设备上传平面二进制文件，以及需要使用哪种数据处理框架来解析这些文件并将数据存储到HBase中。请提出适合我的应用的设计。

0热度

2回答

节俭安装./bootstrap配置不好解释

当安装节俭使用的语言不同的配置过程中访问我的HBase的，当我运行 [[email protected] thrift]$ ./bootstrap.sh 我得到： -bash: ./bootstrap.sh: /bin/sh^M: bad interpreter: No such file or directory 如何解决这个问题？

1热度

2回答

你怎么摄取春天开机登录直接进入弹性

我调查直接发送春天启动应用程序登录到弹性搜索feasability。不使用filebeats或logstash。我相信Ingest插件可能对此有所帮助。我最初的想法是这样的logback使用TCP上的事情。 https://github.com/logstash/logstash-logback-encoder <?xml version="1.0" encoding="UTF-8"?> <c

0热度

1回答

Spark和Spark的Java新手与Java

我是Spark和Spark SQL的新手，但了解Java和SQL。我该如何使用Spark SQL来专门获取一组使用Spark SQL转换为Spark的Oracle存储过程。请举例。

4热度

1回答

更高效的HashMap（Dictionary）for Python在大数据中使用

我正在创建一个程序，用于统计大文件中字符串的出现次数。为此，我使用了字符串作为键和计数作为值的Python字典。该程序适用于最多10000个字符串的较小文件。但是当我在我的实际文件〜2-3 mil字符串上进行测试时，我的程序在达到其原始速度的50％至约50％时开始减速。我怀疑这是因为内置的字典并不是要处理如此大量的数据，并且会发生更多的冲突。我想知道是否有任何有效的方法来解决这个问题。我正在寻

0热度

1回答

Oozie sqoop任务错误：无法运行程序“配置单元”：错误= 2没有这样的文件或目录

我创建了一个oozie sqoop任务从mysql导入数据到配置单元。我有一个namenode和3个datanodes，它们在namenode上也有hive，oozie和sqoop。 sqoop import coommand已经在namenode上测试了var CLI，但是每次我创建一个oozie sqoop任务时，它也会失败。下面是详细的错误。 2017-08-11 11:27:40,787

4热度

1回答

Spark数据帧丢失分区

我在读取spark数据框时发现了这个奇怪的问题。我将数据帧重新分区为50k个分区。但是，当我读取并对数据帧执行计数操作时，发现在使用spark 2.0时，底层rdd只有2143个分区。所以我去的路径在哪里保存的数据重新分区，发现 hfs -ls /repartitionedData/ | wc -l 50476 所以它创造了50K paritions而保存数据。然而，随着火花2.0， v

0热度

1回答

数据库设计与MongoDB的

GPS时间序列数据在我的项目的GPS数据发送到服务器每隔20二，大多希望在两个用例使用：次 GPS路径之间的两个得到最后的GPS位置，并显示它生活我最终在“MongoDB for Time Series Data”教程结束模式。我想在单个文档中保存每小时/每天的数据，但我不知道它对于使用情况2是快速的，例如，如果我必须从文档中获取数据它？是mongodb快得到的？