bigdata

    0热度

    2回答

    我需要将2个表中的值插入到一个表中。 在这张表中,我需要为另一个表中的一列中的主药和其他药物分配ID。 因此,所有列将来自一个表(d_temp_drugs)和初级和其他药物只有ID将来自其他表(unique_drugs_drug_id) 我使用加入了这一点,并得到错误“错误在编译时声明:失败:SemanticException [错误10007]:_u1-subquery1中的歧义列参考drug_

    0热度

    2回答

    这里MDX衡量客户是我招: CREATE MEMBER CURRENTCUBE.[Measures].[ContactNumber] AS nonempty( UNORDER( (UNORDER([Contact].[Contact Id].[Contact Id].MEMBERS) ,{linkmember([Period].[Per Quarter].curr

    0热度

    1回答

    我有一个用例,车辆上的设备必须将平面二进制文件发送到云服务器,在它们进入并处理数据时将它们存储到Hbase 。我想知道哪些数据提取框架支持从远程设备上传平面二进制文件,以及需要使用哪种数据处理框架来解析这些文件并将数据存储到HBase中。请提出适合我的应用的设计。

    0热度

    2回答

    当安装节俭使用的语言不同的配置过程中访问我的HBase的, 当我运行 [[email protected] thrift]$ ./bootstrap.sh 我得到: -bash: ./bootstrap.sh: /bin/sh^M: bad interpreter: No such file or directory 如何解决这个问题?

    1热度

    2回答

    我调查直接发送春天启动应用程序登录到弹性搜索feasability。不使用filebeats或logstash。我相信Ingest插件可能对此有所帮助。 我最初的想法是这样的logback使用TCP上的事情。 https://github.com/logstash/logstash-logback-encoder <?xml version="1.0" encoding="UTF-8"?> <c

    0热度

    1回答

    我是Spark和Spark SQL的新手,但了解Java和SQL。 我该如何使用Spark SQL来专门获取一组使用Spark SQL转换为Spark的Oracle存储过程。请举例。

    4热度

    1回答

    我正在创建一个程序,用于统计大文件中字符串的出现次数。为此,我使用了字符串作为键和计数作为值的Python字典。 该程序适用于最多10000个字符串的较小文件。但是当我在我的实际文件〜2-3 mil字符串上进行测试时,我的程序在达到其原始速度的50%至约50%时开始减速。 我怀疑这是因为内置的字典并不是要处理如此大量的数据,并且会发生更多的冲突。我想知道是否有任何有效的方法来解决这个问题。我正在寻

    0热度

    1回答

    我创建了一个oozie sqoop任务从mysql导入数据到配置单元。我有一个namenode和3个datanodes,它们在namenode上也有hive,oozie和sqoop。 sqoop import coommand已经在namenode上测试了var CLI,但是每次我创建一个oozie sqoop任务时,它也会失败。下面是详细的错误。 2017-08-11 11:27:40,787

    4热度

    1回答

    我在读取spark数据框时发现了这个奇怪的问题。我将数据帧重新分区为50k个分区。但是,当我读取并对数据帧执行计数操作时,发现在使用spark 2.0时,底层rdd只有2143个分区。 所以我去的路径在哪里保存的数据重新分区,发现 hfs -ls /repartitionedData/ | wc -l 50476 所以它创造了50K paritions而保存数据。 然而,随着火花2.0, v

    0热度

    1回答

    GPS时间序列数据在我的项目的GPS数据发送到服务器每隔20二,大多希望在两个用例使用:次 GPS路径之间的两个得到最后的GPS位置,并显示它生活 我最终在“MongoDB for Time Series Data”教程结束模式。 我想在单个文档中保存每小时/每天的数据,但我不知道它对于使用情况2是快速的,例如,如果我必须从文档中获取数据它?是mongodb快得到的?