presto

    1热度

    3回答

    我们有在S3上存储数据的流式应用程序。 S3分区可能有重复的记录。我们通过Athena查询S3中的数据。 有没有一种方法可以从S3文件中删除重复项,以便我们在从雅典娜查询时不会得到它们?

    0热度

    1回答

    我们将使用Oracle Big Data Spatial和Graph。我们需要使用PGQL查询我们的分布式图。 (使用PGX的默认/给定算法对我们来说是不够的。)该图将在下面使用HBase。 问题是,PGQL只适用于CDH群集的单个节点。您可以一次查询单个节点,但不能使用群集的整个内存。我们需要一种方法来查询所有节点,然后汇总(组合)来自节点的结果并将其提供给用户。 Presto可以帮助我们解决这

    1热度

    2回答

    所以我遇到了能够通过AWS EMR执行Presto查询的问题。 我已经启动了运行配置单元/ presto并使用AWS Glue作为Metastore的EMR。 当我进入主节点并运行配置单元的SSH时,我可以运行“show schemas;”它向我展示了我们在AWS Glue上的3个不同的数据库。 如果我再进入普雷斯托CLI及运行“上蜂巢节目模式”我只看到两个“默认”和“INFORMATION_SC

    0热度

    2回答

    我有一列存储“小额支付”中的交易金额 例如, 127740000小数点对应127.74 USD 我不知道如何得到写一个查询返回127.74对我来说。如果我做。 SELECT microcents/1000000 截断它返回到127,我失去了仙

    0热度

    1回答

    我已经在我的群集上安装了presto以执行一些查询。我有4个节点和16GB的RAM。我已经按照步骤来配置presto,但是当我运行一个查询时,它会比永远相同的查询花费更多的时间。所以我想我的配置有问题。 我想也许我在我的node.properties文件属性中的错误值 query.max-memory和query.max-memory-per-node。考虑到每个节点有16GB内存,这些属性的正确

    0热度

    1回答

    什么是正确的regexp语法产生期望的结果小写字母之间的下划线?谢谢! 表1是这样的: user_id city_state 123 MiamiFlorida 234 PhiladelphiaPennsylvania 345 ClevelandOhio 我想它看起来就像这样: user_id city_state 123 Miami_Florida 234 P

    -1热度

    2回答

    我有一个关于Hive DB的快速问题。 如果我有一个表,可以说我通过“CREATE EXTERNAL TABLE TEMP”创建了一个表,并且具有一定的位置 - 并且我想更改列名(只有名称 - 不是类型)。如果我将使用不同的列名运行相同的CREATE命令 - 会发生什么?表列将自行更新?我会得到“表已存在”的错误? 我在问这个问题,因为我有列名存储在一个数据库中,我想做一个自动过程 - 所以我不想

    -1热度

    1回答

    我有日期和时间组织CSV文件如下 logs/YYYY/MM/DD/CSV files... 我有安装的Apache钻取到这些CSV文件之上执行SQL查询。由于有许多CSV文件,可以利用文件的组织来优化性能。例如, SELECT * from data where trans>='20170101' AND trans<'20170102'; 在此SQL中,目录logs/2017/01/01

    0热度

    2回答

    如何在Presto中跳出'(单引号)? 这是我想用它 select count(*) as count from uploads where title not in ('Driver's License') 我已经试过通常逃逸:,'Driver\'s License',"Driver's License",E'Driver\'s License'但似乎没有任何工作。 Presto的文档含糊不清。

    0热度

    1回答

    无法识别的VM选项'G1HeapRegionSize = 32M'您的意思是'G1HeapRegionSize ='?错误:无法创建Java虚拟机。错误:发生致命异常。程序将会退出。