presto

0热度

1回答

我是新来presto，我想知道是否有任何方法有循环。我有一个查询按日期汇总了一些数据日期，当我运行它时，它会抛出一个错误：超过30GB的最大内存大小。如果循环不是选项，我可以使用其他建议。我使用的查询： select dt as DATE_KPI,brand,count(distinct concat(cast(post_visid_high as varchar), cast(p

0热度

1回答

查询上失败似的-CLI用于蜂房与数据驻留在S3

我建立一个Amazon EMR实例，其包括1个主& 1核心（M4大）用下面的版本的信息创建的兽人格式的表： EMR： 5.5.0 普雷斯托：普雷斯托0.170 Hadoop的HDFS 2.7.3蜂巢 2.1.1 Metastore 我星火应用在ORC写出来的数据到Amazon S3。然后，我创建了蜂巢表（create external table TABLE ... partition() sto

1热度

1回答

Presto Cassandra Slow performance slow

我正在使用presto来查询Cassandra记录，它需要大约8分钟来响应结果。需要改善响应时间。的Presto配置如下： coordinator=true node-scheduler.include-coordinator=false http-server.http.port=8080 query.max-memory=5GB query.max-m

0热度

1回答

presto cutom连接器中的where子句

我已经编写了一个自定义连接器for presto，现在我需要提供对“where”子句的支持，以便我可以将该信息进一步传递给REST Endpoint（数据源），以便我仅获得过滤结果。让我知道如果有人知道如何访问这些信息（从哪个对象），所以我可以实现上述用例。任何帮助/提示将不胜感激。感谢， Dheeraj

1热度

1回答

如何从PHP代码创建ORC或Parquet文件？

是否有任何库可用于从ORC或Parquet格式的PHP应用程序中为Presto查询编写自定义数据文件？如果不是这种情况下的最佳做法是什么？希望这不涉及设置Map Reduce群集。 10X - 尼尔

0热度

2回答

如何使用Presto SQL获得可重复的样本？

我想从一个大表中获取数据样本，并希望确保稍后可以重复此操作。其他SQL允许使用set.seed（整数）或可重复（整数）命令设置种子来完成可重复采样。但是，这在Presto中不适合我。这样的命令不可用吗？谢谢。

0热度

2回答

负载过重的Presto节点

我正在对presto上的tpch 100gb数据集执行一些查询，我有4个节点，1个主节点，3个工作负载。当我尝试运行一些查询时，并非所有查询都在Presto Web界面上看到节点在执行期间死亡，导致查询失败，错误如下： .facebook.presto.operator .PageTransportTimeoutException：遇到与工作节点交谈的错误太多。该节点可能已经崩溃或负载过重。这可能

0热度

1回答

蜂巢算上另一个表匹配的行数

表1： | ID | Timestamp | 1 | 1970 | 2 | 1971 表2： | Timestamp | | 1970 | | 1970 | | 1970 | | 1971 | | 1971 | 我怎么能执行加入这样的表，我得到的查询： | ID | Timestamp | Count | 1 | 1970 | 3 | 2 | 1971 |

1热度

1回答

SQL查询：计数DISTINCT与条件

这是我的简化表： is_clicked | direct_lead_id ------------+---------------- true | 4074448 false | 4074448 true | 4074448 我想is_clicked =真当上这个运行查询，以获得direct_lead_id的重复计数。所以在这种情况下，我的查询结果是1。如果我在上表中添加了

-1热度

1回答

雅典娜（普雷斯托）SQL窗口功能

说我有雅典娜以下数据： id ts uid1 1499672134268 uid1 1499672134292 uid1 1499672136189 uid1 1499672136212 uid1 1499719927907 uid1 1499719927940 uid1 1499719927975 uid1 1499719927999 uid2 1499670000000