presto

    0热度

    1回答

    我是新来presto,我想知道是否有任何方法有循环。我有一个查询按日期汇总了一些数据日期,当我运行它时,它会抛出一个错误:超过30GB的最大内存大小。 如果循环不是选项,我可以使用其他建议。 我使用的查询: select dt as DATE_KPI,brand,count(distinct concat(cast(post_visid_high as varchar), cast(p

    0热度

    1回答

    我建立一个Amazon EMR实例,其包括1个主& 1核心(M4大)用下面的版本的信息创建的兽人格式的表: EMR: 5.5.0 普雷斯托:普雷斯托0.170 Hadoop的HDFS 2.7.3蜂巢 2.1.1 Metastore 我星火应用在ORC写出来的数据到Amazon S3。然后,我创建了蜂巢表(create external table TABLE ... partition() sto

    1热度

    1回答

    我正在使用presto来查询Cassandra记录,它需要大约8分钟来响应结果。需要改善响应时间。 的Presto配置如下: coordinator=true node-scheduler.include-coordinator=false http-server.http.port=8080 query.max-memory=5GB query.max-m

    0热度

    1回答

    我已经编写了一个自定义连接器for presto,现在我需要提供对“where”子句的支持,以便我可以将该信息进一步传递给REST Endpoint(数据源),以便我仅获得过滤结果。 让我知道如果有人知道如何访问这些信息(从哪个对象),所以我可以实现上述用例。 任何帮助/提示将不胜感激。 感谢, Dheeraj

    1热度

    1回答

    是否有任何库可用于从ORC或Parquet格式的PHP应用程序中为Presto查询编写自定义数据文件? 如果不是这种情况下的最佳做法是什么?希望这不涉及设置Map Reduce群集。 10X - 尼尔

    0热度

    2回答

    我想从一个大表中获取数据样本,并希望确保稍后可以重复此操作。其他SQL允许使用set.seed(整数)或可重复(整数)命令设置种子来完成可重复采样。但是,这在Presto中不适合我。这样的命令不可用吗?谢谢。

    0热度

    2回答

    我正在对presto上的tpch 100gb数据集执行一些查询,我有4个节点,1个主节点,3个工作负载。当我尝试运行一些查询时,并非所有查询都在Presto Web界面上看到节点在执行期间死亡,导致查询失败,错误如下: .facebook.presto.operator .PageTransportTimeoutException:遇到与工作节点交谈的错误太多。该节点可能已经崩溃或负载过重。这可能

    0热度

    1回答

    表1: | ID | Timestamp | 1 | 1970 | 2 | 1971 表2: | Timestamp | | 1970 | | 1970 | | 1970 | | 1971 | | 1971 | 我怎么能执行加入这样的表,我得到的查询: | ID | Timestamp | Count | 1 | 1970 | 3 | 2 | 1971 |

    1热度

    1回答

    这是我的简化表: is_clicked | direct_lead_id ------------+---------------- true | 4074448 false | 4074448 true | 4074448 我想is_clicked =真当上这个运行查询,以获得direct_lead_id的重复计数。所以在这种情况下,我的查询结果是1。如果我在上表中添加了

    -1热度

    1回答

    说我有雅典娜以下数据: id ts uid1 1499672134268 uid1 1499672134292 uid1 1499672136189 uid1 1499672136212 uid1 1499719927907 uid1 1499719927940 uid1 1499719927975 uid1 1499719927999 uid2 1499670000000