我有以下问题:我的table1有N个正面样本,并且随着时间的推移它会缓慢增长。我想从另一个很大的表中选择10N个负面样本。 因此,这将是这样的: WITH positive_samples AS (
SELECT * FROM table1
), negative_samples AS (
SELECT * FROM table2 LIMIT 100
)
有与此查询几个问题
假设我有一个类型为STRING的列'debugdata'。对于给定用户的示例值如下: {"TITLE_DESCRIPTION":"approve","CATEGORY":"approve"}
然而,假设可以有多个值的TITLE_DESCRIPTION {"TITLE_DESCRIPTION":"No, name does not match,No, summary is not clear",
我试图从雅典娜获得N行的随机样本。但是,因为从中我要提请此示例表是巨大的天真 SELECT
id
FROM mytable
ORDER BY RANDOM()
LIMIT 100
需要永远跑,大概是因为ORDER BY需要被发送到一个节点,然后慢腾腾的所有数据和订单数据。 我知道TABLESAMPLE,但它允许一个样本的一些百分比而不是一些数量的行。有没有更好的方法来做到这一点?
我在HIVE(HDFS)中使用以下行并将Presto用作查询引擎。 1,@markbutcher72 @charlottegloyn Not what Belinda Carlisle thought. And yes, she was singing about Edgbaston.
2,@tomkingham @markbutcher72 @charlottegloyn It's true