我想从一个大表中获取数据样本,并希望确保稍后可以重复此操作。其他SQL允许使用set.seed(整数)或可重复(整数)命令设置种子来完成可重复采样。但是,这在Presto中不适合我。这样的命令不可用吗?谢谢。如何使用Presto SQL获得可重复的样本?
0
A
回答
1
一种解决方案是,您可以通过添加随机内容(例如UUID)的列(或创建视图)来模拟采样,然后通过在此列上过滤来选择行(例如,UUID以'1'结尾) )。您可以调整条件以获取所需的样本量。
按设计,结果是随机的,也可以在多次运行中重复使用。
1
您可以创建与选定IDS一个简单的中间表:
CREATE TABLE IF NOT EXISTS <temp1>
AS
SELECT <id_column>
FROM <tablename> TABLESAMPLE SYSTEM (10);
这将只包含采样ID和将准备与感兴趣的数据做JOIN
使用它在你的分析下游。
+0
谢谢你的回答。虽然这将起作用,因为我正在处理非常大的数据集,所以我想避免连接。 – gchaks
相关问题
- 1. Presto/Python:如何使用python连接到AWS EMR上的Presto?
- 2. 如何获得可重复的文本字段的一个liferay7 Freemarker的
- 3. 如何在BigQuery Standard SQL中执行可重复采样?
- 4. 如何使用ruby解析XML以获得重复的标记?
- 5. 您可以使用Spark SQL/Hive/Presto从Parquet/S3直接复制到Redshift吗?
- 6. 重复随机抽样SQL
- 7. 如何获得iostat第二个样本
- 8. 如何使用jquery获得选项title =“样本”
- 9. 如何获得在重复控制
- 10. 如何获得重复模式
- 11. 如何获得sagepay重复付款api
- 12. ANTLR3 - 如何获得重复令牌
- 13. 如何使用SDL同时获得重复密钥?
- 14. 如何使用正则表达式获得重复组?
- 15. 如何重复使用SQL子查询?
- 16. 使用presto查询本地实木复合地板
- 17. 如何捕获重复的可选值
- 18. 如何获得最大列使用SQL?
- 19. 使用Facebook presto-parser
- 20. 有什么地方可以获得可重复使用的摆动“组件”?
- 21. 如何获得SQL
- 22. 如何获得SQL
- 23. 如何获得SQL
- 24. (UE4)如何使用可姿态网格获得重叠事件
- 25. 从哪里可以获得各种PDF版本的样本?
- 26. Unix的:如何获得使用的indexOf样的效用
- 27. 如何配置Presto
- 28. 如何获得可通使用C++
- 29. 比较重复样本
- 30. 重复列表样本
谢谢。这是一个很好的解决方法。 – gchaks