我有一个巨大的数据库;并且一些线路被重复。我可以使用“unique()”功能,但需要5分钟。有没有办法(也许是一种并行编程方式)做同样的事情?并行方式从DataFrame中提取唯一元素存在吗?
0
A
回答
0
我不知道这是否会更快,但你可以使用distinct
从dplyr
这样的:
df %>% distinct(x)
另一种选择是使用group_by
(也是从dplyr
):
df %>% group_by(x)
0
检查data.table
包。这里是你可以做什么:
set.seed(1)
df <- data.frame(col1 = sample(x = 5000, size = 1e6, replace = TRUE),
col2 = sample(x = 5000, size = 1e6, replace = TRUE))
dt <- copy(df)
setDT(dt) #here you convert a data.frame object into a data.table one by reference
unique(dt)
我们可以检查使用microbenchmark
包时间增益:
microbenchmark(unique(df), unique(dt))
# Unit: milliseconds
# expr min lq mean median uq max neval
# unique(df) 1028.92260 1285.39321 1410.4072 1405.7486 1543.1486 1857.4901 100
# unique(dt) 83.11946 98.41596 148.0874 119.0889 155.0679 507.4944 100
相关问题
- 1. 如何从Scala中的类列表中提取唯一元素
- 2. 使用Javascript提取唯一元素ID
- 3. 从矢量中提取唯一的部分元素
- 4. 正则表达式 - 在一行中提取多个元素
- 5. 从html页面中提取元素的最佳方式?
- 6. 从页面3中存在的mysql中提取唯一记录
- 7. DataFrame元素按行排序
- 8. 提取数组中的唯一元素(从K和R C ex1-14开始)
- 9. 如何从SQL中提取唯一值?
- 10. mysql,从列中提取唯一值
- 11. 将pandas对象提取到列表中并提取唯一值
- 12. 从数组中删除唯一元素的最有效方法
- 13. 从提取键/值对的唯一密钥,并在阵列
- 14. C++映射唯一类并从值中提取子类
- 15. 如何在并行循环中从IQueryable中获取元素
- 16. Python:从stdout中提取模式并保存在csv中
- 17. 多个模式的唯一元素
- 18. 获取唯一元素名称的XPath
- 19. 我如何从数组中提取元素并在php中创建一个新的元素?
- 20. 在CSS中,锚是唯一支持伪样式属性的元素吗?
- 21. 在矩阵中找到唯一元素
- 22. 如何从pandas DataFrame中提取子列?
- 23. 从不同DataFrame中提取值
- 24. 子过程是向input()提供输入的唯一方式吗?
- 25. Python的 - 从列表中提取元素
- 26. 从数组中提取元素php
- 27. 从字符串中提取元素
- 28. 如何从jQuery中提取img元素?
- 29. 从变量中提取元素
- 30. 从二维数组中提取元素