2017-09-05 62 views
0

很多时候我们需要提取一个大的随机样本dataset?在openrefine上做什么最好的方法是?这对于在RPython中用于执行此操作的从业人员可能很有用。如何在Openrefine中制作随机样本?

在此先感谢您的任何建议!

回答

2

Open Refine并没有内置函数,但您可以使用Python/Jython创建一个随机整数的新列。例如,如果你有10万行:

import random 
return random.randint(0, 100000) 

然后,您可以在此列进行排序,永久地重新排序行,并选择例如第一千与自定义文本方面:

row.index < 1000 

编辑:我忘记了@OwenStephens的this extension增加了一个randomNumber GREL函数。随意安装它。

enter image description here

+0

这有很大的帮助。再次感谢!埃托雷! –

+0

不客气。回答编辑的方式。注意:如果您有关于OpenRefine的具体问题,您也可以在专门的[Google小组]上(https://groups.google.com/forum/#!forum/openrefine)提问。 –