我想基于输入数据集来构建随机数据集。 输入数据集由856471行组成,每行中有一对由制表符分隔的值。 从随机数据集NO条目可以等于任何那些在输入数据集的,这意味着:在Python中使用随机模块中的选项时出错
如果对在第1行是“蛋白1蛋白2”时,随机数据集不能包含以下对:
- “蛋白1蛋白2”
- “蛋白2蛋白1”
为了实现这一点,我尝试了以下内容:
data = infile.readlines()
ltotal = len(data)
for line in data:
words = string.split(line)
init = 0
while init != ltotal:
p1 = random.choice(words)
p2 = random.choice(words)
words.remove(p1)
words.remove(p2)
if "%s\t%s\n" % (p1, p2) not in data and "%s\t%s\n" % (p2, p1) not in data:
outfile.write("%s\t%s\n" % (p1, p2))
不过,我发现了以下错误:
Traceback (most recent call last): File
"C:\Users\eduarte\Desktop\negcreator.py", line 46, in <module>
convert(indir, outdir) File "C:\Users\eduarte\Desktop\negcreator.py", line 27, in convert
p1 = random.choice(words) File "C:\Python27\lib\random.py", line 274, in choice
return seq[int(self.random() * len(seq))] # raises IndexError if seq is empty
IndexError: list index out of range
我敢肯定这会工作。我究竟做错了什么? 在此先感谢。
嘿!抱歉回复晚了。是的,那条线真的很愚蠢。 但即使我应用了您的建议并对其进行了一些修改,但仍然无法完成工作。编辑:哦,它不工作的方式,我得到了同样的错误,我得到的第一个地方。 – 2012-07-28 11:11:05
@EdwardCoelho:我不清楚你的代码实际上应该做什么。我想我现在明白了,并添加了新版本的代码。 – 2012-07-28 11:42:21
哦,对不起。我认为我的解释很好。猜猜我还没有像一个程序员那样思考。但是,是的,你知道我在想什么,那太棒了!现在它的运行速度也非常快。只有两个注释:'frozenset(pair)'不应该在'pais'中,我已经克服了这个问题。其他的事情,你如何限制生成的总数?我想要在两个文件中具有相同的行数。我使用'len()'来获取infile中的所有行,但即使使用if语句也不会改变。 – 2012-07-28 13:03:39