2012-05-06 37 views
-1

我想写一个python脚本,它能够获取xls文件中每行的内容,从中提取单词列表(具有使用rex的特定模式),并将此列表与所有列表进行比较在当前行之后的所有行中提取列表直到文件结束。并删除具有相同列表的行。 注意,两个列表中的单词可能是无序的,但它们在内容上仍然是相等的。删除xls文件中的重复

我很感激任何帮助。

回答

1

此问题与从未排序数组中删除相似元素非常相似。你需要做的是根据匹配你的正则表达式的单词数量对所有行进行散列,然后在每个桶中比较相似性。

你也让代码具有很好的可扩展性。

 buckets={} 
    for row in rows: 
      if bucket[row.length] is None: 
       bucket[row.length]={} 
      bucket[row.length].append(row) 
     #now do your matching 
     for bucket in buckets: 
      #match and delete.