2013-07-13 52 views
0

最近我一直在用大文本文件做一些工作。我已经将它们转换为CSV格式,|作为quotechar,但我发现有时会在文本文件中重复出现整个句子 - 不一定一个接一个。句子可以有不同的长度。我的目标是从CSV文件中删除重复的句子。澄清,它看起来像这样:捕获重复句子的正则表达式

|something irrelevant|,|sentence1| 
|something irrelevant|,|sentence2| 
|something irrelevant|,|sentence3| 
|something irrelevant|,|sentence4| 
... 
|something irrelevant|,|sentence100,000| 

其中一些第二列是重复。我有一些正则表达式的经验,但我没有看到我可以使用的东西。正则表达式是正确的方式来处理这个问题,还是有更好的选择?任何意见将不胜感激。

+2

你是用编程语言处理这个吗?哪一个?在文本编辑器中?哪一个?在其他一些环境?哪一个? –

+0

感谢您的回应!我使用python + sublime text 2,使用scikit。我刚刚发现一篇文章,建议将CSV导入Excel并使用它删除重复项。接下来我会尝试一下。 –

回答

0

好的。我删除从我的文本文件中的重复的句子如下:

  1. 转化为CSV格式
  2. 导入到Excel
  3. 使用列Excel的“删除重复”功能,现在包含句子
  4. 导出为CSV文件
  5. 转换回文本

这可能不是做事情的最有效的方式,但它活像ks,并且很容易遵循。我之前浪费了很多时间编写复杂的正则表达式并在python中搞乱,所以希望这可能会节省一些时间。