0
最近我一直在用大文本文件做一些工作。我已经将它们转换为CSV格式,|
作为quotechar,但我发现有时会在文本文件中重复出现整个句子 - 不一定一个接一个。句子可以有不同的长度。我的目标是从CSV文件中删除重复的句子。澄清,它看起来像这样:捕获重复句子的正则表达式
|something irrelevant|,|sentence1|
|something irrelevant|,|sentence2|
|something irrelevant|,|sentence3|
|something irrelevant|,|sentence4|
...
|something irrelevant|,|sentence100,000|
其中一些第二列是重复。我有一些正则表达式的经验,但我没有看到我可以使用的东西。正则表达式是正确的方式来处理这个问题,还是有更好的选择?任何意见将不胜感激。
你是用编程语言处理这个吗?哪一个?在文本编辑器中?哪一个?在其他一些环境?哪一个? –
感谢您的回应!我使用python + sublime text 2,使用scikit。我刚刚发现一篇文章,建议将CSV导入Excel并使用它删除重复项。接下来我会尝试一下。 –