我正在寻找一个实用程序,它将帮助我查找重复的PDF。问题:我有1000个PDF文件。有些是重复的。由于不同的文件名称和文件大小的细微差异,它们并不容易检测到。是否有一个实用程序/算法/库,可以帮助我找到重复或显示非常相似(或差异程度)的文件?查找复制PDFs
Q
查找复制PDFs
3
A
回答
1
1
为每个文件创建一个MD5散列并将其存储在数据库中。然后相同的文件将相邻排序,或者您可以快速搜索预先存在的密钥。
2
如果文件是由不同的工具创建的,它们可能看起来相同,但会产生非常不同的结果,因为它们的结构完全不同。我在一篇博客文章中提出了一些建议https://blog.idrsolutions.com/2010/09/comparing-2-pdf-files/
1
我记得有一个名为pdf2txt的UNIX实用程序(请参阅包poppler-utils
)。您可以尝试从文件中提取文本并进行文本比较。
1
问题还没有解决。我所做的是,我使用fdupes http://premium.caribe.net/~adrian2/fdupes.html来查找确切的重复项。
但最重要的是,我使用的工作流最小化了重复。每一个进入我的系统的文档都被这个Perl脚本编入索引,我写了:http://seegras.discordia.ch/Programs/fileindex,它把一些名字和它的一个md5和加到〜/ .fileindex.md5中现在我可以改变本地PDF文件的元数据或任何再次运行fileindex),并且每当我不经意地再次下载同一个文件时,我将继续运行原始文件的md5-sum,从而可以检测它是否是重复的。
还有exif-meta和exif重命名http://seegras.discordia.ch/Programs/这有助于设置PDF元数据和根据元数据重命名PDF文件;如果您正确标记所有文件,则最终会出现重复的文件名,表明它们可能是不同文件中的同一文件。
相关问题
- 1. TSQL查找复制
- 2. 查找和复制文件
- 3. 查找和复制代码
- 4. 猫鼬avoide与查找查询复制
- 5. Digitally sign pdfs
- 6. 的Javascript/jQuery的查找文本复制
- 7. 使用JQuery查找和复制图像
- 8. VBA查找值表复制公式
- 9. 批量查找和复制行
- 10. 查找单元头复制到
- 11. 查找重复
- 12. combine_pdf不结合pdfs
- 13. 查找重复并将相邻单元格复制到
- 14. 在数据库中查找被复制/重复结构的表
- 15. 查找重复表
- 16. 检查复制
- 17. 查找控制
- 18. 使用php替换pdfs
- 19. 在C#winform中搜索pdfs
- 20. 在可可中使用PDFs
- 21. 使用golang提供pdfs
- 22. 在Java中合并2 PDFs
- 23. 复制SQL查询
- 24. 查找控制Asp.net
- 25. 查找功能,并复制我试图使用查找功能查找数据的行数据
- 26. 击:找到并复制
- 27. 查找重复的文件
- 28. 查找重复数组
- 29. 查找重复的字典
- 30. 复杂的查找和SQL
刚刚找到可以工作的实用程序:http://anti-twin.com/ – Elvin 2010-10-03 15:45:29