评估文件的相似性（语言不可知的问题）

我有一个文件存储（75,000个文件，大多数文件< 40 MB和一些几千兆字节的视频和图形文件），并希望确定文件相互之间的相似性一个简单的措施。评估文件的相似性（语言不可知的问题）

我想它有点像一个散列键，除了反转（散列键对于文件中的小改变是非常不同的，这个数字对于小的改变稍有不同）。这些文件将被处理并产生一个数字，并且可以比较这些数字或代码以找出一个文件与另一个文件的相似程度。

这可能吗？有谁知道任何开源实现，甚至算法？它将不得不涵盖任意文件类型，因此搜索解决方案（如Apache Solr）不是我正在寻找的。

2010-12-17 tjb

如果你描述了你的最终目标是什么，这将有所帮助。你真的希望给定的multigigabyte媒体文件与另一个multigigabyte媒体文件有任何相似之处吗？ – 2010-12-20 00:00:25

尼克，我有。例如，我们有多个不同医疗程序的视频文件和多个视频文件的剪辑。削减应该是相似的 – tjb 2011-01-09 12:37:00

您正在寻找simhashing，例如，这article。

2010-12-17 15:16:22 hmuelner

请看生物信息学领域，特别是在BLAST和FASTA中使用的算法。

这是一项常见的研究任务，确定一个遗传密码子串，这些子串在物种间非常相似。

2010-12-17 15:13:27 qdot

我不能为您提供解决方案，但可能值得看看locality sensitive hashing。

2010-12-17 15:15:06 NPE

回答