我有一个大的(〜2.5M记录)图像元数据的数据库。每条记录都代表一张图片,并且具有唯一的ID,说明字段,以逗号分隔的关键字列表(每个图片包含20-30个关键字)以及其他一些字段。没有真正的数据库模式,我无法知道数据库中存在哪些关键字,而无需遍历每个图像并对它们进行计数。此外,元数据来自几个不同的供应商,每个供应商都有自己的关于如何填写不同领域的想法。分析,分类和索引元数据
我想用这个元数据做一些事情,但由于我对这类算法完全陌生,所以我甚至不知道从哪里开始寻找。
- 其中一些图像对它们有一定的使用限制(以文本形式给出),但每个供应商用不同的方式表述它们,并且没有办法保证一致性。我想要一个简单的测试,我可以将其应用于图像,以显示该图像是否不受限制。它不一定是完美的,只是'够好'。我怀疑我可以使用某种贝叶斯过滤器,对吧?我可以使用我知道的图像文集来训练过滤器,这些文件可以是受限的或无限制的,然后过滤器可以对其余图像做出预测?或者有更好的方法吗?
- 我还希望能够根据'关键字相似性'对这些图像进行索引,这样如果我有一个图像,我可以快速地分辨出哪些图像与最常见的关键字共享。理想情况下,该算法还会考虑到一些关键字比其他关键字更重要,并对它们进行不同的权衡。我甚至不知道从哪里开始寻找在这里,而且会很高兴为任何指针:)
我在Java的主要工作,但语言选择在这里无关紧要。我更有兴趣了解哪些方法最适合我开始阅读。在此先感谢:)
使用关系数据库对于我所想要的应用程序来说是不可行的。此外,当搜索“关键字相似性”时,我并不真正在寻找具有一组给定关键字的图像,而是具有“良好重叠”的图像(当您不知道术语时难以描述)。 – 2009-02-10 21:31:40
如果它不是关系型的,但你可以有多个表,你仍然可以自己处理关系。任何'重叠'算法都是从找到具有给定(一组)关键字的图像开始的。 – Javier 2009-02-11 15:25:48