2010-06-26 90 views
3

我正在开发一个论坛网站的功能,该功能允许在帖子中包含链接和其他类型的内容(用于说明问题或答案)。按相关性排序图像的算法

相关的链接功能实现,我有几个事情上工作:

  1. 验证URI输入(以及形成有效的方案等)
  2. 验证远程资源存在
  3. 显示给用户的图像集,并让远程页面内
  4. 提取图像他选一个

挑战。在第4步之前,按照'相关性'的顺序对这组图像进行排序会很好。我知道这是一个非常模糊的目标:-)但是我可以解释我已经完成了第4步中给出的结果,并且您将知道我为什么要处理此解决方案。

很多时候,我得到这样的事情到组图像:用于页面布局(微小和无用的)

  • 横幅和广告
  • 伪重复

    • 图片图像(原件及调整之一)
    • 设定的无政府主义顺序(在最后一个位置标志等)

    我决定CLE一个这样的混乱去除微小的图像和按大小排序,但我知道这将是一个很好的解决方案。

    任何想法?

    非常感谢!

  • +0

    这听起来像是一个很大的挑战,设计这个算法将是很多努力的工作,但最好是在一个非常好的布局中显示图像。可缩放缩略图的可滚动面板,从页面顶部到底部。除了过滤您猜测的小尺寸/广告尺寸图片之外,任何事情都可能会经常出错。我知道这不是一个答案,但它值得考虑,它可能会解决原来的问题(我猜想找到相关的图像:留给用户!):) – 2010-06-26 17:17:32

    +0

    问题是,你将如何确定图像的相关性?这只是一个训练有素的人工智能可以完成的工作,人类..你可以做的最好的办法就是删除无关图像,比如你说过的,微小的图像等等,无论如何,脸谱有这种功能,除了我认为的那种相关部分... – ultrajohn 2010-06-26 17:21:39

    +0

    你可以尝试检查它们的文件名...我认为现在并不少见,图像通常用描述其内容的东西命名...... – ultrajohn 2010-06-26 17:27:54

    回答

    2

    您可以根据饱和度进行分类(这可以很好地指示图像的有趣程度),请参阅sample implementation的问题“Image Classification - Detecting Floor Plans”。

    最困难的事情是从正规图像分离图片广告(因为它们被设计看起来非常有趣的),要做到这一点,我建议以下可能的解决方案的一种或多种:

    • 忽略的图像,具有标准尺寸的广告
    • 查询网页两次,并忽略更改的图像(广告倾向于动态)
    • 忽略托管在外部网站上的图像(注意CDN!)或特定的广告投放网址

    为了克服你可以将它们全部调整到一个非常低的分辨率(如8×8或4×4),如果两个或更多的图像是一样的忽视小分辨率复制图像的问题(呃)一个。

    +0

    非常感谢您的回复。这是一个非常聪明的解决方案。当我面对解决这个问题时,我会记住。 – 2010-06-29 12:10:19

    0

    您可能还想按图片的托管位置对图片进行排序 - 首先是现场托管的图片,第二是非现场图片。现在大多数广告图像都来自第三方服务器,因此本地图像通常是更相关的图像。