我正在寻找一种对主要由文本组成的扫描页面进行分类的方法。python中的图像分类
这里是我的问题的细节。我有大量的扫描文档,需要检测这些文档中是否存在特定类型的页面。我打算将文档“爆裂”到他们的组件页面中(每个页面都是一个单独的图像),并将这些图像分类为“A”或“B”。但我无法弄清楚这样做的最佳方法。
更多细节:
- 我有 “A” 和 “B” 的图像(页)的例子不胜枚举,所以我可以做监督学习。
- 目前还不清楚如何从这些图像中为训练提供最好的特征。例如。这些功能是什么?
- 页面偶尔略微旋转,所以如果分类对旋转和(较小程度上)缩放比较不敏感,那将会很好。
- 我想要一个跨平台的解决方案,理想情况下使用纯Python或使用通用库。
- 我想过使用OpenCV,但这看起来像一个“重量级”解决方案。
编辑:
- 的“A”和“B”的网页的区别在于“B”的页面具有相同的一般结构上他们的形式,包括条形码的存在。 “A”页面是自由文本。
它们有什么不同?字体?尺寸?你可以只是OCR的一部分(标题或作者在头?) – 2010-10-11 13:42:09
尼克,我添加了一个编辑澄清。其实,我的目标是在B页之后扔掉所有东西,因为我不必OCR它们。所以,我真的需要在做任何OCR之前检测它们。 – Kyle 2010-10-11 13:51:30
这是一个相当困难的问题 - 除非你的集合确实是巨大的,岂不是更容易只是人工分类的网页为'A'或'B'?您可以编写一个小GUI应用程序来轮流显示它们,这样您就可以每页按一个键。 – katrielalex 2010-10-11 13:53:45