0

我想查找作为输入给出的任何网页中特定单词的出现次数。 我使用金字塔滑动窗口,在那里我生成所有滑动窗口的HOG(梯度直方图)功能。现在,我将所有窗口的HOG特征与我想提取的单词的HOG特征进行比较。为了比较两个HOG特征向量,我只对所有的i求和(vector1(i) - vector2(i))。使用HOG特征和滑动窗口在网页中查找特定单词

但是,结果低于预期。

我的查询是,可以有一个更好的比较系统,用于比较每个窗口的HOG特征与我想查找的单词的HOG特征。 或者我应该训练一个类似SVM的分类器,以对窗口的HOG特征进行分类。

为了训练分类器,我可以为我想在我的数据集中找到的单词设置最多100-200个元素。而对于SVM来说,数据集中最好有相同数量的真假数据元素,如何限制非字表示(假元素)为100-200。 在训练组非字数据元,我有:

1. ICDAR-2003 (this word data-set do not contain the word I want to extract) 

2. CIFAR image data set 

的原因,我没有解压/在HTML代码中找到这个字,是因为这个词可以在图像中也会发生。

此外,由于我想查找的单词是固定的,因此我应该在数据集中包含多少个单词图像。

回答

0

如果你有固定的字体,只寻找特定的词,这里是简单的解决方法:

https://stackoverflow.com/a/9647509/8682088

你要提取字框,它调整到例如40×10像素。灰度像素值可能是您的特征向量。然后你可以训练你的SVM。这是原始的,但令人惊讶的有效。

它固定字体和简单的符号工作得很好。

+0

嘿!那就是问题所在。我想训练SVM,但我对数据集感到困惑。真正的训练例子可以是我想要搜索的单词的多个表示(尽管它们几乎相同)。然而,错误的训练示例可以是任何东西,彩色或白色背景,图像组件,其他词等。因此,虽然我可以限制正面数据量(例如200-300个示例/图像),但我如何选择负面数据这不是我想要搜索的单词) – user8788828

相关问题