使用HOG特征和滑动窗口在网页中查找特定单词

我想查找作为输入给出的任何网页中特定单词的出现次数。我使用金字塔滑动窗口，在那里我生成所有滑动窗口的HOG（梯度直方图）功能。现在，我将所有窗口的HOG特征与我想提取的单词的HOG特征进行比较。为了比较两个HOG特征向量，我只对所有的i求和（vector1（i） - vector2（i））。使用HOG特征和滑动窗口在网页中查找特定单词

但是，结果低于预期。

我的查询是，可以有一个更好的比较系统，用于比较每个窗口的HOG特征与我想查找的单词的HOG特征。或者我应该训练一个类似SVM的分类器，以对窗口的HOG特征进行分类。

为了训练分类器，我可以为我想在我的数据集中找到的单词设置最多100-200个元素。而对于SVM来说，数据集中最好有相同数量的真假数据元素，如何限制非字表示（假元素）为100-200。在训练组非字数据元，我有：

1. ICDAR-2003 (this word data-set do not contain the word I want to extract) 

2. CIFAR image data set

的原因，我没有解压/在HTML代码中找到这个字，是因为这个词可以在图像中也会发生。

此外，由于我想查找的单词是固定的，因此我应该在数据集中包含多少个单词图像。

来源

2017-10-17 user8788828

如果你有固定的字体，只寻找特定的词，这里是简单的解决方法：

https://stackoverflow.com/a/9647509/8682088

你要提取字框，它调整到例如40×10像素。灰度像素值可能是您的特征向量。然后你可以训练你的SVM。这是原始的，但令人惊讶的有效。

它固定字体和简单的符号工作得很好。

来源

2017-10-17 14:54:05

嘿！那就是问题所在。我想训练SVM，但我对数据集感到困惑。真正的训练例子可以是我想要搜索的单词的多个表示（尽管它们几乎相同）。然而，错误的训练示例可以是任何东西，彩色或白色背景，图像组件，其他词等。因此，虽然我可以限制正面数据量（例如200-300个示例/图像），但我如何选择负面数据这不是我想要搜索的单词） – user8788828

使用HOG特征和滑动窗口在网页中查找特定单词

回答

相关问题