2
A
回答
1
这是一个hOCR文件的一个片段,为了可读性而添加了一些新行。不幸的是,我不记得哪个工具被用来生成它(可能是ocropus),但我认为tesseract 3.01,也许其他人定义了每个单词的边界框,而不是他们的hOCR输出中的每个字母。
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
<html>
<head>
<title>
</title>
<meta http-equiv="Content-Type" content="text/html;charset=utf-8" >
</head>
<body>
<p>
<span title="bbox 171 287 184 302">B</span><span title="bbox 186 292 195 302">a</span><span title="bbox 196 292 205 302">n</span><span title="bbox 209 287 217 302">k</span> <span title="bbox 226 287 239 302">A</span><span title="bbox 242 292 250 303">c</span><span title="bbox 252 292 260 303">c</span><span title="bbox 262 292 272 303">o</span><span title="bbox 274 293 283 303">u</span><span title="bbox 285 293 294 303">n</span><span title="bbox 297 291 302 303">t</span> <span title="bbox 309 288 323 303">N</span><span title="bbox 326 293 335 303">u</span><span title="bbox 337 293 353 303">m</span><span title="bbox 354 288 364 303">b</span><span title="bbox 366 293 375 303">e</span><span title="bbox 377 293 380 303">r</span>
</p>
<p>
<span title="bbox 170 340 183 355">B</span><span title="bbox 186 345 195 355">a</span><span title="bbox 196 345 205 355">n</span><span title="bbox 208 340 217 355">k</span> <span title="bbox 225 341 239 355">A</span><span title="bbox 242 340 252 356">d</span><span title="bbox 253 340 263 356">d</span><span title="bbox 264 345 271 355">r</span><span title="bbox 272 345 280 356">e</span><span title="bbox 282 345 289 356">s</span><span title="bbox 291 345 298 356">s</span>
</p>
</body>
</html>
2
您可以使用Tesseract的命令行选项 “HOCR” 输出结果HOCR格式:
tesseract youimage.tif out hocr
相关问题
- 1. 我在哪里可以找到大量的文本文件?
- 2. 我在哪里可以找到$脚本?
- 3. 我在哪里可以找到LWJGL的样本用途?
- 4. iPhone - 我在哪里可以找到GKVoiceChatClient的样本?
- 5. 我在哪里可以找到一些UML样本?
- 6. 我在哪里可以找到我的ca.crt文件的私钥
- 7. 我在哪里可以找到我的Localizeable.strings文件?
- 8. 我在哪里可以找到特定API版本的文档?
- 9. 我在哪里可以找到特定版本的文档
- 10. 我在哪里可以找到的UIKit
- 11. 我在哪里可以找到Theme.AppCompat.Light的默认样式?
- 12. 我在哪里可以找到WPF DataGridRow的默认样式
- 13. 我在哪里可以找到像这样的$ PS?
- 14. 我在哪里可以找到由Eclipse中的servlet创建的文本文件
- 15. 我在哪里可以找到XAMPP中的MySQL日志文件
- 16. 我在哪里可以找到admob的build.gradle文件
- 17. 我在哪里可以找到CGAL中的.cpp文件?
- 18. 我在哪里可以找到.vcproj文件结构的参考?
- 19. 我在哪里可以找到HP Fortify的SCR文件?
- 20. 我在哪里可以找到Mac OSX中的“launchd.conf”文件
- 21. 我在哪里可以找到旧的C++头文件
- 22. 我在哪里可以找到JBoss 6中的jboss-j2ee.jar文件?
- 23. 我在哪里可以找到Spark 1.6中的jar文件夹?
- 24. 我在哪里可以找到.csproj文件的模式(XSD)?
- 25. 我在哪里可以找到北海的KML文件?
- 26. 我在哪里可以找到xib文件的规范?
- 27. 我在哪里可以找到Angular 2中的systemjs.config.js文件?
- 28. 我在哪里可以找到npm软件包的文档?
- 29. 我在哪里可以找到Google Play服务归属文本?
- 30. 我在哪里可以找到16F877A.h?