0
A
回答
1
它因不同的PDF阅读器而异,但我猜测它是一些已知的快速字符串匹配算法(可能是Rabin-Karp algorithm,Boyer-Moore algorithm或KMP algorithm)可能同时跨所有文档页面并行运行。对于简短的文本字符串,这应该是非常非常快的。
而且他们也很有可能使用他们自己的上述算法的混合/修改算法。
5
搜索算法能够在PDF中查找单词的速度与所使用的特定算法很少有关,而且更依赖于使用哪种算法确定哪些算法用于确定哪些绘图指令构成第一个单词地点和他们应该进入的顺序。一些PDF创建工具将创建一条指令,将整行文本设置为单个指令,每个单词之间有空格。但是,如果在创作工具中将任何类型的非标准间距应用于该行,则PDF可能会逐个字符地放置每个单词,而根本没有空格。还有一些人会尝试避免加载字体和创建PDF的内存负担,使所有普通文本首先被渲染,然后是所有粗体文本,然后是所有斜体文本,字体由字体。因此,如果您只是按照其绘制的顺序提取文本,则无法获得真实的阅读顺序。
更好的工具需要更长的时间,但会使这个过程正确。之后,搜索的时间是微不足道的。
相关问题
- 1. 查找类似单词的算法
- 2. PDF阅读器
- 3. PDF阅读器
- 4. Pdf阅读器Android
- 5. 使用PDFSharp查找PDF中的单词
- 6. 书写PDF阅读器库
- 7. iframe中的PDF阅读器
- 8. iphone中的PDF阅读器
- 9. 安装PDF阅读器
- 10. 阅读传统的单词形式复选框转换为PDF
- 11. 爬行器阅读pdf
- 12. Android PDF阅读器组件
- 13. PDF阅读器喜欢iBooks
- 14. iTextSharp PDF阅读器准确性
- 15. 查找单词
- 16. 本机android 4.0 pdf阅读器
- 17. 的Joomla良好的PDF阅读器
- 18. 在文本中查找相关单词的算法
- 19. PDF阅读器的Android为Android
- 20. vb.net pdf阅读器加载问题
- 21. 用Apache阅读PDF PDF盒
- 22. 在MsIE中检测PDF阅读器
- 23. 用iphone阅读PDF
- 24. 如何在ubuntu10.10中找到默认pdf阅读器的路径?
- 25. 在html中的PDF阅读器?
- 26. 网页内的光PDF阅读器
- 27. 从零开始的Android PDF阅读器
- 28. 阅读PDF浏览器的PhoneGap
- 29. PDF阅读器中的目录
- 30. ASP.net中的免费PDF阅读器
太宽泛。有很多关于搜索和子字符串搜索的长篇文章...也许你的问题是关闭文本,而不是搜索? –