我需要一个能够扫描复杂打印的数学公式的开放式OCR库(例如通过LaTeX生成的一些公式)。我想得到一些类似LaTeX的输出(或者只是一些类AST数据)。用于数学公式的OCR库
有没有这样的事情?还是目前的OCR技术只能解析面向行的文本?
(请注意,我也贴this question on Metaoptimize因为有些人有可能有更多的知识。)
的问题也被OpenAI描述为im2latex。
我需要一个能够扫描复杂打印的数学公式的开放式OCR库(例如通过LaTeX生成的一些公式)。我想得到一些类似LaTeX的输出(或者只是一些类AST数据)。用于数学公式的OCR库
有没有这样的事情?还是目前的OCR技术只能解析面向行的文本?
(请注意,我也贴this question on Metaoptimize因为有些人有可能有更多的知识。)
的问题也被OpenAI描述为im2latex。
不确定如果输入的性质接受是你需要的,或者如果这个工作足够好,或者你已经看到了这个,
SESHAT是一个用C++编写的用于识别手写数学表达式的开源系统SESHAT was作为瓦伦西亚理工大学PRHLT研究中心博士论文的一部分开发。
在线演示:http://cat.prhlt.upv.es/mer/
来源:https://github.com/falvaro/seshat
塞莎特是识别手写数学表达式的开源系统。给定一个表示为笔画序列的样本,解析器可以将其转换为LaTeX或其他格式,如InkML或MathML。
第一次看,这正是我正在搜索的内容 – Albert 2015-05-01 16:33:05
Glad我可以帮助:) – Slothworks 2015-05-02 06:17:17
考虑到当前技术一次只读取一个符号(请参见http://detexify.kirelabs.org/classify.html),我怀疑是否存在用于完整数学方程式的OCR。
是的,这是我所了解的大多数引擎。尽管我希望在这方面可能取得一些进展。无论如何,哇,谢谢你的链接,非常有趣和有用! :)这将帮助我在将来识别一些符号,我不知道他们被称为什么,他们代表什么,所以我会得到一些我至少可以用Google的文本! – Albert 2010-08-25 21:24:52
Infty工作得很好。我以前的公司将其整合到一个应用程序中,该应用程序为盲人大声朗读方程式,并从用户那里得到良好的反馈
下载链接似乎中断。另外,这是开放的吗?它必须是跨平台的,并且可以是我可以使用的图书馆的形式。 – Albert 2010-08-27 14:22:38
链接适用于我。我通过谷歌搜索“infty”找到了它。它不是开放的,“大部分”是商业的。这意味着它是商业性的,但它是由一群大学开发和维护的,有时候这些大学愿意为非营利组织开展交易。在我们评估过的所有软件包中,这是唯一一个在数学公式中获得超过可通过性能的软件包,让我知道如果你找到更好的东西。 – 2010-08-27 18:37:52
+1)链接也适用于我,确实很有趣。你是否测试了如何将手写数学(在一张纸上)扫描到LaTeX? – 2012-10-05 11:39:03
按照answers on Metaoptimize和discussion on the Tesseract mailinglist,似乎没有成为一个开放/免费的解决方案还能够做到这一点。
似乎能够做到这一点的唯一解决方案(但我无法验证,因为它是仅限Windows和非自由的),就像其他人提到的InftyProject一样。
InftyProject OCR(现在位于http://www.inftyreader.org/?p=29我相信)不是很好:(http://img402.imageshack.us/img402/7875/testinftyproject.png – 2012-10-13 20:01:43
你知道,在Win7中有一个应用程序只是为了:Math Input Panel。它甚至可以处理手写输入(它实际上是为此而做的)。给它一个镜头,如果你有Win7,它是免费的!
我没有Windows,我需要一个开源的解决方案,但看起来很有趣! – Albert 2010-08-29 02:15:04
确实,这看起来很有前景! – 2012-09-04 10:40:48
InftyReader是我所知道的唯一一个。它不是免费的软件(看起来钱花在非营利机构IIRC上)。
http://www.sciaccess.net/en/InftyReader/
我不知道为什么PDF不能有元数据的LaTeX?如下:将LaTeX公式放入其中!这很难吗? (我没有关于PDF语法的任何内容,但我想它可以完成)。
LaTeX语法是数学符号的唯一标准和真实标准。制作MathML和其他内容的人不考虑这一点似乎非常愚蠢。 InftyReader生成MathML或LaTeX语法。
如果我想要HTML(纯)然后我使用TTH来读取LaTeX语法。只是工作。
ABBYY FineReader(一个伟大的OCR程序)声称可以培养对数学的软件,但是这是非常新空房禁地(谁的时间?)
和Unicode有很多的数学符号。今天的OCR读者无法理解它们,显示了这项活动中软件的糟糕状态和大脑缺陷。对于“一次一个符号”,TeX明显规定了它将在哪里放置符号。他们不能编写知道这些规则的软件?! TeX甚至是公有领域!他们可以在商业产品中“使用它”。
有这个伟大的短视频:http://www.youtube.com/watch?v=LAJm3J36tLQ 解释如何你可以训练你的精读者认识数学公式。如果您已经使用Fine Reader,最好使用一种工具。当然,这是不是免费的洁具:(
这不是我真正想问的问题,我的意思是复杂的公式 - 这就是问题的全部和难点部分,它使得它与传统的OCR如FineReader不同, – Albert 2012-11-25 11:30:48
退房“Web Equation。”它可以手写公式转换为乳胶,MathML和或SymbolTree,我不知道,如果引擎是开源的。
什么是“SymbolTree”格式? – CMCDragonkai 2016-04-09 04:35:11
由于复杂公式的数学OCR输出可能会有错误 - 即使人类遇到问题 - 您也必须校正结果,至少如果它们很重要。然后(人类)校对者必须纠正结果,这意味着你需要有一个数学公式编辑器。鉴于人类需要付出的努力,可能有限的复杂公式语料库,您可能会发现将任务分配给人类更容易。
作为一个研究问题,通过OCR阅读数学很有趣 - 你需要一个二维语法和符号识别器的形式化。
除了这里已经提到的参考,为什么不谷歌呢?在加州理工,罗切斯特,美国滑铁卢和加州大学伯克利分校完成了一些工作。它有多少可用于开箱即用?不知道。
您的公式是手写的还是印刷的?现在打印 – Jasper 2010-08-25 21:17:50
对我来说很好。否则它可能太困难了:)因此,我猜一些能够处理手写公式的引擎也能够处理打印的公式。 – Albert 2010-08-25 21:21:58
您是否找到解决方案? – tan9p 2014-03-11 00:14:23