在输入上,我有一个纯文本(在我的情况下通常是HTML)和一个“语法规范”(用于从纯文本到结构化数据提取数据的某种方式),然后在输出I需要有一些结构化数据(JSON很好,但也许存在更好的东西?)从纯文本中提取结构化数据
这个任务是否有任何库?指定“语法规范”的好方法是什么? 解决此类问题的最佳方法是什么?
在输入上,我有一个纯文本(在我的情况下通常是HTML)和一个“语法规范”(用于从纯文本到结构化数据提取数据的某种方式),然后在输出I需要有一些结构化数据(JSON很好,但也许存在更好的东西?)从纯文本中提取结构化数据
这个任务是否有任何库?指定“语法规范”的好方法是什么? 解决此类问题的最佳方法是什么?
一些工具用于基于语法的转换:
增加:
要解析HTML,您将需要一个DOM解析器,该解析器根据html代码的质量稍微宽松一些,以使用您的语法规范解析它,然后您将需要提供一种您需要的数据结构类型是库来为你做这些东西
那么,如果纯文本文件的结构是格式良好的,那么为什么不使用Java DOM API(或JDOM)与DOCTYPE结合来创建一个DOM对象呢?从那里,你可以遍历该对象,并使用类似google-gson库的方式轻松地将其转换为JSON。
看一看jilapi
这需要在非结构化纯文本格式,并给出了结构化JSON。
既然HTML与纯文本一样? – 2012-01-05 16:29:21
从你的问题来看,你是否确实有语法规范还不清楚。如果是,哪种格式? – fge 2012-01-05 16:29:51
@DaDaDom因为它是纯文本...它的结构是另一个故事 – fge 2012-01-05 16:30:27