2010-06-28 65 views
0

我遇到了HtmlUnit解析器的问题,我试图从网站中抓取一些XML(使用网站的API),对结果XML进行快速解析,然后将XML保存到文件中(所有内部API的权利)。 (sample content如何为HtmlUnit XML解析器定义一个新的实体?

不幸的是,网站中的一些请求页面的返回实体¿,虽然这是一个有效的HTML实体的HtmlUnit是分析过程中的与消息抛出一个异常:

实体“iquest “被引用,但未被宣布。

如何将iquest定义为有效实体?

回答

1

您无法定义¿除了通过编辑您接收到的数据(该数据不是XML作为任何验证程序将显示如first one I found on google

该网站没有投放有效的XML所以最好way是要求它解决XML。

当这则失败要么搜索和替换¿要么添加一个DOCTYPE,它定义了实体& iquest。

+0

不够公平。我希望能够截取流并使用HtmlUnit解析器,而不是我正在接受的内容在这些无效的实体被剥离的情况下,在HU框架之外解析它。 – 2010-06-28 18:56:06