是否有可能通过html标签中的div标签的id属性过滤tika解析的内容?Tika - 有可能获得div标签的id属性吗?
我想过滤出ID为“标题”的div,因为我解析的所有页面都有相同的标题,我只需要唯一的数据。
我已经触发则ContentHandler.startElement为div标签:
class MyHtmlMapper extends DefaultHtmlMapper {
public String mapSafeElement(String name) {
if ("DIV".equals(name)) {
return "div";
}
return super.mapSafeElement(name);
}
}
我创建具有以下解析器:
InputStream urlInput = new URL(url).openStream();
Parser parser = new AutoDetectParser();
Metadata metadata = new Metadata();
ContentHandler handler = new BodyContentHandler();
ParseContext context = new ParseContext();
context.set(HtmlMapper.class, new MyHtmlMapper());
所以我假设我必须覆盖BodyContentHandler数据处理程序中的.startElement()和BodyContentHandler.endElement()方法(如下所示):
class MyContnentHandler extends BodyContentHandler{
public void startElement(String uri, String name, String element, Attributes atri) {
...
super.startElement(...)
}
public void endElement(...)
... //Similar to above
}
}
我一直在为此工作一段时间,我对tika并不熟悉。如果有人有任何建议或解决方案,他们会非常感谢!
后来我才知道,我可以通过在MyHtmlMapper类中重写mapSafeAttribute方法如下使的startElement属性(即id和class)显示:
class MyHtmlMapper extends DefaultHtmlMapper {
public String mapSafeElement(String name) {
if ("DIV".equals(name)) {
return "div";
}
return super.mapSafeElement(name);
}
public String mapSafeAttribute(String eleName, String attrName) {
HashSet<String> safeAttrs = new HashSet<String>();
safeAttrs.add("id");
safeAttrs.add("class");
if (safeAttrs.contains(attrName) && eleName.equals("div")) {
return attrName;
} else {
return super.mapSafeAttribute(eleName, attrName);
}
}
}
但我仍然无法弄清楚如何停止解析器解析具有给定属性属性的开始和结束标记之间的内容。
让我知道是否遗漏了任何有用的信息。
你并不需要在您的文章署名 - 您的用户卡被自动添加。阅读[常见问题](http://stackoverflow.com/faq#signatures)了解更多详情。 – Artemix 2012-11-28 11:52:19