Apache Tika的GUI实用程序提供了获取给定文档或URL的主要内容(格式文本和结构化文本除外)的选项。我只想知道哪个方法负责提取文档/网址的主要内容。以便我可以将该方法合并到我的程序中。此外,他们是否在从HTML页面提取数据时使用任何启发式算法。因为有时在提取的内容中,我无法看到广告。我们发现BoilerPipeContentHandler负责它。Tika - 从文档检索主要内容
3
A
回答
7
Tika GUI中的“主要内容”功能是使用BoilerpipeContentHandler类实现的,该类依靠boilerpipe library进行繁重工作。
0
我相信这是由BodyContentHandler驱动的,它只提取文档正文的HTML内容。如果需要,这可以另外与其他处理程序组合以仅返回主体的纯文本。
0
public String[] tika_autoParser() {
String[] result = new String[3];
try {
InputStream input = new FileInputStream(new File(path));
ContentHandler textHandler = new BodyContentHandler();
Metadata metadata = new Metadata();
AutoDetectParser parser = new AutoDetectParser();
ParseContext context = new ParseContext();
parser.parse(input, textHandler, metadata, context);
result[0] = "Title: " + metadata.get(metadata.TITLE);
result[1] = "Body: " + textHandler.toString();
} catch (FileNotFoundException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
} catch (SAXException e) {
e.printStackTrace();
} catch (TikaException e) {
e.printStackTrace();
}
return result;
}
相关问题
- 1. iPhone:检索“文档”目录的内容
- 2. 检索文档内容与文档结构与Python,DOCX
- 3. Apache Tika服务器请求获取'主要内容'而不是'纯文本'
- 4. 从子内容检索内容
- 5. 内容不从文件中检索
- 6. 如何从docx4js检索内容文本?
- 7. 从SharePoint 2010文档库检索文档
- 8. 检索word文档内的内容控件的位置
- 9. Grails - Tika内容操作
- 10. 无法使用tika从pdf文件中提取文本内容
- 11. 如何从中提取内容。使用apache tika的Pst文件?
- 12. Apache Tika无法从大型PDF中提取全文内容
- 13. 设计文档内容 - 需要什么?
- 14. 将Google文档内容检索到vb窗体中
- 15. Solr没有索引文档的内容
- 16. 如何从LaTeX文档中提取重要的文本内容
- 17. 从未知内容类型的文档中提取文本
- 18. 如何显示从jquery.ajax()中检索到的xml文档的内容...?
- 19. 检索Cookie内容
- 20. NSMutableDictionary检索内容
- 21. Mongodb检索文档
- 22. 如何从使用Open CMIS分离文档类型的露天存储库中检索所有文档内容
- 23. Asp.net从控件检索内容
- 24. 从NSOutlineView中检索单元格内容
- 25. 根据文件夹名从文档检索文档
- 26. 从mongoDB中检索嵌入文档
- 27. 从HTML文档中检索单词量
- 28. C#:从bson文档检索数组值
- 29. 从MHT文档中提取内容
- 30. 从gdata API读取文档内容?
在下面的问题中提供了一个解决方案,使用boilerpipe。 http://stackoverflow.com/questions/42589076/apache-tika-how-to-extract-html-body-with-out-header-and-footer-content – 2017-03-08 04:33:45