0
多个HTML标记需要解析HTML文件,包含不止一个html标签,用jsoup。我如何从HTML文件中提取正文内容与jsoup
我分裂文件成许多HTML元素和我能够提取一些标签,如标题
Document doc = Jsoup.parse(file, "UTF-8");
Elements el = doc.getElementsByTag("html");
for (Element e : el) {
writer = new PrintWriter(output);
writer.println(e.select("title"));
writer.println(e.select("body"));
writer.close();
}
输出
,但它似乎忽略了body标签是否存在等在每个元素。
使用Document.body()
刚刚吐body标签的所有内容一起。
既然不能得到从每个元件使用上body()
一个文件,我怎么能提取从每个元件seperately body标签?
具有多个html标记的文件不是有效的HTML文件。这是几个HTML页面连接(推测),或者如果它们嵌套更糟。你为什么要处理这些无效的文件?没有办法让输入成为几个有效的HTML文件吗?否则,请自行分割文件,然后分别分析每个HTML文档。 –