我正在从HTML文档中提取文本并存储在数据库中。我正在使用webharvest工具来提取内容。不过,我有点卡住了。 webarvest内部我使用XQuery表达式来提取数据。那我解析HTML文件如下:Xquery在HTML中提取文本
<td><a name="hw">HELLOWORLD</a>Hello world</td>
我需要提取从上面的HTML脚本“Hello World”文本。
我试图以这种方式提取文本:
$hw :=data($item//a[@name='hw']/text())
但是我始终得到的是“HelloWorld”的,而不是“世界,你好”。
有没有办法提取“Hello World”。请帮忙。
如果我想这样做是这样的:
<td>
<a name="hw1">HELLOWORLD1</a>Hello world1
<a name="hw2">HELLOWORLD2</a>Hello world2
<a name="hw3">HELLOWORLD3</a>Hello world3
</td>
我想提取文本世界,你好2是在betweeb HW2和HW3。我不想使用text()[3],但有什么方法可以在/ a [@ name ='hw2']和/ a [@ name ='hw3']之间提取文本。
好问题(+1)。查看我的答案,找出您可能需要的解决方案。 – 2010-06-23 13:33:24