我试图从wepage中提取表格的内容。我只是需要的内容,但不是标签<tr></tr>
。我甚至不需要“tr”或“td”只是内容。对于如:删除sed或类似文件中的html标签
<td> I want only this </td>
<tr> and also this </tr>
<TABLE> only texts/numbers in between tags and not the tags. </TABLE>
我也希望把第一列输出这样一个新的CSV文件 COLUMN1,INFO1,INFO2,INFO3 coumn2,INFO1,INFO2,INFO3
我试图用sed删除模式<tr>
<td>
但是当我获取表格还有其他标签,如<color>
<span>
等,所以我想要的是删除所有的标签;总之一切都与<和>。
内容有规律吗?您可以使用['lynx'](http://lynx.browser.org/)来抓取页面并将其转换为文本,然后解析纯文本。很难说没有更多的细节,屏幕抓取往往是各种丑陋的黑客之间的选择。 –
好的,这解决了第一个问题** sed -e's/<.*> // g'input **。上面的评论我忘记了页面,只刮掉了表格部分。所以文件只包含干净的表格标签和数据。像考试时间表例程。 – user913492