我是新来的Python和美丽的汤也!我听说过BS。它被告知是解析和提取内容的好工具。所以在这里我是...:美丽的汤[Python]和表中的文字提取
我想采取HTML 文件中表的第一个td的内容。例如,我有这张桌子
<table class="bp_ergebnis_tab_info">
<tr>
<td>
This is a sample text
</td>
<td>
This is the second sample text
</td>
</tr>
</table>
我怎样才能使用beautifulsoup采取文本“这是一个示例文本”? 我使用soup.findAll('table',attrs = {'class':'bp_ergebnis_tab_info'})获取整个表的 。
谢谢...或者我应该尝试使用Perl获得整个东西...我不太熟悉。另一个解决方案将是PHP中的正则表达式。
参阅目标[1]:http://www.schulministerium.nrw.de/BP/SchuleSuchen?action=799.601437941842&SchulAdresseMapDO=142323
注;因为html有点无效 - 我认为我们必须做一些清理工作。这可能会导致很多PHP代码 - 因为我们想在PHP中解决这个问题。 Perl也是一个很好的解决方案。
一些提示和想法的出发点非常感谢 零
很明显,你没有从你的Perl问题中得到太多东西,所以我甚至不知道为什么这个问题是用Perl标记的。此外,请勿每几周创建一个新帐户:创建一个并坚持使用它。 @zero知道我在说什么。其他人可以看看http:// stackoverflow。com/users/477580/thebutcher和http://stackoverflow.com/q/3991571/100754以及从那里链接的问题。 – 2010-12-11 13:44:20