解析许多HTML文件我有HTML文本如下所示结构的许多实例:与BeautifulSoup和Python
<DOC>
<DOCNO> XXX-2222 </DOCNO>
<FIRST>Reports Former Saigon Officials Released from Re-education Camp</FIRST>
<TEXT>
Lots of text here
</TEXT>
</DOC>
<DOC>
<DOCNO> YYYY-0001 </DOCNO>
<FIRST>AP-ONU-ISRAEL -URGENT-</FIRST>
<TEXT>
Text
</TEXT>
</DOC>
etc, etc...
我需要做的是索引中的每个结构,与DocNo,首先,和文本,以后再分析(标记等)。
我想使用BeautifulSoup,但我需要一起提取几件事 - 我该怎么做,并将它们链接在一起?
我想的格式,如:
[(XXX-2222, "Reports Former Saigon Officials Released from Re-education Camp", "Lots of text here"), (YYYY-0001, "AP-ONU-ISRAEL -URGENT-", "Text"), etc...)
谢谢!
S.
这不是HTML。差远了!它可能是* XML *吗? – 2013-02-14 19:38:31
文件格式是在HTML中,而文件本身是语言语料库的一部分.. – user2070177 2013-02-14 19:42:18
我不明白 - 无论你在这里发布的是*不* HTML。你问我们如何解析你没有显示的HTML?此外,代码与你尝试过什么? – 2013-02-14 19:44:36