.split＆.strip删除空格和标记

我正尝试使用python函数中构建的.split和.strip从文件中获取标记中的数据。.split＆.strip删除空格和标记

file = open("testFile.txt") 
for pointlessVariableName in file: 
    teamName = pointlessVariableName.strip().split("<name></team>") 
for i in range(0,len(teamName)): 
    teamName[i] = teamName[i].strip()

我不完全熟悉这两个，但我们的目标是摆脱标签“”和“”，并摆脱之前和标签内的话后的空间。

来源

2016-12-05 Noah Burroughs

什么是你的数据文件的结构？你可以粘贴片断在这里 – georgexsh

结构如下：新英格兰爱国者汤姆·布雷迪 5-11 等等......有多个各（遇到问题发布到网页）的 –

-1

你可以试试这个代码块：

from w3lib.html import remove_tags 
file = open("testFile.txt") 
for pointlessVariableName in file: 
    teamName = map(str,remove_tags(pointlessVariableName).split()) 
    print(teamName)

输出：

['New', 'England', 'Patriots', 'Tom', 'Brady', '5-11']

来源

2016-12-05 05:15:50

op没有说数据是HTML。 – georgexsh

但是文件结构就像html：打开和关闭标签 –

我不得不说这是一个大胆的结论。 – georgexsh

如果你的数据是结构良好的XML，使用适当的XML解析器，它是笨拙与split/strip解析结构化数据。

如果你仍然想手工分析它，请使用正则表达式。

来源

2016-12-05 05:16:23 georgexsh

你可以进入更详细的手工解析它吗？谢谢。我知道这可能不是与这两者最有效的解析，只是试图这样做。 –

您可以将更多行数据粘贴到pastebin.com以供进一步调查。 – georgexsh

本质上，我想从这些中删除标签（最终总结）。 http://pastebin.com/GNLytFbU。我正计划创建一个循环，其中包含标签，然后每次查找新标签时都会写入新文件。希望这更有意义。 –

.split＆.strip删除空格和标记

回答

相关问题