2016-12-05 68 views
1

我正尝试使用python函数中构建的.split和.strip从文件中获取标记中的数据。.split&.strip删除空格和标记

file = open("testFile.txt") 
for pointlessVariableName in file: 
    teamName = pointlessVariableName.strip().split("<name></team>") 
for i in range(0,len(teamName)): 
    teamName[i] = teamName[i].strip() 

我不完全熟悉这两个,但我们的目标是摆脱标签“”和“”,并摆脱之前和标签内的话后的空间。

+0

什么是你的数据文件的结构?你可以粘贴片断在这里 – georgexsh

+0

结构如下: 新英格兰爱国者 汤姆·布雷迪 5-11 等等......有多个各(遇到问题发布到网页)的 –

回答

-1

你可以试试这个代码块:

from w3lib.html import remove_tags 
file = open("testFile.txt") 
for pointlessVariableName in file: 
    teamName = map(str,remove_tags(pointlessVariableName).split()) 
    print(teamName) 

输出:

['New', 'England', 'Patriots', 'Tom', 'Brady', '5-11'] 
+0

op没有说数据是HTML。 – georgexsh

+0

但是文件结构就像html:打开和关闭标签 –

+0

我不得不说这是一个大胆的结论。 – georgexsh

1

如果你的数据是结构良好的XML,使用适当的XML解析器,它是笨拙与split/strip解析结构化数据。

如果你仍然想手工分析它,请使用正则表达式。

+0

你可以进入更详细的手工解析它吗?谢谢。我知道这可能不是与这两者最有效的解析,只是试图这样做。 –

+0

您可以将更多行数据粘贴到pastebin.com以供进一步调查。 – georgexsh

+0

本质上,我想从这些中删除标签(最终总结)。 http://pastebin.com/GNLytFbU。我正计划创建一个循环,其中包含标签,然后每次查找新标签时都会写入新文件。希望这更有意义。 –