0
我的任务是从目录中读取每个html文件。条件是找到每个文件是否包含标签beautifulsoup解析文件夹中的每个html文件webscrapping
(1) <strong>OO</strong>
(2) <strong>QQ</strong>
然后
我的任务是从目录中读取每个html文件。条件是找到每个文件是否包含标签beautifulsoup解析文件夹中的每个html文件webscrapping
(1) <strong>OO</strong>
(2) <strong>QQ</strong>
然后
你write
函数嵌套在for
循环,这就是为什么你写的多条线路到您的index.txt
,只需移动write
退出循环和把你的所有文字党的变量parti_names
这样的:
participants = soup.find(find_participant)
parti_names = ""
for parti in participants.find_next_siblings("p"):
if parti.find("strong", text=re.compile(r"(Operator)")):
break
parti_names += parti.get_text(strip=True)+","
print parti.get_text(strip=True)
indexFile = open('index.txt', 'a+')
indexFile.write(filename + ', ' + title.get_text(strip=True) + ticker.get_text(strip=True) + ', ' + d_date.get_text(strip=True) + ', ' + parti_names + '\n')
indexFile.close()
更新:
您可以basename
工作得到的文件名:
from os.path import basename
# you can call it directly with basename
print(basename("C:/Users/.../output/100107-.html"))
输出:
100107-.html
作品,谢谢 –
我还有一个问题,我只想文件名,但输出给我路径+文件名。我只是更新了代码。 –