我正在使用xgoogle
在互联网上搜索某些内容的程序,然后查找结果网站中的所有文件。我在查找网站中的所有文件时遇到问题。我发现了一个类似的question,但我无法使其工作。这是我一直在使用的代码。列出网站上的所有文件
from bs4 import BeautifulSoup
import requests
def find_files():
url = "http://www.python.org"
soup = BeautifulSoup(requests.get(url).text)
for a in soup.find('div', {'class': 'catlist'}).find_all('a'):
yield url + a['href']
当我打电话时,代码无法运行。我已经把函数中的打印语句,但没有任何反应。 我应该怎么做才能修复它?这个函数如何返回网站中所有文件的列表?
嗨,你是什么意思的“网站上的文件”?你指的是网页上的链接吗? – msturdy
我指的是页面的文件系统。例如,find_files(“http://www.python.org”)的结果将是http://www.python.org/doc/以及http://www.python.org/about/和全部该站点文件系统中的其他目录和文件。 – AHuman
这些都不是“文件”或“目录”。他们是链接。 –