我正在尝试学习简单的自动化。我建立了一个Ubuntu服务器,我想配置它从特定的URL下载html源文件并每隔1分钟附加到服务器上指定文件夹中的文件。将网站源文件下载到文件夹的脚本
该URL只是基本的HTML,没有任何CSS。
我想使用python,但承认可以使用任何语言。什么是一个好的,简单的一天来做到这一点?
我正在尝试学习简单的自动化。我建立了一个Ubuntu服务器,我想配置它从特定的URL下载html源文件并每隔1分钟附加到服务器上指定文件夹中的文件。将网站源文件下载到文件夹的脚本
该URL只是基本的HTML,没有任何CSS。
我想使用python,但承认可以使用任何语言。什么是一个好的,简单的一天来做到这一点?
只是pip安装请求库。
$ pip install requests
然后,它的超级容易得到HTML(把这种在一个名为get_html.py文件,或任何名称你喜欢):
import requests
req = requests.get('http://docs.python-requests.org/en/latest/user/quickstart/')
print(req.text)
有各种各样的用于保存的选项HTML到目录。例如,你可以通过调用它像这样从上面的脚本文件中的输出重定向:
python get_html.py > file.html
希望这有助于
我会推荐使用pip3和python3。 请注意,当您命名文件时,请确保您没有将其命名为与现有模块类似的内容。简单的错字可能会导致令人讨厌的错误。例如:命名文件“random.py”或“requests.py”。 “request.py”有效,但要小心。 – rohithpr
杰夫的回答适用于一次性使用。 你能做到这一点来运行它repeatedly-
import time
import requests
while True:
with open('filename.extension', 'a') as fp:
newHtml = requests.get('url').text
fp.write(newHtml)
time.sleep(60)
你可以,只要你想运行此作为后台进程。
$ python3 script_name.py &
您想每次将内容追加到同一个文件或新文件吗? – rohithpr
最好是同一个文件。 – user8363