将网站源文件下载到文件夹的脚本

我正在尝试学习简单的自动化。我建立了一个Ubuntu服务器，我想配置它从特定的URL下载html源文件并每隔1分钟附加到服务器上指定文件夹中的文件。将网站源文件下载到文件夹的脚本

该URL只是基本的HTML，没有任何CSS。

我想使用python，但承认可以使用任何语言。什么是一个好的，简单的一天来做到这一点？

2015-06-01 user8363

您想每次将内容追加到同一个文件或新文件吗？ – rohithpr

最好是同一个文件。 – user8363

只是pip安装请求库。

$ pip install requests

然后，它的超级容易得到HTML（把这种在一个名为get_html.py文件，或任何名称你喜欢）：

import requests 

req = requests.get('http://docs.python-requests.org/en/latest/user/quickstart/') 

print(req.text)

有各种各样的用于保存的选项HTML到目录。例如，你可以通过调用它像这样从上面的脚本文件中的输出重定向：

python get_html.py > file.html

希望这有助于

来源

2015-06-01 16:59:08

我会推荐使用pip3和python3。请注意，当您命名文件时，请确保您没有将其命名为与现有模块类似的内容。简单的错字可能会导致令人讨厌的错误。例如：命名文件“random.py”或“requests.py”。 “request.py”有效，但要小心。 – rohithpr

杰夫的回答适用于一次性使用。你能做到这一点来运行它repeatedly-

import time 
import requests 

while True: 
    with open('filename.extension', 'a') as fp: 
     newHtml = requests.get('url').text 
     fp.write(newHtml) 
    time.sleep(60)

你可以，只要你想运行此作为后台进程。

$ python3 script_name.py &

来源

2015-06-01 17:39:11 rohithpr

将网站源文件下载到文件夹的脚本

回答

相关问题