2015-06-01 29 views
0

我正在尝试学习简单的自动化。我建立了一个Ubuntu服务器,我想配置它从特定的URL下载html源文件并每隔1分钟附加到服务器上指定文件夹中的文件。将网站源文件下载到文件夹的脚本

该URL只是基本的HTML,没有任何CSS。

我想使用python,但承认可以使用任何语言。什么是一个好的,简单的一天来做到这一点?

+0

您想每次将内容追加到同一个文件或新文件吗? – rohithpr

+0

最好是同一个文件。 – user8363

回答

0

只是pip安装请求库。

$ pip install requests 

然后,它的超级容易得到HTML(把这种在一个名为get_html.py文件,或任何名称你喜欢):

import requests 

req = requests.get('http://docs.python-requests.org/en/latest/user/quickstart/') 

print(req.text) 

有各种各样的用于保存的选项HTML到目录。例如,你可以通过调用它像这样从上面的脚本文件中的输出重定向:

python get_html.py > file.html 

希望这有助于

+0

我会推荐使用pip3和python3。 请注意,当您命名文件时,请确保您没有将其命名为与现有模块类似的内容。简单的错字可能会导致令人讨厌的错误。例如:命名文件“random.py”或“requests.py”。 “request.py”有效,但要小心。 – rohithpr

0

杰夫的回答适用于一次性使用。 你能做到这一点来运行它repeatedly-

import time 
import requests 

while True: 
    with open('filename.extension', 'a') as fp: 
     newHtml = requests.get('url').text 
     fp.write(newHtml) 
    time.sleep(60) 

你可以,只要你想运行此作为后台进程。

$ python3 script_name.py & 
相关问题