我想从以下页面提取数据:替代包含标题的innerhtml?
其中,方便,效率低下不够,包括嵌入在头一个CSV文件中的所有数据,作为变量称为gs_csv。
我该如何解压? Document.body.innerhtml
跳过数据所在的标题,包含标题的备选项(或更好的与gs_csv
相关的值)是什么? (对不起,这些都是新鲜事,我一直在搜索大量的文档,并尝试了很多,但目前为止还没有发挥作用)。
感谢思南(这主要是他的解决方案转录成Python)。
import win32com.client
import time
import os
import os.path
ie = Dispatch("InternetExplorer.Application")
ie.Visible=False
ie.Navigate("http://www.bmreports.com/servlet/com.logica.neta.bwp_PanBMDataServlet?param1=¶m2=¶m3=¶m4=¶m5=2009-04-22¶m6=37#")
time.sleep(20)
webpage=ie.document.body.innerHTML
s1=ie.document.scripts(1).text
s1=s1[s1.find("gs_csv")+8:-11]
scriptfilepath="c:\FO Share\bmreports\script.txt"
scriptfile = open(scriptfilepath, 'wb')
scriptfile.write(s1.replace('\n','\n'))
scriptfile.close()
ie.quit
(链接省略,因为我是一个新手。) 如果有帮助,这是一个Python脚本,如下 进口win32com.client 进口时间 进口OS 进口os.path中 即=调度( “InternetExplorer.Application”) ie.Visible =真 即.Navigate(“http://www.bmreports.com/servlet/com.logica.neta.bwp_PanBMDataServlet?param1=¶m2=¶m3=¶m4=¶m5=2009-04-22¶m6=37#”) 时间。 sleep(20) webpage = ie.document.body#.innerHTML logfilepath =“p:\\ my documents \\ Python \\ webpagetmp.txt” LOG_FILE =开放(LOGFILEPATH, “WB”) log_file.write(网页) log_file.close() 打印网页 ie.quit – Brendan 2009-05-25 13:06:50
你可以做一个HTTP请求,得到整个字符串,和grep头? – DonkeyMaster 2009-05-25 15:45:43