我正在通过创建一个小程序学习C#,并找不到类似的帖子(如果此答案发布在其他地方,道歉)。屏幕抓取PDF链接下载
如何可能我去屏幕抓取的链接,PDF文件(我可以再下载到指定位置)一个网站吗?有时候,一个页面会链接到另一个具有实际PDF链接的HTML页面,因此如果在第一页上找不到真正的PDF,我希望它自动查找链接中包含“PDF”的链接链接的文本,然后在真正的PDF链接中搜索生成的HTML页面。
我知道我可以通过谷歌搜索文件类型来达到类似的效果,但这似乎是“欺骗”我:)我宁愿学习如何在代码中做到这一点,但我不知道在哪里开始。我对XElement等XML解析有点熟悉,但我不确定如何从HTML页面(或其他格式?)获取链接。
任何人都可以指向正确的方向吗?谢谢!
谢谢!这真的有帮助。 – superwillis 2011-03-14 05:52:19
这里的变量pdfUrls是什么类型的?我如何循环访问pdfUrls中包含的每个链接?仍然像数组一样访问pdfUrls [0],pdfUrls [1]? – devcoder 2013-09-30 00:25:03
@Maxim Gueivandov我将搜索路径更改为字符串pdfLinksUrl =“http://www.google.com/search?q=cloud+computing+filetype%3Apdf”;并没有得到任何结果 – Narasappa 2016-04-25 11:21:17